This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
include/llvm/IR/
-
llvm/
-
IR/
-
IntrinsicsAMDGPU.td
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
AMDGPURegisterBankInfo.cpp
-
SIISelLowering.h
-
SIISelLowering.cpp
-
SIInstrInfo.td
-
test/CodeGen/AMDGPU/GlobalISel/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
regbankselect-amdgcn-s-buffer-load.mir

Differential D63420

AMDGPU: Fix s.buffer.load being marked as readnone
AbandonedPublic

Authored by arsenm on Jun 17 2019, 5:29 AM.

Download Raw Diff

Details

Reviewers

nhaehnle
mareko
rampitec

Diff Detail

Event Timeline

arsenm created this revision.Jun 17 2019, 5:29 AM

Herald added subscribers: t-tye, tpr, dstuttard and 4 others. · View Herald TranscriptJun 17 2019, 5:29 AM

What does this actually fix?

This is likely to pessimize codegen for graphics quite badly. Graphics APIs make fairly strong aliasing guarantees which we don't properly express in LLVM at the moment, and we kind of get by without it by having s.buffer.load be readnone.

This revision now requires changes to proceed.Jun 17 2019, 5:33 AM

I should clarify that I'm not opposed to this kind of change in the long run, but as-is it needs a careful look at the performance implications.

In D63420#1545917, @nhaehnle wrote:

What does this actually fix?

This is likely to pessimize codegen for graphics quite badly. Graphics APIs make fairly strong aliasing guarantees which we don't properly express in LLVM at the moment, and we kind of get by without it by having s.buffer.load be readnone.

When trying to do some global isel work, I ran into inconsistencies in the attributes (e.g. D63422), and I don't want to spread awareness of this hack to more places. We can't really fix this until we have fat pointers. I would rather have the declaration be accurate. If graphics users want to assume readnone as a performance hack until that is fixed, they can annotate every call site with readnone.

This breaks Mesa:
LLVM ERROR: Cannot select: intrinsic %llvm.amdgcn.s.buffer.load

In D63420#1545977, @arsenm wrote:

In D63420#1545917, @nhaehnle wrote:

What does this actually fix?

This is likely to pessimize codegen for graphics quite badly. Graphics APIs make fairly strong aliasing guarantees which we don't properly express in LLVM at the moment, and we kind of get by without it by having s.buffer.load be readnone.

When trying to do some global isel work, I ran into inconsistencies in the attributes (e.g. D63422), and I don't want to spread awareness of this hack to more places. We can't really fix this until we have fat pointers. I would rather have the declaration be accurate. If graphics users want to assume readnone as a performance hack until that is fixed, they can annotate every call site with readnone.

Okay, I think changing the intrinsic to readonly is fine. Mesa sets readnone on the callsite.

That said, I do see lit test failures which should be the same as the Mesa problems. Could you please also add a test (or modify a test) in llvm.amdgcn.s.buffer.load.ll which sets readnone on the callsite?

ppelloux added a subscriber: ppelloux.Jun 25 2019, 6:30 AM

Fix selection

This has a possibly negative impact on Mesa. Both SGPR usage and SGPR spilling increased. I don't see anything suspicious in the generated assembly other than instructions being reordered. I'd like to better understand the side effects of this patch.

Note that Mesa does set readnone on call sites.

Obsoleted by D147245

Herald added a project: Restricted Project. · View Herald TranscriptMar 30 2023, 10:59 AM

Herald added subscribers: kosarev, kerbowa. · View Herald Transcript

Revision Contents

Path

Size

include/

llvm/

IR/

IntrinsicsAMDGPU.td

2 lines

lib/

Target/

AMDGPU/

AMDGPURegisterBankInfo.cpp

60 lines

SIISelLowering.h

5 lines

SIISelLowering.cpp

49 lines

SIInstrInfo.td

2 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

regbankselect-amdgcn-s-buffer-load.mir

16 lines

Diff 206565

include/llvm/IR/IntrinsicsAMDGPU.td

	Show First 20 Lines • Show All 859 Lines • ▼ Show 20 Lines
	def int_amdgcn_buffer_load_format : AMDGPUBufferLoad;			def int_amdgcn_buffer_load_format : AMDGPUBufferLoad;
	def int_amdgcn_buffer_load : AMDGPUBufferLoad;			def int_amdgcn_buffer_load : AMDGPUBufferLoad;

	def int_amdgcn_s_buffer_load : Intrinsic <			def int_amdgcn_s_buffer_load : Intrinsic <
	[llvm_any_ty],			[llvm_any_ty],
	[llvm_v4i32_ty, // rsrc(SGPR)			[llvm_v4i32_ty, // rsrc(SGPR)
	llvm_i32_ty, // byte offset(SGPR/imm)			llvm_i32_ty, // byte offset(SGPR/imm)
	llvm_i32_ty], // cachepolicy(imm; bit 0 = glc, bit 2 = dlc)			llvm_i32_ty], // cachepolicy(imm; bit 0 = glc, bit 2 = dlc)
	[IntrNoMem, ImmArg<2>]>,			[IntrReadMem, ImmArg<2>]>,
	AMDGPURsrcIntrinsic<0>;			AMDGPURsrcIntrinsic<0>;

	class AMDGPUBufferStore : Intrinsic <			class AMDGPUBufferStore : Intrinsic <
	[],			[],
	[llvm_any_ty, // vdata(VGPR)			[llvm_any_ty, // vdata(VGPR)
	llvm_v4i32_ty, // rsrc(SGPR)			llvm_v4i32_ty, // rsrc(SGPR)
	llvm_i32_ty, // vindex(VGPR)			llvm_i32_ty, // vindex(VGPR)
	llvm_i32_ty, // offset(SGPR/VGPR/imm)			llvm_i32_ty, // offset(SGPR/VGPR/imm)
	▲ Show 20 Lines • Show All 795 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 922 Lines • ▼ Show 20 Lines	case AMDGPU::G_ZEXT: {
MRI.setRegBank(Shl.getReg(0), *SrcBank);		MRI.setRegBank(Shl.getReg(0), *SrcBank);
MI.eraseFromParent();		MI.eraseFromParent();
return;		return;
}		}
case AMDGPU::G_EXTRACT_VECTOR_ELT:		case AMDGPU::G_EXTRACT_VECTOR_ELT:
applyDefaultMapping(OpdMapper);		applyDefaultMapping(OpdMapper);
executeInWaterfallLoop(MI, MRI, { 2 });		executeInWaterfallLoop(MI, MRI, { 2 });
return;		return;
case AMDGPU::G_INTRINSIC: {
switch (MI.getOperand(MI.getNumExplicitDefs()).getIntrinsicID()) {
case Intrinsic::amdgcn_s_buffer_load: {
// FIXME: Move to G_INTRINSIC_W_SIDE_EFFECTS
executeInWaterfallLoop(MI, MRI, { 2, 3 });
return;
}
default:
break;
}
break;
}
case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {		case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {
switch (MI.getOperand(MI.getNumExplicitDefs()).getIntrinsicID()) {		switch (MI.getOperand(MI.getNumExplicitDefs()).getIntrinsicID()) {
case Intrinsic::amdgcn_buffer_load: {		case Intrinsic::amdgcn_buffer_load: {
executeInWaterfallLoop(MI, MRI, { 2 });		executeInWaterfallLoop(MI, MRI, { 2 });
return;		return;
}		}
		case Intrinsic::amdgcn_s_buffer_load: {
		executeInWaterfallLoop(MI, MRI, { 2, 3 });
		return;
		}
default:		default:
break;		break;
}		}
break;		break;
}		}
default:		default:
break;		break;
}		}
▲ Show 20 Lines • Show All 504 Lines • ▼ Show 20 Lines	case Intrinsic::amdgcn_kernarg_segment_ptr: {
break;		break;
}		}
case Intrinsic::amdgcn_wqm_vote: {		case Intrinsic::amdgcn_wqm_vote: {
unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
OpdsMapping[0] = OpdsMapping[2]		OpdsMapping[0] = OpdsMapping[2]
= AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size);		= AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size);
break;		break;
}		}
case Intrinsic::amdgcn_s_buffer_load: {
// FIXME: This should be moved to G_INTRINSIC_W_SIDE_EFFECTS
unsigned RSrc = MI.getOperand(2).getReg(); // SGPR
unsigned Offset = MI.getOperand(3).getReg(); // SGPR/imm

unsigned Size0 = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
unsigned Size2 = MRI.getType(RSrc).getSizeInBits();
unsigned Size3 = MRI.getType(Offset).getSizeInBits();

unsigned RSrcBank = getRegBankID(RSrc, MRI, *TRI);
unsigned OffsetBank = getRegBankID(Offset, MRI, *TRI);

OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size0);
OpdsMapping[1] = nullptr; // intrinsic id

// Lie and claim everything is legal, even though some need to be
// SGPRs. applyMapping will have to deal with it as a waterfall loop.
OpdsMapping[2] = AMDGPU::getValueMapping(RSrcBank, Size2); // rsrc
OpdsMapping[3] = AMDGPU::getValueMapping(OffsetBank, Size3);
OpdsMapping[4] = nullptr;
break;
}
case Intrinsic::amdgcn_div_scale: {		case Intrinsic::amdgcn_div_scale: {
unsigned Dst0Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned Dst0Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
unsigned Dst1Size = MRI.getType(MI.getOperand(1).getReg()).getSizeInBits();		unsigned Dst1Size = MRI.getType(MI.getOperand(1).getReg()).getSizeInBits();
OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, Dst0Size);		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, Dst0Size);
OpdsMapping[1] = AMDGPU::getValueMapping(AMDGPU::VCCRegBankID, Dst1Size);		OpdsMapping[1] = AMDGPU::getValueMapping(AMDGPU::VCCRegBankID, Dst1Size);

unsigned SrcSize = MRI.getType(MI.getOperand(3).getReg()).getSizeInBits();		unsigned SrcSize = MRI.getType(MI.getOperand(3).getReg()).getSizeInBits();
OpdsMapping[3] = AMDGPU::getValueMapping(		OpdsMapping[3] = AMDGPU::getValueMapping(
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	case Intrinsic::amdgcn_buffer_load: {
// SGPRs. applyMapping will have to deal with it as a waterfall loop.		// SGPRs. applyMapping will have to deal with it as a waterfall loop.
OpdsMapping[2] = AMDGPU::getValueMapping(RSrcBank, Size2); // rsrc		OpdsMapping[2] = AMDGPU::getValueMapping(RSrcBank, Size2); // rsrc
OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, Size3);		OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, Size3);
OpdsMapping[4] = AMDGPU::getValueMapping(OffsetBank, Size4);		OpdsMapping[4] = AMDGPU::getValueMapping(OffsetBank, Size4);
OpdsMapping[5] = nullptr;		OpdsMapping[5] = nullptr;
OpdsMapping[6] = nullptr;		OpdsMapping[6] = nullptr;
break;		break;
}		}
		case Intrinsic::amdgcn_s_buffer_load: {
		// FIXME: This should be moved to G_INTRINSIC_W_SIDE_EFFECTS
		unsigned RSrc = MI.getOperand(2).getReg(); // SGPR
		unsigned Offset = MI.getOperand(3).getReg(); // SGPR/imm

		unsigned Size0 = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
		unsigned Size2 = MRI.getType(RSrc).getSizeInBits();
		unsigned Size3 = MRI.getType(Offset).getSizeInBits();

		unsigned RSrcBank = getRegBankID(RSrc, MRI, *TRI);
		unsigned OffsetBank = getRegBankID(Offset, MRI, *TRI);

		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size0);
		OpdsMapping[1] = nullptr; // intrinsic id

		// Lie and claim everything is legal, even though some need to be
		// SGPRs. applyMapping will have to deal with it as a waterfall loop.
		OpdsMapping[2] = AMDGPU::getValueMapping(RSrcBank, Size2); // rsrc
		OpdsMapping[3] = AMDGPU::getValueMapping(OffsetBank, Size3);
		OpdsMapping[4] = nullptr;
		break;
		}
}		}

break;		break;
}		}
case AMDGPU::G_SELECT: {		case AMDGPU::G_SELECT: {
unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
unsigned Op1Bank = getRegBankID(MI.getOperand(1).getReg(), MRI, *TRI,		unsigned Op1Bank = getRegBankID(MI.getOperand(1).getReg(), MRI, *TRI,
AMDGPU::SGPRRegBankID);		AMDGPU::SGPRRegBankID);
▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.h

Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	SDValue getPreloadedValue(SelectionDAG &DAG,
AMDGPUFunctionArgInfo::PreloadedValue) const;		AMDGPUFunctionArgInfo::PreloadedValue) const;

SDValue LowerGlobalAddress(AMDGPUMachineFunction *MFI, SDValue Op,		SDValue LowerGlobalAddress(AMDGPUMachineFunction *MFI, SDValue Op,
SelectionDAG &DAG) const override;		SelectionDAG &DAG) const override;
SDValue lowerImplicitZextParam(SelectionDAG &DAG, SDValue Op,		SDValue lowerImplicitZextParam(SelectionDAG &DAG, SDValue Op,
MVT VT, unsigned Offset) const;		MVT VT, unsigned Offset) const;
SDValue lowerImage(SDValue Op, const AMDGPU::ImageDimIntrinsicInfo *Intr,		SDValue lowerImage(SDValue Op, const AMDGPU::ImageDimIntrinsicInfo *Intr,
SelectionDAG &DAG) const;		SelectionDAG &DAG) const;
SDValue lowerSBuffer(EVT VT, SDLoc DL, SDValue Rsrc, SDValue Offset,		SDValue lowerSBuffer(EVT VT, SDLoc DL, SDValue Chain,
SDValue GLC, SDValue DLC, SelectionDAG &DAG) const;		SDValue Rsrc, SDValue Offset, SDValue GLC,
		SDValue DLC, SelectionDAG &DAG) const;

SDValue LowerINTRINSIC_WO_CHAIN(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_WO_CHAIN(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINTRINSIC_W_CHAIN(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_W_CHAIN(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINTRINSIC_VOID(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_VOID(SDValue Op, SelectionDAG &DAG) const;

// The raw.tbuffer and struct.tbuffer intrinsics have two offset args: offset		// The raw.tbuffer and struct.tbuffer intrinsics have two offset args: offset
// (the offset that is included in bounds checking and swizzling, to be split		// (the offset that is included in bounds checking and swizzling, to be split
// between the instruction's voffset and immoffset fields) and soffset (the		// between the instruction's voffset and immoffset fields) and soffset (the
▲ Show 20 Lines • Show All 309 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,341 Lines • ▼ Show 20 Lines	return constructRetValue(DAG, NewNode,
Subtarget->hasUnpackedD16VMem(), IsD16,		Subtarget->hasUnpackedD16VMem(), IsD16,
DMaskLanes, NumVDataDwords, DL,		DMaskLanes, NumVDataDwords, DL,
*DAG.getContext());		*DAG.getContext());
}		}

return SDValue(NewNode, 0);		return SDValue(NewNode, 0);
}		}

SDValue SITargetLowering::lowerSBuffer(EVT VT, SDLoc DL, SDValue Rsrc,		SDValue SITargetLowering::lowerSBuffer(EVT VT, SDLoc DL, SDValue Chain,
SDValue Offset, SDValue GLC, SDValue DLC,		SDValue Rsrc, SDValue Offset,
		SDValue GLC, SDValue DLC,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
MachineFunction &MF = DAG.getMachineFunction();		MachineFunction &MF = DAG.getMachineFunction();
MachineMemOperand *MMO = MF.getMachineMemOperand(		MachineMemOperand *MMO = MF.getMachineMemOperand(
MachinePointerInfo(),		MachinePointerInfo(),
MachineMemOperand::MOLoad \| MachineMemOperand::MODereferenceable \|		MachineMemOperand::MOLoad \| MachineMemOperand::MODereferenceable \|
MachineMemOperand::MOInvariant,		MachineMemOperand::MOInvariant,
VT.getStoreSize(), VT.getStoreSize());		VT.getStoreSize(), VT.getStoreSize());

if (!Offset->isDivergent()) {		if (!Offset->isDivergent()) {
SDValue Ops[] = {		SDValue Ops[] = {
		Chain,
Rsrc,		Rsrc,
Offset, // Offset		Offset, // Offset
GLC,		GLC,
DLC,		DLC,
};		};
return DAG.getMemIntrinsicNode(AMDGPUISD::SBUFFER_LOAD, DL,		return DAG.getMemIntrinsicNode(AMDGPUISD::SBUFFER_LOAD, DL,
DAG.getVTList(VT), Ops, VT, MMO);		DAG.getVTList(VT, MVT::Other), Ops, VT, MMO);
}		}

// We have a divergent offset. Emit a MUBUF buffer load instead. We can		// We have a divergent offset. Emit a MUBUF buffer load instead. We can
// assume that the buffer is unswizzled.		// assume that the buffer is unswizzled.
SmallVector<SDValue, 4> Loads;		SmallVector<SDValue, 4> Loads;
		SmallVector<SDValue, 4> Chains;
unsigned NumLoads = 1;		unsigned NumLoads = 1;
MVT LoadVT = VT.getSimpleVT();		MVT LoadVT = VT.getSimpleVT();
unsigned NumElts = LoadVT.isVector() ? LoadVT.getVectorNumElements() : 1;		unsigned NumElts = LoadVT.isVector() ? LoadVT.getVectorNumElements() : 1;
assert((LoadVT.getScalarType() == MVT::i32 \|\|		assert((LoadVT.getScalarType() == MVT::i32 \|\|
LoadVT.getScalarType() == MVT::f32) &&		LoadVT.getScalarType() == MVT::f32) &&
isPowerOf2_32(NumElts));		isPowerOf2_32(NumElts));

if (NumElts == 8 \|\| NumElts == 16) {		if (NumElts == 8 \|\| NumElts == 16) {
NumLoads = NumElts == 16 ? 4 : 2;		NumLoads = NumElts == 16 ? 4 : 2;
LoadVT = MVT::v4i32;		LoadVT = MVT::v4i32;
}		}

SDVTList VTList = DAG.getVTList({LoadVT, MVT::Glue});		SDVTList VTList = DAG.getVTList({LoadVT, MVT::Other});
unsigned CachePolicy = cast<ConstantSDNode>(GLC)->getZExtValue();		unsigned CachePolicy = cast<ConstantSDNode>(GLC)->getZExtValue();
SDValue Ops[] = {		SDValue Ops[] = {
DAG.getEntryNode(), // Chain		Chain,
Rsrc, // rsrc		Rsrc, // rsrc
DAG.getConstant(0, DL, MVT::i32), // vindex		DAG.getConstant(0, DL, MVT::i32), // vindex
{}, // voffset		{}, // voffset
{}, // soffset		{}, // soffset
{}, // offset		{}, // offset
DAG.getConstant(CachePolicy, DL, MVT::i32), // cachepolicy		DAG.getConstant(CachePolicy, DL, MVT::i32), // cachepolicy
DAG.getConstant(0, DL, MVT::i1), // idxen		DAG.getConstant(0, DL, MVT::i1), // idxen
};		};

// Use the alignment to ensure that the required offsets will fit into the		// Use the alignment to ensure that the required offsets will fit into the
// immediate offsets.		// immediate offsets.
setBufferOffsets(Offset, DAG, &Ops[3], NumLoads > 1 ? 16 * NumLoads : 4);		setBufferOffsets(Offset, DAG, &Ops[3], NumLoads > 1 ? 16 * NumLoads : 4);

uint64_t InstOffset = cast<ConstantSDNode>(Ops[5])->getZExtValue();		uint64_t InstOffset = cast<ConstantSDNode>(Ops[5])->getZExtValue();
for (unsigned i = 0; i < NumLoads; ++i) {		for (unsigned i = 0; i < NumLoads; ++i) {
Ops[5] = DAG.getConstant(InstOffset + 16 * i, DL, MVT::i32);		Ops[5] = DAG.getConstant(InstOffset + 16 * i, DL, MVT::i32);
Loads.push_back(DAG.getMemIntrinsicNode(AMDGPUISD::BUFFER_LOAD, DL, VTList,		SDValue Load = DAG.getMemIntrinsicNode(AMDGPUISD::BUFFER_LOAD, DL, VTList,
Ops, LoadVT, MMO));		Ops, LoadVT, MMO);
		Loads.push_back(Load);
		Chains.push_back(Load.getValue(1));
		}

		if (VT == MVT::v8i32 \|\| VT == MVT::v16i32) {
		SDValue Concat = DAG.getNode(ISD::CONCAT_VECTORS, DL, VT, Loads);
		return DAG.getMergeValues({Concat, DAG.getTokenFactor(DL, Chains)}, DL);
}		}

if (VT == MVT::v8i32 \|\| VT == MVT::v16i32)		assert(NumLoads == 1);
return DAG.getNode(ISD::CONCAT_VECTORS, DL, VT, Loads);

return Loads[0];		return Loads[0];
}		}

SDValue SITargetLowering::LowerINTRINSIC_WO_CHAIN(SDValue Op,		SDValue SITargetLowering::LowerINTRINSIC_WO_CHAIN(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
MachineFunction &MF = DAG.getMachineFunction();		MachineFunction &MF = DAG.getMachineFunction();
auto MFI = MF.getInfo<SIMachineFunctionInfo>();		auto MFI = MF.getInfo<SIMachineFunctionInfo>();
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::LowerINTRINSIC_WO_CHAIN(SDValue Op,
case Intrinsic::amdgcn_workitem_id_z:		case Intrinsic::amdgcn_workitem_id_z:
case Intrinsic::r600_read_tidig_z:		case Intrinsic::r600_read_tidig_z:
return loadInputValue(DAG, &AMDGPU::VGPR_32RegClass, MVT::i32,		return loadInputValue(DAG, &AMDGPU::VGPR_32RegClass, MVT::i32,
SDLoc(DAG.getEntryNode()),		SDLoc(DAG.getEntryNode()),
MFI->getArgInfo().WorkItemIDZ);		MFI->getArgInfo().WorkItemIDZ);
case Intrinsic::amdgcn_wavefrontsize:		case Intrinsic::amdgcn_wavefrontsize:
return DAG.getConstant(MF.getSubtarget<GCNSubtarget>().getWavefrontSize(),		return DAG.getConstant(MF.getSubtarget<GCNSubtarget>().getWavefrontSize(),
SDLoc(Op), MVT::i32);		SDLoc(Op), MVT::i32);
case Intrinsic::amdgcn_s_buffer_load: {
bool IsGFX10 = Subtarget->getGeneration() >= AMDGPUSubtarget::GFX10;
SDValue GLC;
SDValue DLC = DAG.getTargetConstant(0, DL, MVT::i1);
if (!parseCachePolicy(Op.getOperand(3), DAG, &GLC, nullptr,
IsGFX10 ? &DLC : nullptr))
return Op;
return lowerSBuffer(VT, DL, Op.getOperand(1), Op.getOperand(2), GLC, DLC,
DAG);
}
case Intrinsic::amdgcn_fdiv_fast:		case Intrinsic::amdgcn_fdiv_fast:
return lowerFDIV_FAST(Op, DAG);		return lowerFDIV_FAST(Op, DAG);
case Intrinsic::amdgcn_interp_mov: {		case Intrinsic::amdgcn_interp_mov: {
SDValue M0 = copyToM0(DAG, DAG.getEntryNode(), DL, Op.getOperand(4));		SDValue M0 = copyToM0(DAG, DAG.getEntryNode(), DL, Op.getOperand(4));
SDValue Glue = M0.getValue(1);		SDValue Glue = M0.getValue(1);
return DAG.getNode(AMDGPUISD::INTERP_MOV, DL, MVT::f32, Op.getOperand(1),		return DAG.getNode(AMDGPUISD::INTERP_MOV, DL, MVT::f32, Op.getOperand(1),
Op.getOperand(2), Op.getOperand(3), Glue);		Op.getOperand(2), Op.getOperand(3), Glue);
}		}
▲ Show 20 Lines • Show All 764 Lines • ▼ Show 20 Lines	SDValue Ops[] = {
DAG.getConstant(1, DL, MVT::i1), // idxen		DAG.getConstant(1, DL, MVT::i1), // idxen
};		};
EVT VT = Op.getValueType();		EVT VT = Op.getValueType();
auto *M = cast<MemSDNode>(Op);		auto *M = cast<MemSDNode>(Op);

return DAG.getMemIntrinsicNode(AMDGPUISD::BUFFER_ATOMIC_CMPSWAP, DL,		return DAG.getMemIntrinsicNode(AMDGPUISD::BUFFER_ATOMIC_CMPSWAP, DL,
Op->getVTList(), Ops, VT, M->getMemOperand());		Op->getVTList(), Ops, VT, M->getMemOperand());
}		}
		case Intrinsic::amdgcn_s_buffer_load: {
		bool IsGFX10 = Subtarget->getGeneration() >= AMDGPUSubtarget::GFX10;
		SDValue GLC;
		SDValue DLC = DAG.getTargetConstant(0, DL, MVT::i1);
		if (!parseCachePolicy(Op.getOperand(4), DAG, &GLC, nullptr,
		IsGFX10 ? &DLC : nullptr))
		return Op;

		EVT VT = Op.getValueType();
		return lowerSBuffer(VT, DL, Op.getOperand(0),
		Op.getOperand(2), Op.getOperand(3), GLC, DLC,
		DAG);
		}
default:		default:
if (const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr =		if (const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr =
AMDGPU::getImageDimIntrinsicInfo(IntrID))		AMDGPU::getImageDimIntrinsicInfo(IntrID))
return lowerImage(Op, ImageDimIntr, DAG);		return lowerImage(Op, ImageDimIntr, DAG);

return SDValue();		return SDValue();
}		}
}		}
▲ Show 20 Lines • Show All 4,078 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.td

	Show All 35 Lines
	// SI DAG Nodes			// SI DAG Nodes
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	def AMDGPUclamp : SDNode<"AMDGPUISD::CLAMP", SDTFPUnaryOp>;			def AMDGPUclamp : SDNode<"AMDGPUISD::CLAMP", SDTFPUnaryOp>;

	def SIsbuffer_load : SDNode<"AMDGPUISD::SBUFFER_LOAD",			def SIsbuffer_load : SDNode<"AMDGPUISD::SBUFFER_LOAD",
	SDTypeProfile<1, 4, [SDTCisVT<1, v4i32>, SDTCisVT<2, i32>, SDTCisVT<3, i1>,			SDTypeProfile<1, 4, [SDTCisVT<1, v4i32>, SDTCisVT<2, i32>, SDTCisVT<3, i1>,
	SDTCisVT<4, i1>]>,			SDTCisVT<4, i1>]>,
	[SDNPMayLoad, SDNPMemOperand]			[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
	>;			>;

	def SIds_ordered_count : SDNode<"AMDGPUISD::DS_ORDERED_COUNT",			def SIds_ordered_count : SDNode<"AMDGPUISD::DS_ORDERED_COUNT",
	SDTypeProfile<1, 2, [SDTCisVT<0, i32>, SDTCisVT<1, i32>, SDTCisVT<2, i16>]>,			SDTypeProfile<1, 2, [SDTCisVT<0, i32>, SDTCisVT<1, i32>, SDTCisVT<2, i16>]>,
	[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain, SDNPInGlue]			[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain, SDNPInGlue]
	>;			>;

	def SIatomic_inc : SDNode<"AMDGPUISD::ATOMIC_INC", SDTAtomic2,			def SIatomic_inc : SDNode<"AMDGPUISD::ATOMIC_INC", SDTAtomic2,
	▲ Show 20 Lines • Show All 2,263 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/GlobalISel/regbankselect-amdgcn-s-buffer-load.mir

# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-fast -verify-machineinstrs -o - %s \| FileCheck %s		# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-fast -verify-machineinstrs -o - %s \| FileCheck %s
# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-greedy -verify-machineinstrs -o - %s \| FileCheck %s		# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-greedy -verify-machineinstrs -o - %s \| FileCheck %s

---		---
name: buffer_load_ss		name: buffer_load_ss
legalized: true		legalized: true
tracksRegLiveness: true		tracksRegLiveness: true
body: \|		body: \|
bb.0:		bb.0:
liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4		liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4

; CHECK-LABEL: name: buffer_load_ss		; CHECK-LABEL: name: buffer_load_ss
; CHECK: liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4		; CHECK: liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4
; CHECK: [[COPY:%[0-9]+]]:sgpr(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3		; CHECK: [[COPY:%[0-9]+]]:sgpr(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3
; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr4		; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr4
; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), [[COPY]](<4 x s32>), [[COPY1]](s32), 0		; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), [[COPY]](<4 x s32>), [[COPY1]](s32), 0
%0:_(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3		%0:_(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3
%1:_(s32) = COPY $sgpr4		%1:_(s32) = COPY $sgpr4
%2:_(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0		%2:_(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0

...		...

---		---
name: buffer_load_sv		name: buffer_load_sv
legalized: true		legalized: true
tracksRegLiveness: true		tracksRegLiveness: true
body: \|		body: \|
Show All 9 Lines	bb.0:
; CHECK: [[DEF1:%[0-9]+]]:sreg_64_xexec = IMPLICIT_DEF		; CHECK: [[DEF1:%[0-9]+]]:sreg_64_xexec = IMPLICIT_DEF
; CHECK: [[S_MOV_B64_term:%[0-9]+]]:sreg_64_xexec = S_MOV_B64_term $exec		; CHECK: [[S_MOV_B64_term:%[0-9]+]]:sreg_64_xexec = S_MOV_B64_term $exec
; CHECK: .1:		; CHECK: .1:
; CHECK: successors: %bb.2(0x40000000), %bb.1(0x40000000)		; CHECK: successors: %bb.2(0x40000000), %bb.1(0x40000000)
; CHECK: [[PHI:%[0-9]+]]:sreg_64 = PHI [[DEF1]], %bb.0, %8, %bb.1		; CHECK: [[PHI:%[0-9]+]]:sreg_64 = PHI [[DEF1]], %bb.0, %8, %bb.1
; CHECK: [[PHI1:%[0-9]+]]:sgpr(<4 x s32>) = G_PHI [[DEF]](<4 x s32>), %bb.0, %2(<4 x s32>), %bb.1		; CHECK: [[PHI1:%[0-9]+]]:sgpr(<4 x s32>) = G_PHI [[DEF]](<4 x s32>), %bb.0, %2(<4 x s32>), %bb.1
; CHECK: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[COPY1]](s32), implicit $exec		; CHECK: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[COPY1]](s32), implicit $exec
; CHECK: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_EQ_U32_e64 [[V_READFIRSTLANE_B32_]](s32), [[COPY1]](s32), implicit $exec		; CHECK: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_EQ_U32_e64 [[V_READFIRSTLANE_B32_]](s32), [[COPY1]](s32), implicit $exec
; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), [[COPY]](<4 x s32>), [[V_READFIRSTLANE_B32_]](s32), 0		; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), [[COPY]](<4 x s32>), [[V_READFIRSTLANE_B32_]](s32), 0
; CHECK: [[S_AND_SAVEEXEC_B64_:%[0-9]+]]:sreg_64 = S_AND_SAVEEXEC_B64 killed [[V_CMP_EQ_U32_e64_]], implicit-def $exec, implicit-def $scc, implicit $exec		; CHECK: [[S_AND_SAVEEXEC_B64_:%[0-9]+]]:sreg_64 = S_AND_SAVEEXEC_B64 killed [[V_CMP_EQ_U32_e64_]], implicit-def $exec, implicit-def $scc, implicit $exec
; CHECK: $exec = S_XOR_B64_term $exec, [[S_AND_SAVEEXEC_B64_]], implicit-def $scc		; CHECK: $exec = S_XOR_B64_term $exec, [[S_AND_SAVEEXEC_B64_]], implicit-def $scc
; CHECK: S_CBRANCH_EXECNZ %bb.1, implicit $exec		; CHECK: S_CBRANCH_EXECNZ %bb.1, implicit $exec
; CHECK: .2:		; CHECK: .2:
; CHECK: successors: %bb.3(0x80000000)		; CHECK: successors: %bb.3(0x80000000)
; CHECK: $exec = S_MOV_B64_term [[S_MOV_B64_term]]		; CHECK: $exec = S_MOV_B64_term [[S_MOV_B64_term]]
; CHECK: .3:		; CHECK: .3:
%0:_(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3		%0:_(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3
%1:_(s32) = COPY $vgpr0		%1:_(s32) = COPY $vgpr0
%2:_(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0		%2:_(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0

...		...

---		---
name: buffer_load_vs		name: buffer_load_vs
legalized: true		legalized: true
tracksRegLiveness: true		tracksRegLiveness: true
body: \|		body: \|
Show All 18 Lines	bb.0:
; CHECK: [[MV:%[0-9]+]]:sreg_64_xexec(s64) = G_MERGE_VALUES [[V_READFIRSTLANE_B32_]](s32), [[V_READFIRSTLANE_B32_1]](s32)		; CHECK: [[MV:%[0-9]+]]:sreg_64_xexec(s64) = G_MERGE_VALUES [[V_READFIRSTLANE_B32_]](s32), [[V_READFIRSTLANE_B32_1]](s32)
; CHECK: [[V_CMP_EQ_U64_e64_:%[0-9]+]]:sreg_64_xexec = V_CMP_EQ_U64_e64 [[MV]](s64), [[UV]](s64), implicit $exec		; CHECK: [[V_CMP_EQ_U64_e64_:%[0-9]+]]:sreg_64_xexec = V_CMP_EQ_U64_e64 [[MV]](s64), [[UV]](s64), implicit $exec
; CHECK: [[V_READFIRSTLANE_B32_2:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[UV1]].sub0(s64), implicit $exec		; CHECK: [[V_READFIRSTLANE_B32_2:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[UV1]].sub0(s64), implicit $exec
; CHECK: [[V_READFIRSTLANE_B32_3:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[UV1]].sub1(s64), implicit $exec		; CHECK: [[V_READFIRSTLANE_B32_3:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[UV1]].sub1(s64), implicit $exec
; CHECK: [[MV1:%[0-9]+]]:sreg_64_xexec(s64) = G_MERGE_VALUES [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)		; CHECK: [[MV1:%[0-9]+]]:sreg_64_xexec(s64) = G_MERGE_VALUES [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)
; CHECK: [[V_CMP_EQ_U64_e64_1:%[0-9]+]]:sreg_64_xexec = V_CMP_EQ_U64_e64 [[MV1]](s64), [[UV1]](s64), implicit $exec		; CHECK: [[V_CMP_EQ_U64_e64_1:%[0-9]+]]:sreg_64_xexec = V_CMP_EQ_U64_e64 [[MV1]](s64), [[UV1]](s64), implicit $exec
; CHECK: [[S_AND_B64_:%[0-9]+]]:sreg_64_xexec = S_AND_B64 [[V_CMP_EQ_U64_e64_1]], [[V_CMP_EQ_U64_e64_]], implicit-def $scc		; CHECK: [[S_AND_B64_:%[0-9]+]]:sreg_64_xexec = S_AND_B64 [[V_CMP_EQ_U64_e64_1]], [[V_CMP_EQ_U64_e64_]], implicit-def $scc
; CHECK: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[V_READFIRSTLANE_B32_]](s32), [[V_READFIRSTLANE_B32_1]](s32), [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)		; CHECK: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[V_READFIRSTLANE_B32_]](s32), [[V_READFIRSTLANE_B32_1]](s32), [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)
; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), [[BUILD_VECTOR]](<4 x s32>), [[COPY1]](s32), 0		; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), [[BUILD_VECTOR]](<4 x s32>), [[COPY1]](s32), 0
; CHECK: [[S_AND_SAVEEXEC_B64_:%[0-9]+]]:sreg_64 = S_AND_SAVEEXEC_B64 killed [[S_AND_B64_]], implicit-def $exec, implicit-def $scc, implicit $exec		; CHECK: [[S_AND_SAVEEXEC_B64_:%[0-9]+]]:sreg_64 = S_AND_SAVEEXEC_B64 killed [[S_AND_B64_]], implicit-def $exec, implicit-def $scc, implicit $exec
; CHECK: $exec = S_XOR_B64_term $exec, [[S_AND_SAVEEXEC_B64_]], implicit-def $scc		; CHECK: $exec = S_XOR_B64_term $exec, [[S_AND_SAVEEXEC_B64_]], implicit-def $scc
; CHECK: S_CBRANCH_EXECNZ %bb.1, implicit $exec		; CHECK: S_CBRANCH_EXECNZ %bb.1, implicit $exec
; CHECK: .2:		; CHECK: .2:
; CHECK: successors: %bb.3(0x80000000)		; CHECK: successors: %bb.3(0x80000000)
; CHECK: $exec = S_MOV_B64_term [[S_MOV_B64_term]]		; CHECK: $exec = S_MOV_B64_term [[S_MOV_B64_term]]
; CHECK: .3:		; CHECK: .3:
%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3		%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3
%1:_(s32) = COPY $sgpr0		%1:_(s32) = COPY $sgpr0
%2:_(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0		%2:_(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0

...		...

---		---
name: buffer_load_vv		name: buffer_load_vv
legalized: true		legalized: true
tracksRegLiveness: true		tracksRegLiveness: true
body: \|		body: \|
Show All 21 Lines	bb.0:
; CHECK: [[V_READFIRSTLANE_B32_3:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[UV1]].sub1(s64), implicit $exec		; CHECK: [[V_READFIRSTLANE_B32_3:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[UV1]].sub1(s64), implicit $exec
; CHECK: [[MV1:%[0-9]+]]:sreg_64_xexec(s64) = G_MERGE_VALUES [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)		; CHECK: [[MV1:%[0-9]+]]:sreg_64_xexec(s64) = G_MERGE_VALUES [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)
; CHECK: [[V_CMP_EQ_U64_e64_1:%[0-9]+]]:sreg_64_xexec = V_CMP_EQ_U64_e64 [[MV1]](s64), [[UV1]](s64), implicit $exec		; CHECK: [[V_CMP_EQ_U64_e64_1:%[0-9]+]]:sreg_64_xexec = V_CMP_EQ_U64_e64 [[MV1]](s64), [[UV1]](s64), implicit $exec
; CHECK: [[S_AND_B64_:%[0-9]+]]:sreg_64_xexec = S_AND_B64 [[V_CMP_EQ_U64_e64_1]], [[V_CMP_EQ_U64_e64_]], implicit-def $scc		; CHECK: [[S_AND_B64_:%[0-9]+]]:sreg_64_xexec = S_AND_B64 [[V_CMP_EQ_U64_e64_1]], [[V_CMP_EQ_U64_e64_]], implicit-def $scc
; CHECK: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[V_READFIRSTLANE_B32_]](s32), [[V_READFIRSTLANE_B32_1]](s32), [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)		; CHECK: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[V_READFIRSTLANE_B32_]](s32), [[V_READFIRSTLANE_B32_1]](s32), [[V_READFIRSTLANE_B32_2]](s32), [[V_READFIRSTLANE_B32_3]](s32)
; CHECK: [[V_READFIRSTLANE_B32_4:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[COPY1]](s32), implicit $exec		; CHECK: [[V_READFIRSTLANE_B32_4:%[0-9]+]]:sreg_32_xm0(s32) = V_READFIRSTLANE_B32 [[COPY1]](s32), implicit $exec
; CHECK: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_EQ_U32_e64 [[V_READFIRSTLANE_B32_4]](s32), [[COPY1]](s32), implicit $exec		; CHECK: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_EQ_U32_e64 [[V_READFIRSTLANE_B32_4]](s32), [[COPY1]](s32), implicit $exec
; CHECK: [[S_AND_B64_1:%[0-9]+]]:sreg_64_xexec = S_AND_B64 [[V_CMP_EQ_U32_e64_]], [[S_AND_B64_]], implicit-def $scc		; CHECK: [[S_AND_B64_1:%[0-9]+]]:sreg_64_xexec = S_AND_B64 [[V_CMP_EQ_U32_e64_]], [[S_AND_B64_]], implicit-def $scc
; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), [[BUILD_VECTOR]](<4 x s32>), [[V_READFIRSTLANE_B32_4]](s32), 0		; CHECK: [[INT:%[0-9]+]]:sgpr(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), [[BUILD_VECTOR]](<4 x s32>), [[V_READFIRSTLANE_B32_4]](s32), 0
; CHECK: [[S_AND_SAVEEXEC_B64_:%[0-9]+]]:sreg_64 = S_AND_SAVEEXEC_B64 killed [[S_AND_B64_1]], implicit-def $exec, implicit-def $scc, implicit $exec		; CHECK: [[S_AND_SAVEEXEC_B64_:%[0-9]+]]:sreg_64 = S_AND_SAVEEXEC_B64 killed [[S_AND_B64_1]], implicit-def $exec, implicit-def $scc, implicit $exec
; CHECK: $exec = S_XOR_B64_term $exec, [[S_AND_SAVEEXEC_B64_]], implicit-def $scc		; CHECK: $exec = S_XOR_B64_term $exec, [[S_AND_SAVEEXEC_B64_]], implicit-def $scc
; CHECK: S_CBRANCH_EXECNZ %bb.1, implicit $exec		; CHECK: S_CBRANCH_EXECNZ %bb.1, implicit $exec
; CHECK: .2:		; CHECK: .2:
; CHECK: successors: %bb.3(0x80000000)		; CHECK: successors: %bb.3(0x80000000)
; CHECK: $exec = S_MOV_B64_term [[S_MOV_B64_term]]		; CHECK: $exec = S_MOV_B64_term [[S_MOV_B64_term]]
; CHECK: .3:		; CHECK: .3:
%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3		%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3
%1:_(s32) = COPY $vgpr4		%1:_(s32) = COPY $vgpr4
%2:_(<4 x s32>) = G_INTRINSIC intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0		%2:_(<4 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.s.buffer.load), %0, %1, 0

...		...