Diff 477719

llvm/lib/Target/AMDGPU/AMDGPUGISel.td

	Show First 20 Lines • Show All 212 Lines • ▼ Show 20 Lines

	def : GINodeEquiv<G_AMDGPU_ATOMIC_CMPXCHG, AMDGPUatomic_cmp_swap>;			def : GINodeEquiv<G_AMDGPU_ATOMIC_CMPXCHG, AMDGPUatomic_cmp_swap>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD, SIbuffer_load>;			def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD, SIbuffer_load>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_USHORT, SIbuffer_load_ushort>;			def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_USHORT, SIbuffer_load_ushort>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_UBYTE, SIbuffer_load_ubyte>;			def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_UBYTE, SIbuffer_load_ubyte>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_SSHORT, SIbuffer_load_short>;			def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_SSHORT, SIbuffer_load_short>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_SBYTE, SIbuffer_load_byte>;			def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_SBYTE, SIbuffer_load_byte>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_FORMAT, SIbuffer_load_format>;			def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_FORMAT, SIbuffer_load_format>;
				def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_FORMAT_TFE, SIbuffer_load_format_tfe>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_FORMAT_D16, SIbuffer_load_format_d16>;			def : GINodeEquiv<G_AMDGPU_BUFFER_LOAD_FORMAT_D16, SIbuffer_load_format_d16>;
	def : GINodeEquiv<G_AMDGPU_TBUFFER_LOAD_FORMAT, SItbuffer_load>;			def : GINodeEquiv<G_AMDGPU_TBUFFER_LOAD_FORMAT, SItbuffer_load>;
	def : GINodeEquiv<G_AMDGPU_TBUFFER_LOAD_FORMAT_D16, SItbuffer_load_d16>;			def : GINodeEquiv<G_AMDGPU_TBUFFER_LOAD_FORMAT_D16, SItbuffer_load_d16>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_STORE, SIbuffer_store>;			def : GINodeEquiv<G_AMDGPU_BUFFER_STORE, SIbuffer_store>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_SHORT, SIbuffer_store_short>;			def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_SHORT, SIbuffer_store_short>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_BYTE, SIbuffer_store_byte>;			def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_BYTE, SIbuffer_store_byte>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_FORMAT, SIbuffer_store_format>;			def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_FORMAT, SIbuffer_store_format>;
	def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_FORMAT_D16, SIbuffer_store_format_d16>;			def : GINodeEquiv<G_AMDGPU_BUFFER_STORE_FORMAT_D16, SIbuffer_store_format_d16>;
	▲ Show 20 Lines • Show All 150 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 508 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
ATOMIC_LOAD_FMIN,		ATOMIC_LOAD_FMIN,
ATOMIC_LOAD_FMAX,		ATOMIC_LOAD_FMAX,
BUFFER_LOAD,		BUFFER_LOAD,
BUFFER_LOAD_UBYTE,		BUFFER_LOAD_UBYTE,
BUFFER_LOAD_USHORT,		BUFFER_LOAD_USHORT,
BUFFER_LOAD_BYTE,		BUFFER_LOAD_BYTE,
BUFFER_LOAD_SHORT,		BUFFER_LOAD_SHORT,
BUFFER_LOAD_FORMAT,		BUFFER_LOAD_FORMAT,
		BUFFER_LOAD_FORMAT_TFE,
BUFFER_LOAD_FORMAT_D16,		BUFFER_LOAD_FORMAT_D16,
SBUFFER_LOAD,		SBUFFER_LOAD,
BUFFER_STORE,		BUFFER_STORE,
BUFFER_STORE_BYTE,		BUFFER_STORE_BYTE,
BUFFER_STORE_SHORT,		BUFFER_STORE_SHORT,
BUFFER_STORE_FORMAT,		BUFFER_STORE_FORMAT,
BUFFER_STORE_FORMAT_D16,		BUFFER_STORE_FORMAT_D16,
BUFFER_ATOMIC_SWAP,		BUFFER_ATOMIC_SWAP,
Show All 25 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 4,423 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
NODE_NAME_CASE(ATOMIC_LOAD_FMIN)		NODE_NAME_CASE(ATOMIC_LOAD_FMIN)
NODE_NAME_CASE(ATOMIC_LOAD_FMAX)		NODE_NAME_CASE(ATOMIC_LOAD_FMAX)
NODE_NAME_CASE(BUFFER_LOAD)		NODE_NAME_CASE(BUFFER_LOAD)
NODE_NAME_CASE(BUFFER_LOAD_UBYTE)		NODE_NAME_CASE(BUFFER_LOAD_UBYTE)
NODE_NAME_CASE(BUFFER_LOAD_USHORT)		NODE_NAME_CASE(BUFFER_LOAD_USHORT)
NODE_NAME_CASE(BUFFER_LOAD_BYTE)		NODE_NAME_CASE(BUFFER_LOAD_BYTE)
NODE_NAME_CASE(BUFFER_LOAD_SHORT)		NODE_NAME_CASE(BUFFER_LOAD_SHORT)
NODE_NAME_CASE(BUFFER_LOAD_FORMAT)		NODE_NAME_CASE(BUFFER_LOAD_FORMAT)
		NODE_NAME_CASE(BUFFER_LOAD_FORMAT_TFE)
NODE_NAME_CASE(BUFFER_LOAD_FORMAT_D16)		NODE_NAME_CASE(BUFFER_LOAD_FORMAT_D16)
NODE_NAME_CASE(SBUFFER_LOAD)		NODE_NAME_CASE(SBUFFER_LOAD)
NODE_NAME_CASE(BUFFER_STORE)		NODE_NAME_CASE(BUFFER_STORE)
NODE_NAME_CASE(BUFFER_STORE_BYTE)		NODE_NAME_CASE(BUFFER_STORE_BYTE)
NODE_NAME_CASE(BUFFER_STORE_SHORT)		NODE_NAME_CASE(BUFFER_STORE_SHORT)
NODE_NAME_CASE(BUFFER_STORE_FORMAT)		NODE_NAME_CASE(BUFFER_STORE_FORMAT)
NODE_NAME_CASE(BUFFER_STORE_FORMAT_D16)		NODE_NAME_CASE(BUFFER_STORE_FORMAT_D16)
NODE_NAME_CASE(BUFFER_ATOMIC_SWAP)		NODE_NAME_CASE(BUFFER_ATOMIC_SWAP)
▲ Show 20 Lines • Show All 435 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 4,460 Lines • ▼ Show 20 Lines	bool AMDGPULegalizerInfo::legalizeBufferStore(MachineInstr &MI,
MIB.addImm(AuxiliaryData) // cachepolicy, swizzled buffer(imm)		MIB.addImm(AuxiliaryData) // cachepolicy, swizzled buffer(imm)
.addImm(HasVIndex ? -1 : 0) // idxen(imm)		.addImm(HasVIndex ? -1 : 0) // idxen(imm)
.addMemOperand(MMO);		.addMemOperand(MMO);

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

		static void buildBufferLoad(unsigned Opc, Register LoadDstReg, Register RSrc,
		Register VIndex, Register VOffset, Register SOffset,
		unsigned ImmOffset, unsigned Format,
		unsigned AuxiliaryData, MachineMemOperand *MMO,
		bool IsTyped, bool HasVIndex, MachineIRBuilder &B) {
		auto MIB = B.buildInstr(Opc)
		.addDef(LoadDstReg) // vdata
		.addUse(RSrc) // rsrc
		.addUse(VIndex) // vindex
		.addUse(VOffset) // voffset
		.addUse(SOffset) // soffset
		.addImm(ImmOffset); // offset(imm)

		if (IsTyped)
		MIB.addImm(Format);

		MIB.addImm(AuxiliaryData) // cachepolicy, swizzled buffer(imm)
		.addImm(HasVIndex ? -1 : 0) // idxen(imm)
		.addMemOperand(MMO);
		}

bool AMDGPULegalizerInfo::legalizeBufferLoad(MachineInstr &MI,		bool AMDGPULegalizerInfo::legalizeBufferLoad(MachineInstr &MI,
MachineRegisterInfo &MRI,		MachineRegisterInfo &MRI,
MachineIRBuilder &B,		MachineIRBuilder &B,
bool IsFormat,		bool IsFormat,
bool IsTyped) const {		bool IsTyped) const {
// FIXME: Verifier should enforce 1 MMO for these intrinsics.		// FIXME: Verifier should enforce 1 MMO for these intrinsics.
MachineMemOperand MMO = MI.memoperands_begin();		MachineMemOperand MMO = MI.memoperands_begin();
const LLT MemTy = MMO->getMemoryType();		const LLT MemTy = MMO->getMemoryType();
const LLT S32 = LLT::scalar(32);		const LLT S32 = LLT::scalar(32);

Register Dst = MI.getOperand(0).getReg();		Register Dst = MI.getOperand(0).getReg();
Register RSrc = MI.getOperand(2).getReg();
		Register StatusDst;
		int OpOffset = 0;
		assert(MI.getNumExplicitDefs() == 1 \|\| MI.getNumExplicitDefs() == 2);
		bool IsTFE = MI.getNumExplicitDefs() == 2;
		if (IsTFE) {
		StatusDst = MI.getOperand(1).getReg();
		++OpOffset;
		}

		Register RSrc = MI.getOperand(2 + OpOffset).getReg();

// The typed intrinsics add an immediate after the registers.		// The typed intrinsics add an immediate after the registers.
const unsigned NumVIndexOps = IsTyped ? 8 : 7;		const unsigned NumVIndexOps = IsTyped ? 8 : 7;

// The struct intrinsic variants add one additional operand over raw.		// The struct intrinsic variants add one additional operand over raw.
const bool HasVIndex = MI.getNumOperands() == NumVIndexOps;		const bool HasVIndex = MI.getNumOperands() == NumVIndexOps + OpOffset;
Register VIndex;		Register VIndex;
int OpOffset = 0;
if (HasVIndex) {		if (HasVIndex) {
VIndex = MI.getOperand(3).getReg();		VIndex = MI.getOperand(3 + OpOffset).getReg();
OpOffset = 1;		++OpOffset;
} else {		} else {
VIndex = B.buildConstant(S32, 0).getReg(0);		VIndex = B.buildConstant(S32, 0).getReg(0);
}		}

Register VOffset = MI.getOperand(3 + OpOffset).getReg();		Register VOffset = MI.getOperand(3 + OpOffset).getReg();
Register SOffset = MI.getOperand(4 + OpOffset).getReg();		Register SOffset = MI.getOperand(4 + OpOffset).getReg();

unsigned Format = 0;		unsigned Format = 0;
Show All 10 Lines	bool AMDGPULegalizerInfo::legalizeBufferLoad(MachineInstr &MI,
const bool IsD16 = IsFormat && (EltTy.getSizeInBits() == 16);		const bool IsD16 = IsFormat && (EltTy.getSizeInBits() == 16);
const bool Unpacked = ST.hasUnpackedD16VMem();		const bool Unpacked = ST.hasUnpackedD16VMem();

std::tie(VOffset, ImmOffset) = splitBufferOffsets(B, VOffset);		std::tie(VOffset, ImmOffset) = splitBufferOffsets(B, VOffset);
updateBufferMMO(MMO, VOffset, SOffset, ImmOffset, VIndex, MRI);		updateBufferMMO(MMO, VOffset, SOffset, ImmOffset, VIndex, MRI);

unsigned Opc;		unsigned Opc;

		// TODO: Support TFE for typed and narrow loads.
if (IsTyped) {		if (IsTyped) {
		assert(!IsTFE);
Opc = IsD16 ? AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT_D16 :		Opc = IsD16 ? AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT_D16 :
AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT;		AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT;
} else if (IsFormat) {		} else if (IsFormat) {
Opc = IsD16 ? AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_D16 :		if (IsD16) {
AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT;		assert(!IsTFE);
		arsenmUnsubmitted Not Done Reply Inline Actions If this isn't supposed to work, should return false for the fallback arsenm: If this isn't supposed to work, should return false for the fallback
		kosarevAuthorUnsubmitted Done Reply Inline Actions What's the fallback? From what I see if we do not stop here, it will just crash later on a less specific check not being able to legalise the call. kosarev: What's the fallback? From what I see if we do not stop here, it will just crash later on a less…
		arsenmUnsubmitted Done Reply Inline Actions The legalization error is a better user facing error than hitting the assert arsenm: The legalization error is a better user facing error than hitting the assert
		Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_D16;
		} else {
		Opc = IsTFE ? AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_TFE
		: AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT;
		}
} else {		} else {
		assert(!IsTFE);
switch (MemTy.getSizeInBits()) {		switch (MemTy.getSizeInBits()) {
case 8:		case 8:
Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE;		Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE;
break;		break;
case 16:		case 16:
Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT;		Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT;
break;		break;
default:		default:
Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD;		Opc = AMDGPU::G_AMDGPU_BUFFER_LOAD;
break;		break;
}		}
}		}

Register LoadDstReg;		if (IsTFE) {
		unsigned NumValueDWords = divideCeil(Ty.getSizeInBits(), 32);
bool IsExtLoad =		unsigned NumLoadDWords = NumValueDWords + 1;
(!IsD16 && MemTy.getSizeInBits() < 32) \|\| (IsD16 && !Ty.isVector());		LLT LoadTy = LLT::fixed_vector(NumLoadDWords, S32);
LLT UnpackedTy = Ty.changeElementSize(32);		Register LoadDstReg = B.getMRI()->createGenericVirtualRegister(LoadTy);
		buildBufferLoad(Opc, LoadDstReg, RSrc, VIndex, VOffset, SOffset, ImmOffset,
if (IsExtLoad)		Format, AuxiliaryData, MMO, IsTyped, HasVIndex, B);
LoadDstReg = B.getMRI()->createGenericVirtualRegister(S32);		if (NumValueDWords == 1) {
else if (Unpacked && IsD16 && Ty.isVector())		B.buildUnmerge({Dst, StatusDst}, LoadDstReg);
LoadDstReg = B.getMRI()->createGenericVirtualRegister(UnpackedTy);		} else {
else		SmallVector<Register, 5> LoadElts;
LoadDstReg = Dst;		for (unsigned I = 0; I != NumValueDWords; ++I)
		LoadElts.push_back(B.getMRI()->createGenericVirtualRegister(S32));
auto MIB = B.buildInstr(Opc)		LoadElts.push_back(StatusDst);
.addDef(LoadDstReg) // vdata		B.buildUnmerge(LoadElts, LoadDstReg);
.addUse(RSrc) // rsrc		LoadElts.truncate(NumValueDWords);
.addUse(VIndex) // vindex		B.buildMerge(Dst, LoadElts);
.addUse(VOffset) // voffset		}
.addUse(SOffset) // soffset		} else if ((!IsD16 && MemTy.getSizeInBits() < 32) \|\|
.addImm(ImmOffset); // offset(imm)		(IsD16 && !Ty.isVector())) {
		Register LoadDstReg = B.getMRI()->createGenericVirtualRegister(S32);
if (IsTyped)		buildBufferLoad(Opc, LoadDstReg, RSrc, VIndex, VOffset, SOffset, ImmOffset,
MIB.addImm(Format);		Format, AuxiliaryData, MMO, IsTyped, HasVIndex, B);

MIB.addImm(AuxiliaryData) // cachepolicy, swizzled buffer(imm)
.addImm(HasVIndex ? -1 : 0) // idxen(imm)
.addMemOperand(MMO);

if (LoadDstReg != Dst) {
B.setInsertPt(B.getMBB(), ++B.getInsertPt());		B.setInsertPt(B.getMBB(), ++B.getInsertPt());

// Widen result for extending loads was widened.
if (IsExtLoad)
B.buildTrunc(Dst, LoadDstReg);		B.buildTrunc(Dst, LoadDstReg);
else {		} else if (Unpacked && IsD16 && Ty.isVector()) {
// Repack to original 16-bit vector result		LLT UnpackedTy = Ty.changeElementSize(32);
		Register LoadDstReg = B.getMRI()->createGenericVirtualRegister(UnpackedTy);
		buildBufferLoad(Opc, LoadDstReg, RSrc, VIndex, VOffset, SOffset, ImmOffset,
		Format, AuxiliaryData, MMO, IsTyped, HasVIndex, B);
		B.setInsertPt(B.getMBB(), ++B.getInsertPt());
// FIXME: G_TRUNC should work, but legalization currently fails		// FIXME: G_TRUNC should work, but legalization currently fails
auto Unmerge = B.buildUnmerge(S32, LoadDstReg);		auto Unmerge = B.buildUnmerge(S32, LoadDstReg);
SmallVector<Register, 4> Repack;		SmallVector<Register, 4> Repack;
for (unsigned I = 0, N = Unmerge->getNumOperands() - 1; I != N; ++I)		for (unsigned I = 0, N = Unmerge->getNumOperands() - 1; I != N; ++I)
Repack.push_back(B.buildTrunc(EltTy, Unmerge.getReg(I)).getReg(0));		Repack.push_back(B.buildTrunc(EltTy, Unmerge.getReg(I)).getReg(0));
B.buildMerge(Dst, Repack);		B.buildMerge(Dst, Repack);
}		} else {
		buildBufferLoad(Opc, Dst, RSrc, VIndex, VOffset, SOffset, ImmOffset, Format,
		AuxiliaryData, MMO, IsTyped, HasVIndex, B);
}		}

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

bool AMDGPULegalizerInfo::legalizeAtomicIncDec(MachineInstr &MI,		bool AMDGPULegalizerInfo::legalizeAtomicIncDec(MachineInstr &MI,
MachineIRBuilder &B,		MachineIRBuilder &B,
▲ Show 20 Lines • Show All 1,189 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 2,871 Lines • ▼ Show 20 Lines	case AMDGPU::G_INSERT_VECTOR_ELT: {
return;		return;
}		}
case AMDGPU::G_AMDGPU_BUFFER_LOAD:		case AMDGPU::G_AMDGPU_BUFFER_LOAD:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_SSHORT:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_SSHORT:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_SBYTE:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_SBYTE:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT:
		case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_TFE:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_D16:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_D16:
case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT:		case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT:
case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT_D16:		case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT_D16:
case AMDGPU::G_AMDGPU_BUFFER_STORE:		case AMDGPU::G_AMDGPU_BUFFER_STORE:
case AMDGPU::G_AMDGPU_BUFFER_STORE_BYTE:		case AMDGPU::G_AMDGPU_BUFFER_STORE_BYTE:
case AMDGPU::G_AMDGPU_BUFFER_STORE_SHORT:		case AMDGPU::G_AMDGPU_BUFFER_STORE_SHORT:
case AMDGPU::G_AMDGPU_BUFFER_STORE_FORMAT:		case AMDGPU::G_AMDGPU_BUFFER_STORE_FORMAT:
case AMDGPU::G_AMDGPU_BUFFER_STORE_FORMAT_D16:		case AMDGPU::G_AMDGPU_BUFFER_STORE_FORMAT_D16:
▲ Show 20 Lines • Show All 1,153 Lines • ▼ Show 20 Lines	case AMDGPU::G_UNMERGE_VALUES: {
break;		break;
}		}
case AMDGPU::G_AMDGPU_BUFFER_LOAD:		case AMDGPU::G_AMDGPU_BUFFER_LOAD:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_SBYTE:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_SBYTE:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_SSHORT:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_SSHORT:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT:
		case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_TFE:
case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_D16:		case AMDGPU::G_AMDGPU_BUFFER_LOAD_FORMAT_D16:
case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT:		case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT:
case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT_D16:		case AMDGPU::G_AMDGPU_TBUFFER_LOAD_FORMAT_D16:
case AMDGPU::G_AMDGPU_TBUFFER_STORE_FORMAT:		case AMDGPU::G_AMDGPU_TBUFFER_STORE_FORMAT:
case AMDGPU::G_AMDGPU_TBUFFER_STORE_FORMAT_D16:		case AMDGPU::G_AMDGPU_TBUFFER_STORE_FORMAT_D16:
case AMDGPU::G_AMDGPU_BUFFER_STORE:		case AMDGPU::G_AMDGPU_BUFFER_STORE:
case AMDGPU::G_AMDGPU_BUFFER_STORE_BYTE:		case AMDGPU::G_AMDGPU_BUFFER_STORE_BYTE:
case AMDGPU::G_AMDGPU_BUFFER_STORE_SHORT:		case AMDGPU::G_AMDGPU_BUFFER_STORE_SHORT:
▲ Show 20 Lines • Show All 764 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/BUFInstructions.td

	Show First 20 Lines • Show All 1,293 Lines • ▼ Show 20 Lines
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, i32, "BUFFER_LOAD_FORMAT_X">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, i32, "BUFFER_LOAD_FORMAT_X">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v2f32, "BUFFER_LOAD_FORMAT_XY">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v2f32, "BUFFER_LOAD_FORMAT_XY">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v2i32, "BUFFER_LOAD_FORMAT_XY">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v2i32, "BUFFER_LOAD_FORMAT_XY">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v3f32, "BUFFER_LOAD_FORMAT_XYZ">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v3f32, "BUFFER_LOAD_FORMAT_XYZ">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v3i32, "BUFFER_LOAD_FORMAT_XYZ">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v3i32, "BUFFER_LOAD_FORMAT_XYZ">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v4f32, "BUFFER_LOAD_FORMAT_XYZW">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v4f32, "BUFFER_LOAD_FORMAT_XYZW">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v4i32, "BUFFER_LOAD_FORMAT_XYZW">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v4i32, "BUFFER_LOAD_FORMAT_XYZW">;

				defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_tfe, v2i32, "BUFFER_LOAD_FORMAT_X_TFE">;
				defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_tfe, v3i32, "BUFFER_LOAD_FORMAT_XY_TFE">;
				defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_tfe, v4i32, "BUFFER_LOAD_FORMAT_XYZ_TFE">;
				defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_tfe, v5i32, "BUFFER_LOAD_FORMAT_XYZW_TFE">;
				arsenmUnsubmitted Done Reply Inline Actions Why do these need fp and integer patterns? Given you've got the integer high element, I'd expect this to always be int vector arsenm: Why do these need fp and integer patterns? Given you've got the integer high element, I'd…

	let SubtargetPredicate = HasUnpackedD16VMem in {			let SubtargetPredicate = HasUnpackedD16VMem in {
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, f16, "BUFFER_LOAD_FORMAT_D16_X_gfx80">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, f16, "BUFFER_LOAD_FORMAT_D16_X_gfx80">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, i16, "BUFFER_LOAD_FORMAT_D16_X_gfx80">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, i16, "BUFFER_LOAD_FORMAT_D16_X_gfx80">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, i32, "BUFFER_LOAD_FORMAT_D16_X_gfx80">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, i32, "BUFFER_LOAD_FORMAT_D16_X_gfx80">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v2i32, "BUFFER_LOAD_FORMAT_D16_XY_gfx80">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v2i32, "BUFFER_LOAD_FORMAT_D16_XY_gfx80">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v3i32, "BUFFER_LOAD_FORMAT_D16_XYZ_gfx80">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v3i32, "BUFFER_LOAD_FORMAT_D16_XYZ_gfx80">;
	defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v4i32, "BUFFER_LOAD_FORMAT_D16_XYZW_gfx80">;			defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v4i32, "BUFFER_LOAD_FORMAT_D16_XYZW_gfx80">;
	} // End HasUnpackedD16VMem.			} // End HasUnpackedD16VMem.
	▲ Show 20 Lines • Show All 1,789 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 913 Lines • ▼ Show 20 Lines	if (Size > 32) {
return NumIntermediates;		return NumIntermediates;
}		}
}		}

return TargetLowering::getVectorTypeBreakdownForCallingConv(		return TargetLowering::getVectorTypeBreakdownForCallingConv(
Context, CC, VT, IntermediateVT, NumIntermediates, RegisterVT);		Context, CC, VT, IntermediateVT, NumIntermediates, RegisterVT);
}		}

static EVT memVTFromImageData(Type *Ty, unsigned DMaskLanes) {		static EVT memVTFromLoadIntrData(Type *Ty, unsigned MaxNumLanes) {
assert(DMaskLanes != 0);		assert(MaxNumLanes != 0);

if (auto *VT = dyn_cast<FixedVectorType>(Ty)) {		if (auto *VT = dyn_cast<FixedVectorType>(Ty)) {
unsigned NumElts = std::min(DMaskLanes, VT->getNumElements());		unsigned NumElts = std::min(MaxNumLanes, VT->getNumElements());
return EVT::getVectorVT(Ty->getContext(),		return EVT::getVectorVT(Ty->getContext(),
EVT::getEVT(VT->getElementType()),		EVT::getEVT(VT->getElementType()),
NumElts);		NumElts);
}		}

return EVT::getEVT(Ty);		return EVT::getEVT(Ty);
}		}

// Peek through TFE struct returns to only use the data size.		// Peek through TFE struct returns to only use the data size.
static EVT memVTFromImageReturn(Type *Ty, unsigned DMaskLanes) {		static EVT memVTFromLoadIntrReturn(Type *Ty, unsigned MaxNumLanes) {
auto *ST = dyn_cast<StructType>(Ty);		auto *ST = dyn_cast<StructType>(Ty);
if (!ST)		if (!ST)
return memVTFromImageData(Ty, DMaskLanes);		return memVTFromLoadIntrData(Ty, MaxNumLanes);

// Some intrinsics return an aggregate type - special case to work out the		// TFE intrinsics return an aggregate type.
// correct memVT.		assert(ST->getNumContainedTypes() == 2 &&
//		ST->getContainedType(1)->isIntegerTy(32));
// Only limited forms of aggregate type currently expected.		return memVTFromLoadIntrData(ST->getContainedType(0), MaxNumLanes);
if (ST->getNumContainedTypes() != 2 \|\|
!ST->getContainedType(1)->isIntegerTy(32))
return EVT();
return memVTFromImageData(ST->getContainedType(0), DMaskLanes);
}		}

bool SITargetLowering::getTgtMemIntrinsic(IntrinsicInfo &Info,		bool SITargetLowering::getTgtMemIntrinsic(IntrinsicInfo &Info,
const CallInst &CI,		const CallInst &CI,
MachineFunction &MF,		MachineFunction &MF,
unsigned IntrID) const {		unsigned IntrID) const {
Info.flags = MachineMemOperand::MONone;		Info.flags = MachineMemOperand::MONone;
if (CI.hasMetadata(LLVMContext::MD_invariant_load))		if (CI.hasMetadata(LLVMContext::MD_invariant_load))
Show All 16 Lines	if (RsrcIntr->IsImage) {
Info.ptrVal = MFI->getImagePSV(TM);		Info.ptrVal = MFI->getImagePSV(TM);
Info.align.reset();		Info.align.reset();
} else {		} else {
Info.ptrVal = MFI->getBufferPSV(TM);		Info.ptrVal = MFI->getBufferPSV(TM);
}		}

Info.flags \|= MachineMemOperand::MODereferenceable;		Info.flags \|= MachineMemOperand::MODereferenceable;
if (ME.onlyReadsMemory()) {		if (ME.onlyReadsMemory()) {
unsigned DMaskLanes = 4;		unsigned MaxNumLanes = 4;

if (RsrcIntr->IsImage) {		if (RsrcIntr->IsImage) {
const AMDGPU::ImageDimIntrinsicInfo *Intr		const AMDGPU::ImageDimIntrinsicInfo *Intr
= AMDGPU::getImageDimIntrinsicInfo(IntrID);		= AMDGPU::getImageDimIntrinsicInfo(IntrID);
const AMDGPU::MIMGBaseOpcodeInfo *BaseOpcode =		const AMDGPU::MIMGBaseOpcodeInfo *BaseOpcode =
AMDGPU::getMIMGBaseOpcodeInfo(Intr->BaseOpcode);		AMDGPU::getMIMGBaseOpcodeInfo(Intr->BaseOpcode);

if (!BaseOpcode->Gather4) {		if (!BaseOpcode->Gather4) {
// If this isn't a gather, we may have excess loaded elements in the		// If this isn't a gather, we may have excess loaded elements in the
// IR type. Check the dmask for the real number of elements loaded.		// IR type. Check the dmask for the real number of elements loaded.
unsigned DMask		unsigned DMask
= cast<ConstantInt>(CI.getArgOperand(0))->getZExtValue();		= cast<ConstantInt>(CI.getArgOperand(0))->getZExtValue();
DMaskLanes = DMask == 0 ? 1 : countPopulation(DMask);		MaxNumLanes = DMask == 0 ? 1 : countPopulation(DMask);
		}
}		}

Info.memVT = memVTFromImageReturn(CI.getType(), DMaskLanes);		Info.memVT = memVTFromLoadIntrReturn(CI.getType(), MaxNumLanes);
} else
Info.memVT = EVT::getEVT(CI.getType());

// FIXME: What does alignment mean for an image?		// FIXME: What does alignment mean for an image?
Info.opc = ISD::INTRINSIC_W_CHAIN;		Info.opc = ISD::INTRINSIC_W_CHAIN;
Info.flags \|= MachineMemOperand::MOLoad;		Info.flags \|= MachineMemOperand::MOLoad;
} else if (ME.onlyWritesMemory()) {		} else if (ME.onlyWritesMemory()) {
Info.opc = ISD::INTRINSIC_VOID;		Info.opc = ISD::INTRINSIC_VOID;

Type *DataTy = CI.getArgOperand(0)->getType();		Type *DataTy = CI.getArgOperand(0)->getType();
if (RsrcIntr->IsImage) {		if (RsrcIntr->IsImage) {
unsigned DMask = cast<ConstantInt>(CI.getArgOperand(1))->getZExtValue();		unsigned DMask = cast<ConstantInt>(CI.getArgOperand(1))->getZExtValue();
unsigned DMaskLanes = DMask == 0 ? 1 : countPopulation(DMask);		unsigned DMaskLanes = DMask == 0 ? 1 : countPopulation(DMask);
Info.memVT = memVTFromImageData(DataTy, DMaskLanes);		Info.memVT = memVTFromLoadIntrData(DataTy, DMaskLanes);
} else		} else
Info.memVT = EVT::getEVT(DataTy);		Info.memVT = EVT::getEVT(DataTy);

Info.flags \|= MachineMemOperand::MOStore;		Info.flags \|= MachineMemOperand::MOStore;
} else {		} else {
// Atomic		// Atomic
Info.opc = CI.getType()->isVoidTy() ? ISD::INTRINSIC_VOID :		Info.opc = CI.getType()->isVoidTy() ? ISD::INTRINSIC_VOID :
ISD::INTRINSIC_W_CHAIN;		ISD::INTRINSIC_W_CHAIN;
▲ Show 20 Lines • Show All 3,829 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::lowerIntrinsicLoad(MemSDNode *M, bool IsFormat,
ArrayRef<SDValue> Ops) const {		ArrayRef<SDValue> Ops) const {
SDLoc DL(M);		SDLoc DL(M);
EVT LoadVT = M->getValueType(0);		EVT LoadVT = M->getValueType(0);
EVT EltType = LoadVT.getScalarType();		EVT EltType = LoadVT.getScalarType();
EVT IntVT = LoadVT.changeTypeToInteger();		EVT IntVT = LoadVT.changeTypeToInteger();

bool IsD16 = IsFormat && (EltType.getSizeInBits() == 16);		bool IsD16 = IsFormat && (EltType.getSizeInBits() == 16);

unsigned Opc =		assert(M->getNumValues() == 2 \|\| M->getNumValues() == 3);
IsFormat ? AMDGPUISD::BUFFER_LOAD_FORMAT : AMDGPUISD::BUFFER_LOAD;		bool IsTFE = M->getNumValues() == 3;

		unsigned Opc;
		if (IsFormat) {
		Opc = IsTFE ? AMDGPUISD::BUFFER_LOAD_FORMAT_TFE
		: AMDGPUISD::BUFFER_LOAD_FORMAT;
		} else {
		// TODO: Support non-format TFE loads.
		assert(!IsTFE);
		Opc = AMDGPUISD::BUFFER_LOAD;
		}

if (IsD16) {		if (IsD16) {
return adjustLoadValueType(AMDGPUISD::BUFFER_LOAD_FORMAT_D16, M, DAG, Ops);		return adjustLoadValueType(AMDGPUISD::BUFFER_LOAD_FORMAT_D16, M, DAG, Ops);
}		}

// Handle BUFFER_LOAD_BYTE/UBYTE/SHORT/USHORT overloaded intrinsics		// Handle BUFFER_LOAD_BYTE/UBYTE/SHORT/USHORT overloaded intrinsics
if (!IsD16 && !LoadVT.isVector() && EltType.getSizeInBits() < 32)		if (!IsD16 && !LoadVT.isVector() && EltType.getSizeInBits() < 32)
return handleByteShortBufferLoads(DAG, LoadVT, DL, Ops, M);		return handleByteShortBufferLoads(DAG, LoadVT, DL, Ops, M);
▲ Show 20 Lines • Show All 2,978 Lines • ▼ Show 20 Lines	if (const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr =
AMDGPU::getImageDimIntrinsicInfo(IntrID))		AMDGPU::getImageDimIntrinsicInfo(IntrID))
return lowerImage(Op, ImageDimIntr, DAG, true);		return lowerImage(Op, ImageDimIntr, DAG, true);

return SDValue();		return SDValue();
}		}
}		}

// Call DAG.getMemIntrinsicNode for a load, but first widen a dwordx3 type to		// Call DAG.getMemIntrinsicNode for a load, but first widen a dwordx3 type to
// dwordx4 if on SI.		// dwordx4 if on SI and handle TFE loads.
SDValue SITargetLowering::getMemIntrinsicNode(unsigned Opcode, const SDLoc &DL,		SDValue SITargetLowering::getMemIntrinsicNode(unsigned Opcode, const SDLoc &DL,
SDVTList VTList,		SDVTList VTList,
ArrayRef<SDValue> Ops, EVT MemVT,		ArrayRef<SDValue> Ops, EVT MemVT,
MachineMemOperand *MMO,		MachineMemOperand *MMO,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
		LLVMContext &C = *DAG.getContext();
		MachineFunction &MF = DAG.getMachineFunction();
EVT VT = VTList.VTs[0];		EVT VT = VTList.VTs[0];
EVT WidenedVT = VT;
EVT WidenedMemVT = MemVT;		assert(VTList.NumVTs == 2 \|\| VTList.NumVTs == 3);
if (!Subtarget->hasDwordx3LoadStores() &&		bool IsTFE = VTList.NumVTs == 3;
(WidenedVT == MVT::v3i32 \|\| WidenedVT == MVT::v3f32)) {		if (IsTFE) {
WidenedVT = EVT::getVectorVT(*DAG.getContext(),		unsigned NumValueDWords = divideCeil(VT.getSizeInBits(), 32);
WidenedVT.getVectorElementType(), 4);		unsigned NumOpDWords = NumValueDWords + 1;
WidenedMemVT = EVT::getVectorVT(*DAG.getContext(),		EVT OpDWordsVT = EVT::getVectorVT(C, MVT::i32, NumOpDWords);
WidenedMemVT.getVectorElementType(), 4);		SDVTList OpDWordsVTList = DAG.getVTList(OpDWordsVT, VTList.VTs[2]);
MMO = DAG.getMachineFunction().getMachineMemOperand(MMO, 0, 16);		MachineMemOperand *OpDWordsMMO =
		MF.getMachineMemOperand(MMO, 0, NumOpDWords * 4);
		SDValue Op = getMemIntrinsicNode(Opcode, DL, OpDWordsVTList, Ops,
		OpDWordsVT, OpDWordsMMO, DAG);
		SDValue Status = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, Op,
		DAG.getVectorIdxConstant(NumValueDWords, DL));
		SDValue ZeroIdx = DAG.getVectorIdxConstant(0, DL);
		SDValue ValueDWords =
		NumValueDWords == 1
		? DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, Op, ZeroIdx)
		: DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL,
		EVT::getVectorVT(C, MVT::i32, NumValueDWords), Op,
		ZeroIdx);
		SDValue Value = DAG.getNode(ISD::BITCAST, DL, VT, ValueDWords);
		return DAG.getMergeValues({Value, Status, SDValue(Op.getNode(), 1)}, DL);
}		}

assert(VTList.NumVTs == 2);		if (!Subtarget->hasDwordx3LoadStores() &&
		(VT == MVT::v3i32 \|\| VT == MVT::v3f32)) {
		EVT WidenedVT = EVT::getVectorVT(C, VT.getVectorElementType(), 4);
		EVT WidenedMemVT = EVT::getVectorVT(C, MemVT.getVectorElementType(), 4);
		MachineMemOperand *WidenedMMO = MF.getMachineMemOperand(MMO, 0, 16);
SDVTList WidenedVTList = DAG.getVTList(WidenedVT, VTList.VTs[1]);		SDVTList WidenedVTList = DAG.getVTList(WidenedVT, VTList.VTs[1]);
		SDValue Op = DAG.getMemIntrinsicNode(Opcode, DL, WidenedVTList, Ops,
auto NewOp = DAG.getMemIntrinsicNode(Opcode, DL, WidenedVTList, Ops,		WidenedMemVT, WidenedMMO);
WidenedMemVT, MMO);		SDValue Value = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, VT, Op,
if (WidenedVT != VT) {
auto Extract = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, VT, NewOp,
DAG.getVectorIdxConstant(0, DL));		DAG.getVectorIdxConstant(0, DL));
NewOp = DAG.getMergeValues({ Extract, SDValue(NewOp.getNode(), 1) }, DL);		return DAG.getMergeValues({Value, SDValue(Op.getNode(), 1)}, DL);
}		}
return NewOp;
		return DAG.getMemIntrinsicNode(Opcode, DL, VTList, Ops, MemVT, MMO);
}		}

SDValue SITargetLowering::handleD16VData(SDValue VData, SelectionDAG &DAG,		SDValue SITargetLowering::handleD16VData(SDValue VData, SelectionDAG &DAG,
bool ImageStore) const {		bool ImageStore) const {
EVT StoreVT = VData.getValueType();		EVT StoreVT = VData.getValueType();

// No change for f16 and legal vector D16 types.		// No change for f16 and legal vector D16 types.
if (!StoreVT.isVector())		if (!StoreVT.isVector())
▲ Show 20 Lines • Show All 5,333 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstrInfo.td

	Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	def SIbuffer_load_ushort : SDNode <"AMDGPUISD::BUFFER_LOAD_USHORT", SDTBufferLoad,			def SIbuffer_load_ushort : SDNode <"AMDGPUISD::BUFFER_LOAD_USHORT", SDTBufferLoad,
	[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;			[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;
	def SIbuffer_load_byte : SDNode <"AMDGPUISD::BUFFER_LOAD_BYTE", SDTBufferLoad,			def SIbuffer_load_byte : SDNode <"AMDGPUISD::BUFFER_LOAD_BYTE", SDTBufferLoad,
	[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;			[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;
	def SIbuffer_load_short: SDNode <"AMDGPUISD::BUFFER_LOAD_SHORT", SDTBufferLoad,			def SIbuffer_load_short: SDNode <"AMDGPUISD::BUFFER_LOAD_SHORT", SDTBufferLoad,
	[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;			[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;
	def SIbuffer_load_format : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT", SDTBufferLoad,			def SIbuffer_load_format : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT", SDTBufferLoad,
	[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;			[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;
				def SIbuffer_load_format_tfe : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT_TFE", SDTBufferLoad,
				[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;
	def SIbuffer_load_format_d16 : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT_D16",			def SIbuffer_load_format_d16 : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT_D16",
	SDTBufferLoad,			SDTBufferLoad,
	[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;			[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;

	def SDTBufferStore : SDTypeProfile<0, 8,			def SDTBufferStore : SDTypeProfile<0, 8,
	[ // vdata			[ // vdata
	SDTCisVT<1, v4i32>, // rsrc			SDTCisVT<1, v4i32>, // rsrc
	SDTCisVT<2, i32>, // vindex(VGPR)			SDTCisVT<2, i32>, // vindex(VGPR)
	▲ Show 20 Lines • Show All 2,908 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 3,227 Lines • ▼ Show 20 Lines
	}			}

	def G_AMDGPU_BUFFER_LOAD_UBYTE : BufferLoadGenericInstruction;			def G_AMDGPU_BUFFER_LOAD_UBYTE : BufferLoadGenericInstruction;
	def G_AMDGPU_BUFFER_LOAD_SBYTE : BufferLoadGenericInstruction;			def G_AMDGPU_BUFFER_LOAD_SBYTE : BufferLoadGenericInstruction;
	def G_AMDGPU_BUFFER_LOAD_USHORT : BufferLoadGenericInstruction;			def G_AMDGPU_BUFFER_LOAD_USHORT : BufferLoadGenericInstruction;
	def G_AMDGPU_BUFFER_LOAD_SSHORT : BufferLoadGenericInstruction;			def G_AMDGPU_BUFFER_LOAD_SSHORT : BufferLoadGenericInstruction;
	def G_AMDGPU_BUFFER_LOAD : BufferLoadGenericInstruction;			def G_AMDGPU_BUFFER_LOAD : BufferLoadGenericInstruction;
	def G_AMDGPU_BUFFER_LOAD_FORMAT : BufferLoadGenericInstruction;			def G_AMDGPU_BUFFER_LOAD_FORMAT : BufferLoadGenericInstruction;
				def G_AMDGPU_BUFFER_LOAD_FORMAT_TFE : BufferLoadGenericInstruction;
	def G_AMDGPU_BUFFER_LOAD_FORMAT_D16 : BufferLoadGenericInstruction;			def G_AMDGPU_BUFFER_LOAD_FORMAT_D16 : BufferLoadGenericInstruction;
	def G_AMDGPU_TBUFFER_LOAD_FORMAT : TBufferLoadGenericInstruction;			def G_AMDGPU_TBUFFER_LOAD_FORMAT : TBufferLoadGenericInstruction;
	def G_AMDGPU_TBUFFER_LOAD_FORMAT_D16 : TBufferLoadGenericInstruction;			def G_AMDGPU_TBUFFER_LOAD_FORMAT_D16 : TBufferLoadGenericInstruction;

	class BufferStoreGenericInstruction : AMDGPUGenericInstruction {			class BufferStoreGenericInstruction : AMDGPUGenericInstruction {
	let OutOperandList = (outs);			let OutOperandList = (outs);
	let InOperandList = (ins type0:$vdata, type1:$rsrc, type2:$vindex, type2:$voffset,			let InOperandList = (ins type0:$vdata, type1:$rsrc, type2:$vindex, type2:$voffset,
	type2:$soffset, untyped_imm_0:$offset,			type2:$soffset, untyped_imm_0:$offset,
	▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.format.ll

Show First 20 Lines • Show All 208 Lines • ▼ Show 20 Lines	define amdgpu_ps float @struct_buffer_load_format_i32__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: [[BUFFER_LOAD_FORMAT_X_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_FORMAT_X_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s32), align 1, addrspace 4)		; CHECK-NEXT: [[BUFFER_LOAD_FORMAT_X_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_FORMAT_X_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s32), align 1, addrspace 4)
; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_FORMAT_X_BOTHEN]]		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_FORMAT_X_BOTHEN]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i32 @llvm.amdgcn.struct.buffer.load.format.i32(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)		%val = call i32 @llvm.amdgcn.struct.buffer.load.format.i32(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)
%fval = bitcast i32 %val to float		%fval = bitcast i32 %val to float
ret float %fval		ret float %fval
}		}

		define amdgpu_cs void @struct_buffer_load_format_v4i32_tfe(<4 x i32> inreg %rsrc, <4 x i32> addrspace(1)* %value, i32 addrspace(1)* %status) {
		; CHECK-LABEL: name: struct_buffer_load_format_v4i32_tfe
		; CHECK: bb.1 (%ir-block.0):
		; CHECK-NEXT: liveins: $sgpr2, $sgpr3, $sgpr4, $sgpr5, $vgpr0, $vgpr1, $vgpr2, $vgpr3
		; CHECK-NEXT: {{ $}}
		; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2
		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
		; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
		; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1
		; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr2
		; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr3
		; CHECK-NEXT: [[REG_SEQUENCE2:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[COPY7]], %subreg.sub1
		; CHECK-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; CHECK-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
		; CHECK-NEXT: [[BUFFER_LOAD_FORMAT_XYZW_TFE_IDXEN:%[0-9]+]]:vreg_160 = BUFFER_LOAD_FORMAT_XYZW_TFE_IDXEN [[COPY8]], [[REG_SEQUENCE]], [[S_MOV_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable load (<4 x s32>) from custom "BufferResource", align 1, addrspace 4)
		; CHECK-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZW_TFE_IDXEN]].sub0
		; CHECK-NEXT: [[COPY10:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZW_TFE_IDXEN]].sub1
		; CHECK-NEXT: [[COPY11:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZW_TFE_IDXEN]].sub2
		; CHECK-NEXT: [[COPY12:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZW_TFE_IDXEN]].sub3
		; CHECK-NEXT: [[COPY13:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZW_TFE_IDXEN]].sub4
		; CHECK-NEXT: [[REG_SEQUENCE3:%[0-9]+]]:vreg_128 = REG_SEQUENCE [[COPY9]], %subreg.sub0, [[COPY10]], %subreg.sub1, [[COPY11]], %subreg.sub2, [[COPY12]], %subreg.sub3
		; CHECK-NEXT: FLAT_STORE_DWORDX4 [[REG_SEQUENCE1]], [[REG_SEQUENCE3]], 0, 0, implicit $exec, implicit $flat_scr :: (store (<4 x s32>) into %ir.value, addrspace 1)
		; CHECK-NEXT: FLAT_STORE_DWORD [[REG_SEQUENCE2]], [[COPY13]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32) into %ir.status, addrspace 1)
		; CHECK-NEXT: S_ENDPGM 0
		%load = call { <4 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v4i32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)

		%v = extractvalue { <4 x i32>, i32 } %load, 0
		store <4 x i32> %v, <4 x i32> addrspace(1)* %value

		%s = extractvalue { <4 x i32>, i32 } %load, 1
		store i32 %s, i32 addrspace(1)* %status

		ret void
		}

		define amdgpu_cs void @struct_buffer_load_format_v3i32_tfe(<4 x i32> inreg %rsrc, <3 x i32> addrspace(1)* %value, i32 addrspace(1)* %status) {
		; CHECK-LABEL: name: struct_buffer_load_format_v3i32_tfe
		; CHECK: bb.1 (%ir-block.0):
		; CHECK-NEXT: liveins: $sgpr2, $sgpr3, $sgpr4, $sgpr5, $vgpr0, $vgpr1, $vgpr2, $vgpr3
		; CHECK-NEXT: {{ $}}
		; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2
		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
		; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
		; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1
		; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr2
		; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr3
		; CHECK-NEXT: [[REG_SEQUENCE2:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[COPY7]], %subreg.sub1
		; CHECK-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; CHECK-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
		; CHECK-NEXT: [[BUFFER_LOAD_FORMAT_XYZ_TFE_IDXEN:%[0-9]+]]:vreg_128 = BUFFER_LOAD_FORMAT_XYZ_TFE_IDXEN [[COPY8]], [[REG_SEQUENCE]], [[S_MOV_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable load (<3 x s32>) from custom "BufferResource", align 1, addrspace 4)
		; CHECK-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZ_TFE_IDXEN]].sub0
		; CHECK-NEXT: [[COPY10:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZ_TFE_IDXEN]].sub1
		; CHECK-NEXT: [[COPY11:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZ_TFE_IDXEN]].sub2
		; CHECK-NEXT: [[COPY12:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_XYZ_TFE_IDXEN]].sub3
		; CHECK-NEXT: [[REG_SEQUENCE3:%[0-9]+]]:vreg_96 = REG_SEQUENCE [[COPY9]], %subreg.sub0, [[COPY10]], %subreg.sub1, [[COPY11]], %subreg.sub2
		; CHECK-NEXT: FLAT_STORE_DWORDX3 [[REG_SEQUENCE1]], [[REG_SEQUENCE3]], 0, 0, implicit $exec, implicit $flat_scr :: (store (<3 x s32>) into %ir.value, align 16, addrspace 1)
		; CHECK-NEXT: FLAT_STORE_DWORD [[REG_SEQUENCE2]], [[COPY12]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32) into %ir.status, addrspace 1)
		; CHECK-NEXT: S_ENDPGM 0
		%load = call { <3 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v3i32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)

		%v = extractvalue { <3 x i32>, i32 } %load, 0
		store <3 x i32> %v, <3 x i32> addrspace(1)* %value

		%s = extractvalue { <3 x i32>, i32 } %load, 1
		store i32 %s, i32 addrspace(1)* %status

		ret void
		}

		define amdgpu_cs void @struct_buffer_load_format_i32_tfe(<4 x i32> inreg %rsrc, i32 addrspace(1)* %value, i32 addrspace(1)* %status) {
		; CHECK-LABEL: name: struct_buffer_load_format_i32_tfe
		; CHECK: bb.1 (%ir-block.0):
		; CHECK-NEXT: liveins: $sgpr2, $sgpr3, $sgpr4, $sgpr5, $vgpr0, $vgpr1, $vgpr2, $vgpr3
		; CHECK-NEXT: {{ $}}
		; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2
		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
		; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
		; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1
		; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr2
		; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr3
		; CHECK-NEXT: [[REG_SEQUENCE2:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[COPY7]], %subreg.sub1
		; CHECK-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; CHECK-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
		; CHECK-NEXT: [[BUFFER_LOAD_FORMAT_X_TFE_IDXEN:%[0-9]+]]:vreg_64 = BUFFER_LOAD_FORMAT_X_TFE_IDXEN [[COPY8]], [[REG_SEQUENCE]], [[S_MOV_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable load (s32) from custom "BufferResource", align 1, addrspace 4)
		; CHECK-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_X_TFE_IDXEN]].sub0
		; CHECK-NEXT: [[COPY10:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_FORMAT_X_TFE_IDXEN]].sub1
		; CHECK-NEXT: FLAT_STORE_DWORD [[REG_SEQUENCE1]], [[COPY9]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32) into %ir.value, addrspace 1)
		; CHECK-NEXT: FLAT_STORE_DWORD [[REG_SEQUENCE2]], [[COPY10]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32) into %ir.status, addrspace 1)
		; CHECK-NEXT: S_ENDPGM 0
		%load = call { i32, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_i32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)

		%v = extractvalue { i32, i32 } %load, 0
		store i32 %v, i32 addrspace(1)* %value

		%s = extractvalue { i32, i32 } %load, 1
		store i32 %s, i32 addrspace(1)* %status

		ret void
		}

declare float @llvm.amdgcn.struct.buffer.load.format.f32(<4 x i32>, i32, i32, i32, i32 immarg) #0		declare float @llvm.amdgcn.struct.buffer.load.format.f32(<4 x i32>, i32, i32, i32, i32 immarg) #0
declare <2 x float> @llvm.amdgcn.struct.buffer.load.format.v2f32(<4 x i32>, i32, i32, i32, i32 immarg) #0		declare <2 x float> @llvm.amdgcn.struct.buffer.load.format.v2f32(<4 x i32>, i32, i32, i32, i32 immarg) #0
declare <3 x float> @llvm.amdgcn.struct.buffer.load.format.v3f32(<4 x i32>, i32, i32, i32, i32 immarg) #0		declare <3 x float> @llvm.amdgcn.struct.buffer.load.format.v3f32(<4 x i32>, i32, i32, i32, i32 immarg) #0
declare <4 x float> @llvm.amdgcn.struct.buffer.load.format.v4f32(<4 x i32>, i32, i32, i32, i32 immarg) #0		declare <4 x float> @llvm.amdgcn.struct.buffer.load.format.v4f32(<4 x i32>, i32, i32, i32, i32 immarg) #0
declare i32 @llvm.amdgcn.struct.buffer.load.format.i32(<4 x i32>, i32, i32, i32, i32 immarg) #0		declare i32 @llvm.amdgcn.struct.buffer.load.format.i32(<4 x i32>, i32, i32, i32, i32 immarg) #0
		declare { <4 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v4i32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
		declare { <3 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v3i32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
		declare { i32, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_i32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0

		arsenmUnsubmitted Not Done Reply Inline Actions Can you also add i16 and f16 cases? arsenm: Can you also add i16 and f16 cases?
		kosarevAuthorUnsubmitted Done Reply Inline Actions The title says it that this is not supposed to support d16 cases. We would just crash on these. kosarev: The title says it that this is not supposed to support d16 cases. We would just crash on these.
attributes #0 = { nounwind readonly }		attributes #0 = { nounwind readonly }

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.struct.buffer.load.format.ll

	;RUN: llc < %s -march=amdgcn -mcpu=verde -verify-machineinstrs \| FileCheck %s			;RUN: llc < %s -march=amdgcn -mcpu=verde -verify-machineinstrs \| FileCheck --check-prefixes=CHECK,GFX6 %s
	;RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck %s			;RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck --check-prefixes=CHECK,GFX8PLUS %s
				;RUN: llc < %s -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs \| FileCheck --check-prefixes=CHECK,GFX8PLUS %s

	;CHECK-LABEL: {{^}}buffer_load:			;CHECK-LABEL: {{^}}buffer_load:
	;CHECK: buffer_load_format_xyzw v[0:3], {{v[0-9]+}}, s[0:3], 0 idxen			;CHECK: buffer_load_format_xyzw v[0:3], {{v[0-9]+}}, s[0:3], 0 idxen
	;CHECK: buffer_load_format_xyzw v[4:7], {{v[0-9]+}}, s[0:3], 0 idxen glc			;CHECK: buffer_load_format_xyzw v[4:7], {{v[0-9]+}}, s[0:3], 0 idxen glc
	;CHECK: buffer_load_format_xyzw v[8:11], {{v[0-9]+}}, s[0:3], 0 idxen slc			;CHECK: buffer_load_format_xyzw v[8:11], {{v[0-9]+}}, s[0:3], 0 idxen slc
	;CHECK: s_waitcnt			;CHECK: s_waitcnt
	define amdgpu_ps {<4 x float>, <4 x float>, <4 x float>} @buffer_load(<4 x i32> inreg) {			define amdgpu_ps {<4 x float>, <4 x float>, <4 x float>} @buffer_load(<4 x i32> inreg) {
	main_body:			main_body:
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	;CHECK: buffer_load_format_xy v[0:1], {{v[0-9]+}}, s[0:3], 0 idxen			;CHECK: buffer_load_format_xy v[0:1], {{v[0-9]+}}, s[0:3], 0 idxen
	;CHECK: s_waitcnt			;CHECK: s_waitcnt
	define amdgpu_ps <2 x float> @buffer_load_xy(<4 x i32> inreg %rsrc) {			define amdgpu_ps <2 x float> @buffer_load_xy(<4 x i32> inreg %rsrc) {
	main_body:			main_body:
	%data = call <2 x float> @llvm.amdgcn.struct.buffer.load.format.v2f32(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)			%data = call <2 x float> @llvm.amdgcn.struct.buffer.load.format.v2f32(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
	ret <2 x float> %data			ret <2 x float> %data
	}			}

				;CHECK-LABEL: {{^}}buffer_load_v4i32_tfe:
				;CHECK: buffer_load_format_xyzw v[2:6], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_v4i32_tfe(<4 x i32> inreg %rsrc, <4 x i32> addrspace(1)* %out) {
				arsenmUnsubmitted Done Reply Inline Actions Tests should use opaque pointers arsenm: Tests should use opaque pointers
				%load = call { <4 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v4i32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				arsenmUnsubmitted Done Reply Inline Actions All int and FP combinations not here? arsenm: All int and FP combinations not here?
				%data = extractvalue { <4 x i32>, i32 } %load, 0
				store <4 x i32> %data, <4 x i32> addrspace(1)* %out
				%status = extractvalue { <4 x i32>, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

				;CHECK-LABEL: {{^}}buffer_load_v4f32_tfe:
				;CHECK: buffer_load_format_xyzw v[2:6], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_v4f32_tfe(<4 x i32> inreg %rsrc, <4 x float> addrspace(1)* %out) {
				%load = call { <4 x float>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v4f32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				%data = extractvalue { <4 x float>, i32 } %load, 0
				store <4 x float> %data, <4 x float> addrspace(1)* %out
				%status = extractvalue { <4 x float>, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

				;CHECK-LABEL: {{^}}buffer_load_v3i32_tfe:
				;CHECK: buffer_load_format_xyz v[2:5], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_v3i32_tfe(<4 x i32> inreg %rsrc, <3 x i32> addrspace(1)* %out) {
				%load = call { <3 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v3i32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				arsenmUnsubmitted Done Reply Inline Actions 2 x case missing? arsenm: 2 x case missing?
				%data = extractvalue { <3 x i32>, i32 } %load, 0
				store <3 x i32> %data, <3 x i32> addrspace(1)* %out
				%status = extractvalue { <3 x i32>, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

				;CHECK-LABEL: {{^}}buffer_load_v3f32_tfe:
				;CHECK: buffer_load_format_xyz v[2:5], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_v3f32_tfe(<4 x i32> inreg %rsrc, <3 x float> addrspace(1)* %out) {
				%load = call { <3 x float>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v3f32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				%data = extractvalue { <3 x float>, i32 } %load, 0
				store <3 x float> %data, <3 x float> addrspace(1)* %out
				%status = extractvalue { <3 x float>, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

				;CHECK-LABEL: {{^}}buffer_load_v2i32_tfe:
				;GFX6: buffer_load_format_xyz v[2:5], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;GFX8PLUS: buffer_load_format_xy v[2:4], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_v2i32_tfe(<4 x i32> inreg %rsrc, <2 x i32> addrspace(1)* %out) {
				%load = call { <2 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v2i32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				%data = extractvalue { <2 x i32>, i32 } %load, 0
				store <2 x i32> %data, <2 x i32> addrspace(1)* %out
				%status = extractvalue { <2 x i32>, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

				;CHECK-LABEL: {{^}}buffer_load_v2f32_tfe:
				;GFX6: buffer_load_format_xyz v[2:5], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;GFX8PLUS: buffer_load_format_xy v[2:4], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_v2f32_tfe(<4 x i32> inreg %rsrc, <2 x float> addrspace(1)* %out) {
				%load = call { <2 x float>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v2f32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				%data = extractvalue { <2 x float>, i32 } %load, 0
				store <2 x float> %data, <2 x float> addrspace(1)* %out
				%status = extractvalue { <2 x float>, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

				;CHECK-LABEL: {{^}}buffer_load_i32_tfe:
				;CHECK: buffer_load_format_x v[2:3], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_i32_tfe(<4 x i32> inreg %rsrc, i32 addrspace(1)* %out) {
				%load = call { i32, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_i32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				%data = extractvalue { i32, i32 } %load, 0
				store i32 %data, i32 addrspace(1)* %out
				%status = extractvalue { i32, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

				;CHECK-LABEL: {{^}}buffer_load_f32_tfe:
				;CHECK: buffer_load_format_x v[2:3], {{v[0-9]+}}, s[0:3], 0 idxen tfe
				;CHECK: s_waitcnt
				define amdgpu_cs float @buffer_load_f32_tfe(<4 x i32> inreg %rsrc, float addrspace(1)* %out) {
				%load = call { float, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_f32i32s(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0)
				%data = extractvalue { float, i32 } %load, 0
				store float %data, float addrspace(1)* %out
				%status = extractvalue { float, i32 } %load, 1
				%fstatus = bitcast i32 %status to float
				ret float %fstatus
				}

	declare float @llvm.amdgcn.struct.buffer.load.format.f32(<4 x i32>, i32, i32, i32, i32) #0			declare float @llvm.amdgcn.struct.buffer.load.format.f32(<4 x i32>, i32, i32, i32, i32) #0
	declare <2 x float> @llvm.amdgcn.struct.buffer.load.format.v2f32(<4 x i32>, i32, i32, i32, i32) #0			declare <2 x float> @llvm.amdgcn.struct.buffer.load.format.v2f32(<4 x i32>, i32, i32, i32, i32) #0
	declare <4 x float> @llvm.amdgcn.struct.buffer.load.format.v4f32(<4 x i32>, i32, i32, i32, i32) #0			declare <4 x float> @llvm.amdgcn.struct.buffer.load.format.v4f32(<4 x i32>, i32, i32, i32, i32) #0
	declare i32 @llvm.amdgcn.struct.buffer.load.format.i32(<4 x i32>, i32, i32, i32, i32) #0			declare i32 @llvm.amdgcn.struct.buffer.load.format.i32(<4 x i32>, i32, i32, i32, i32) #0
				declare { <4 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v4i32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
				declare { <4 x float>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v4f32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
				declare { <3 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v3i32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
				declare { <3 x float>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v3f32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
				declare { <2 x i32>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v2i32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
				declare { <2 x float>, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_v2f32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
				declare { i32, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_i32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0
				declare { float, i32 } @llvm.amdgcn.struct.buffer.load.format.sl_f32i32s(<4 x i32>, i32, i32, i32, i32 immarg) #0

				arsenmUnsubmitted Not Done Reply Inline Actions Ditto, i16 and f16 cases arsenm: Ditto, i16 and f16 cases
				kosarevAuthorUnsubmitted Done Reply Inline Actions Answered above. kosarev: Answered above.
	attributes #0 = { nounwind readonly }			attributes #0 = { nounwind readonly }

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][CodeGen] Support raw format TFE buffer loads other than byte, short and d16 ones.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 477719

llvm/lib/Target/AMDGPU/AMDGPUGISel.td

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/BUFInstructions.td

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/lib/Target/AMDGPU/SIInstrInfo.td

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.format.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.struct.buffer.load.format.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][CodeGen] Support raw format TFE buffer loads other than byte, short and d16 ones.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 477719

llvm/lib/Target/AMDGPU/AMDGPUGISel.td

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/BUFInstructions.td

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/lib/Target/AMDGPU/SIInstrInfo.td

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.format.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.struct.buffer.load.format.ll

[AMDGPU][CodeGen] Support raw format TFE buffer loads other than byte, short and d16 ones.
ClosedPublic