Diff 294109

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

Show First 20 Lines • Show All 137 Lines • ▼ Show 20 Lines	private:
bool selectG_BRCOND(MachineInstr &I) const;		bool selectG_BRCOND(MachineInstr &I) const;
bool selectG_GLOBAL_VALUE(MachineInstr &I) const;		bool selectG_GLOBAL_VALUE(MachineInstr &I) const;
bool selectG_PTRMASK(MachineInstr &I) const;		bool selectG_PTRMASK(MachineInstr &I) const;
bool selectG_EXTRACT_VECTOR_ELT(MachineInstr &I) const;		bool selectG_EXTRACT_VECTOR_ELT(MachineInstr &I) const;
bool selectG_INSERT_VECTOR_ELT(MachineInstr &I) const;		bool selectG_INSERT_VECTOR_ELT(MachineInstr &I) const;
bool selectG_SHUFFLE_VECTOR(MachineInstr &I) const;		bool selectG_SHUFFLE_VECTOR(MachineInstr &I) const;
bool selectAMDGPU_BUFFER_ATOMIC_FADD(MachineInstr &I) const;		bool selectAMDGPU_BUFFER_ATOMIC_FADD(MachineInstr &I) const;
bool selectGlobalAtomicFaddIntrinsic(MachineInstr &I) const;		bool selectGlobalAtomicFaddIntrinsic(MachineInstr &I) const;
		bool selectBVHIntrinsic(MachineInstr &I) const;

std::pair<Register, unsigned>		std::pair<Register, unsigned>
selectVOP3ModsImpl(MachineOperand &Root) const;		selectVOP3ModsImpl(MachineOperand &Root) const;

InstructionSelector::ComplexRendererFns		InstructionSelector::ComplexRendererFns
selectVCSRC(MachineOperand &Root) const;		selectVCSRC(MachineOperand &Root) const;

InstructionSelector::ComplexRendererFns		InstructionSelector::ComplexRendererFns
▲ Show 20 Lines • Show All 176 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

Show First 20 Lines • Show All 3,013 Lines • ▼ Show 20 Lines	auto MIB = BuildMI(*MBB, &MI, DL, TII.get(Opc))
.addImm(Addr.second)		.addImm(Addr.second)
.addImm(0) // SLC		.addImm(0) // SLC
.cloneMemRefs(MI);		.cloneMemRefs(MI);

MI.eraseFromParent();		MI.eraseFromParent();
return constrainSelectedInstRegOperands(*MIB, TII, TRI, RBI);		return constrainSelectedInstRegOperands(*MIB, TII, TRI, RBI);
}		}

		bool AMDGPUInstructionSelector::selectBVHIntrinsic(MachineInstr &MI) const{
		MI.setDesc(TII.get(MI.getOperand(1).getImm()));
		MI.RemoveOperand(1);
		MI.addImplicitDefUseOperands(*MI.getParent()->getParent());
		return true;
		}

bool AMDGPUInstructionSelector::select(MachineInstr &I) {		bool AMDGPUInstructionSelector::select(MachineInstr &I) {
if (I.isPHI())		if (I.isPHI())
return selectPHI(I);		return selectPHI(I);

if (!I.isPreISelOpcode()) {		if (!I.isPreISelOpcode()) {
if (I.isCopy())		if (I.isCopy())
return selectCOPY(I);		return selectCOPY(I);
return true;		return true;
}		}

switch (I.getOpcode()) {		switch (I.getOpcode()) {
case TargetOpcode::G_AND:		case TargetOpcode::G_AND:
case TargetOpcode::G_OR:		case TargetOpcode::G_OR:
case TargetOpcode::G_XOR:		case TargetOpcode::G_XOR:
		arsenmUnsubmitted Done Reply Inline Actions Braces here arsenm: Braces here
if (selectImpl(I, *CoverageInfo))		if (selectImpl(I, *CoverageInfo))
return true;		return true;
return selectG_AND_OR_XOR(I);		return selectG_AND_OR_XOR(I);
case TargetOpcode::G_ADD:		case TargetOpcode::G_ADD:
case TargetOpcode::G_SUB:		case TargetOpcode::G_SUB:
if (selectImpl(I, *CoverageInfo))		if (selectImpl(I, *CoverageInfo))
return true;		return true;
return selectG_ADD_SUB(I);		return selectG_ADD_SUB(I);
case TargetOpcode::G_UADDO:		case TargetOpcode::G_UADDO:
case TargetOpcode::G_USUBO:		case TargetOpcode::G_USUBO:
case TargetOpcode::G_UADDE:		case TargetOpcode::G_UADDE:
case TargetOpcode::G_USUBE:		case TargetOpcode::G_USUBE:
return selectG_UADDO_USUBO_UADDE_USUBE(I);		return selectG_UADDO_USUBO_UADDE_USUBE(I);
case TargetOpcode::G_INTTOPTR:		case TargetOpcode::G_INTTOPTR:
case TargetOpcode::G_BITCAST:		case TargetOpcode::G_BITCAST:
case TargetOpcode::G_PTRTOINT:		case TargetOpcode::G_PTRTOINT:
return selectCOPY(I);		return selectCOPY(I);
case TargetOpcode::G_CONSTANT:		case TargetOpcode::G_CONSTANT:
case TargetOpcode::G_FCONSTANT:		case TargetOpcode::G_FCONSTANT:
return selectG_CONSTANT(I);		return selectG_CONSTANT(I);
case TargetOpcode::G_FNEG:		case TargetOpcode::G_FNEG:
if (selectImpl(I, *CoverageInfo))		if (selectImpl(I, *CoverageInfo))
return true;		return true;
return selectG_FNEG(I);		return selectG_FNEG(I);
case TargetOpcode::G_FABS:		case TargetOpcode::G_FABS:
if (selectImpl(I, *CoverageInfo))		if (selectImpl(I, *CoverageInfo))
return true;		return true;
return selectG_FABS(I);		return selectG_FABS(I);
case TargetOpcode::G_EXTRACT:		case TargetOpcode::G_EXTRACT:
return selectG_EXTRACT(I);		return selectG_EXTRACT(I);
case TargetOpcode::G_MERGE_VALUES:		case TargetOpcode::G_MERGE_VALUES:
		arsenmUnsubmitted Done Reply Inline Actions Can you do this during custom lowering rather than adding bit operations here late? I'm also surprised a V_PACK_B32_F16 is involved here arsenm: Can you do this during custom lowering rather than adding bit operations here late? I'm also…
		rampitecAuthorUnsubmitted Done Reply Inline Actions What kind of operations you'd like to see in the custom lowering? v_pack_b32_f16 should be fine, this is packed half type in this case. rampitec: What kind of operations you'd like to see in the custom lowering? v_pack_b32_f16 should be fine…
		arsenmUnsubmitted Done Reply Inline Actions But v_pack_b32_f16 isn't semantically the same as the bit packing, so I would be surprised to insert this for the argument handling. arsenm: But v_pack_b32_f16 isn't semantically the same as the bit packing, so I would be surprised to…
		rampitecAuthorUnsubmitted Done Reply Inline Actions That's the best instruction for the job IMO. What we are doing is repacking vector of halfs. rampitec: That's the best instruction for the job IMO. What we are doing is repacking vector of halfs.
		arsenmUnsubmitted Done Reply Inline Actions But it does change the input values. I believe this is a canonicalizing operation, so may flush denorms and quiet snans arsenm: But it does change the input values. I believe this is a canonicalizing operation, so may flush…
		rampitecAuthorUnsubmitted Done Reply Inline Actions It should behave the same as bhv itself, the mode is common right? So if flushing on the value will be flushed anyway. Everything else results in a longer code. It can use v_lshl_or_b32, but it will also need an extra v_and_b32 to clear high half. rampitec: It should behave the same as bhv itself, the mode is common right? So if flushing on the value…
		rampitecAuthorUnsubmitted Done Reply Inline Actions Doing a custom lowering would need 4 different custom nodes and then selection. It will be much more overhead. rampitec: Doing a custom lowering would need 4 different custom nodes and then selection. It will be much…
		arsenmUnsubmitted Done Reply Inline Actions You could use one wrapper instruction like the image intrinsics. We should expose the bit packing to the post-legalize combiner arsenm: You could use one wrapper instruction like the image intrinsics. We should expose the bit…
case TargetOpcode::G_BUILD_VECTOR:		case TargetOpcode::G_BUILD_VECTOR:
case TargetOpcode::G_CONCAT_VECTORS:		case TargetOpcode::G_CONCAT_VECTORS:
return selectG_MERGE_VALUES(I);		return selectG_MERGE_VALUES(I);
case TargetOpcode::G_UNMERGE_VALUES:		case TargetOpcode::G_UNMERGE_VALUES:
return selectG_UNMERGE_VALUES(I);		return selectG_UNMERGE_VALUES(I);
case TargetOpcode::G_BUILD_VECTOR_TRUNC:		case TargetOpcode::G_BUILD_VECTOR_TRUNC:
return selectG_BUILD_VECTOR_TRUNC(I);		return selectG_BUILD_VECTOR_TRUNC(I);
case TargetOpcode::G_PTR_ADD:		case TargetOpcode::G_PTR_ADD:
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	case TargetOpcode::G_SHUFFLE_VECTOR:
return selectG_SHUFFLE_VECTOR(I);		return selectG_SHUFFLE_VECTOR(I);
case AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD:		case AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD:
case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE: {		case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE: {
const AMDGPU::ImageDimIntrinsicInfo *Intr		const AMDGPU::ImageDimIntrinsicInfo *Intr
= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());		= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());
assert(Intr && "not an image intrinsic with image pseudo");		assert(Intr && "not an image intrinsic with image pseudo");
return selectImageIntrinsic(I, Intr);		return selectImageIntrinsic(I, Intr);
}		}
		case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY:
		return selectBVHIntrinsic(I);
case AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FADD:		case AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FADD:
return selectAMDGPU_BUFFER_ATOMIC_FADD(I);		return selectAMDGPU_BUFFER_ATOMIC_FADD(I);
default:		default:
return selectImpl(I, *CoverageInfo);		return selectImpl(I, *CoverageInfo);
}		}
return false;		return false;
}		}

▲ Show 20 Lines • Show All 1,070 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.h

Show First 20 Lines • Show All 157 Lines • ▼ Show 20 Lines	bool legalizeBufferStore(MachineInstr &MI, MachineRegisterInfo &MRI,
MachineIRBuilder &B, bool IsTyped,		MachineIRBuilder &B, bool IsTyped,
bool IsFormat) const;		bool IsFormat) const;
bool legalizeBufferLoad(MachineInstr &MI, MachineRegisterInfo &MRI,		bool legalizeBufferLoad(MachineInstr &MI, MachineRegisterInfo &MRI,
MachineIRBuilder &B, bool IsTyped,		MachineIRBuilder &B, bool IsTyped,
bool IsFormat) const;		bool IsFormat) const;
bool legalizeBufferAtomic(MachineInstr &MI, MachineIRBuilder &B,		bool legalizeBufferAtomic(MachineInstr &MI, MachineIRBuilder &B,
Intrinsic::ID IID) const;		Intrinsic::ID IID) const;

		bool legalizeBVHIntrinsic(MachineInstr &MI, MachineIRBuilder &B) const;

bool legalizeImageIntrinsic(		bool legalizeImageIntrinsic(
MachineInstr &MI, MachineIRBuilder &B,		MachineInstr &MI, MachineIRBuilder &B,
GISelChangeObserver &Observer,		GISelChangeObserver &Observer,
const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr) const;		const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr) const;

bool legalizeSBufferLoad(LegalizerHelper &Helper, MachineInstr &MI) const;		bool legalizeSBufferLoad(LegalizerHelper &Helper, MachineInstr &MI) const;

bool legalizeAtomicIncDec(MachineInstr &MI, MachineIRBuilder &B,		bool legalizeAtomicIncDec(MachineInstr &MI, MachineIRBuilder &B,
Show All 12 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 4,482 Lines • ▼ Show 20 Lines	if (ST.getTrapHandlerAbi() != GCNSubtarget::TrapHandlerAbiHsa \|\|
// Insert debug-trap instruction		// Insert debug-trap instruction
B.buildInstr(AMDGPU::S_TRAP).addImm(GCNSubtarget::TrapIDLLVMDebugTrap);		B.buildInstr(AMDGPU::S_TRAP).addImm(GCNSubtarget::TrapIDLLVMDebugTrap);
}		}

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

		bool AMDGPULegalizerInfo::legalizeBVHIntrinsic(MachineInstr &MI,
		MachineIRBuilder &B) const {
		MachineRegisterInfo &MRI = *B.getMRI();
		const LLT S16 = LLT::scalar(16);
		const LLT S32 = LLT::scalar(32);

		Register DstReg = MI.getOperand(0).getReg();
		Register NodePtr = MI.getOperand(2).getReg();
		Register RayExtent = MI.getOperand(3).getReg();
		Register RayOrigin = MI.getOperand(4).getReg();
		Register RayDir = MI.getOperand(5).getReg();
		Register RayInvDir = MI.getOperand(6).getReg();
		Register TDescr = MI.getOperand(7).getReg();

		bool IsA16 = MRI.getType(RayDir).getElementType().getSizeInBits() == 16;
		bool Is64 = MRI.getType(NodePtr).getSizeInBits() == 64;
		unsigned Opcode = IsA16 ? Is64 ? AMDGPU::IMAGE_BVH64_INTERSECT_RAY_a16_nsa
		: AMDGPU::IMAGE_BVH_INTERSECT_RAY_a16_nsa
		: Is64 ? AMDGPU::IMAGE_BVH64_INTERSECT_RAY_nsa
		: AMDGPU::IMAGE_BVH_INTERSECT_RAY_nsa;

		SmallVector<Register, 12> Ops;
		if (Is64) {
		auto Unmerge = B.buildUnmerge({S32, S32}, NodePtr);
		Ops.push_back(Unmerge.getReg(0));
		Ops.push_back(Unmerge.getReg(1));
		} else {
		Ops.push_back(NodePtr);
		}
		Ops.push_back(RayExtent);

		auto packLanes = [&Ops, &S32, &B] (Register Src) {
		auto Unmerge = B.buildUnmerge({S32, S32, S32, S32}, Src);
		Ops.push_back(Unmerge.getReg(0));
		Ops.push_back(Unmerge.getReg(1));
		Ops.push_back(Unmerge.getReg(2));
		};

		packLanes(RayOrigin);
		if (IsA16) {
		auto UnmergeRayDir = B.buildUnmerge({S16, S16, S16, S16}, RayDir);
		auto UnmergeRayInvDir = B.buildUnmerge({S16, S16, S16, S16}, RayInvDir);
		Register R1 = MRI.createGenericVirtualRegister(S32);
		Register R2 = MRI.createGenericVirtualRegister(S32);
		Register R3 = MRI.createGenericVirtualRegister(S32);
		B.buildMerge(R1, {UnmergeRayDir.getReg(0), UnmergeRayDir.getReg(1)});
		B.buildMerge(R2, {UnmergeRayDir.getReg(2), UnmergeRayInvDir.getReg(0)});
		B.buildMerge(R3, {UnmergeRayInvDir.getReg(1), UnmergeRayInvDir.getReg(2)});
		Ops.push_back(R1);
		Ops.push_back(R2);
		Ops.push_back(R3);
		} else {
		packLanes(RayDir);
		packLanes(RayInvDir);
		}

		auto MIB = B.buildInstr(AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY)
		.addDef(DstReg)
		.addImm(Opcode);

		for (Register R : Ops) {
		MIB.addUse(R);
		}

		MIB.addUse(TDescr)
		.addImm(IsA16 ? 1 : 0)
		.cloneMemRefs(MI);

		MI.eraseFromParent();
		return true;
		}

bool AMDGPULegalizerInfo::legalizeIntrinsic(LegalizerHelper &Helper,		bool AMDGPULegalizerInfo::legalizeIntrinsic(LegalizerHelper &Helper,
MachineInstr &MI) const {		MachineInstr &MI) const {
MachineIRBuilder &B = Helper.MIRBuilder;		MachineIRBuilder &B = Helper.MIRBuilder;
MachineRegisterInfo &MRI = *B.getMRI();		MachineRegisterInfo &MRI = *B.getMRI();

// Replace the use G_BRCOND with the exec manipulate and branch pseudos.		// Replace the use G_BRCOND with the exec manipulate and branch pseudos.
auto IntrID = MI.getIntrinsicID();		auto IntrID = MI.getIntrinsicID();
switch (IntrID) {		switch (IntrID) {
▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines	bool AMDGPULegalizerInfo::legalizeIntrinsic(LegalizerHelper &Helper,
case Intrinsic::debugtrap:		case Intrinsic::debugtrap:
return legalizeDebugTrapIntrinsic(MI, MRI, B);		return legalizeDebugTrapIntrinsic(MI, MRI, B);
case Intrinsic::amdgcn_rsq_clamp:		case Intrinsic::amdgcn_rsq_clamp:
return legalizeRsqClampIntrinsic(MI, MRI, B);		return legalizeRsqClampIntrinsic(MI, MRI, B);
case Intrinsic::amdgcn_ds_fadd:		case Intrinsic::amdgcn_ds_fadd:
case Intrinsic::amdgcn_ds_fmin:		case Intrinsic::amdgcn_ds_fmin:
case Intrinsic::amdgcn_ds_fmax:		case Intrinsic::amdgcn_ds_fmax:
return legalizeDSAtomicFPIntrinsic(Helper, MI, IntrID);		return legalizeDSAtomicFPIntrinsic(Helper, MI, IntrID);
		case Intrinsic::amdgcn_image_bvh_intersect_ray:
		return legalizeBVHIntrinsic(MI, B);
default: {		default: {
if (const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr =		if (const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr =
AMDGPU::getImageDimIntrinsicInfo(IntrID))		AMDGPU::getImageDimIntrinsicInfo(IntrID))
return legalizeImageIntrinsic(MI, B, Helper.Observer, ImageDimIntr);		return legalizeImageIntrinsic(MI, B, Helper.Observer, ImageDimIntr);
return true;		return true;
}		}
}		}

return true;		return true;
}		}

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 3,047 Lines • ▼ Show 20 Lines	const AMDGPU::RsrcIntrinsic *RSrcIntrin
= AMDGPU::lookupRsrcIntrinsic(MI.getIntrinsicID());		= AMDGPU::lookupRsrcIntrinsic(MI.getIntrinsicID());
assert(RSrcIntrin && RSrcIntrin->IsImage);		assert(RSrcIntrin && RSrcIntrin->IsImage);
// Non-images can have complications from operands that allow both SGPR		// Non-images can have complications from operands that allow both SGPR
// and VGPR. For now it's too complicated to figure out the final opcode		// and VGPR. For now it's too complicated to figure out the final opcode
// to derive the register bank from the MCInstrDesc.		// to derive the register bank from the MCInstrDesc.
applyMappingImage(MI, OpdMapper, MRI, RSrcIntrin->RsrcArg);		applyMappingImage(MI, OpdMapper, MRI, RSrcIntrin->RsrcArg);
return;		return;
}		}
		case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY: {
		unsigned N = MI.getNumExplicitOperands() - 2;
		executeInWaterfallLoop(MI, MRI, { N });
		return;
		}
case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {		case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {
auto IntrID = MI.getIntrinsicID();		auto IntrID = MI.getIntrinsicID();
switch (IntrID) {		switch (IntrID) {
case Intrinsic::amdgcn_ds_ordered_add:		case Intrinsic::amdgcn_ds_ordered_add:
case Intrinsic::amdgcn_ds_ordered_swap: {		case Intrinsic::amdgcn_ds_ordered_swap: {
// This is only allowed to execute with 1 lane, so readfirstlane is safe.		// This is only allowed to execute with 1 lane, so readfirstlane is safe.
assert(OpdMapper.getVRegs(0).empty());		assert(OpdMapper.getVRegs(0).empty());
substituteSimpleCopyRegs(OpdMapper, 3);		substituteSimpleCopyRegs(OpdMapper, 3);
▲ Show 20 Lines • Show All 1,173 Lines • ▼ Show 20 Lines	case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE: {
const AMDGPU::RsrcIntrinsic *RSrcIntrin = AMDGPU::lookupRsrcIntrinsic(IntrID);		const AMDGPU::RsrcIntrinsic *RSrcIntrin = AMDGPU::lookupRsrcIntrinsic(IntrID);
assert(RSrcIntrin && "missing RsrcIntrinsic for image intrinsic");		assert(RSrcIntrin && "missing RsrcIntrinsic for image intrinsic");
// Non-images can have complications from operands that allow both SGPR		// Non-images can have complications from operands that allow both SGPR
// and VGPR. For now it's too complicated to figure out the final opcode		// and VGPR. For now it's too complicated to figure out the final opcode
// to derive the register bank from the MCInstrDesc.		// to derive the register bank from the MCInstrDesc.
assert(RSrcIntrin->IsImage);		assert(RSrcIntrin->IsImage);
return getImageMapping(MRI, MI, RSrcIntrin->RsrcArg);		return getImageMapping(MRI, MI, RSrcIntrin->RsrcArg);
}		}
		case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY: {
		unsigned N = MI.getNumExplicitOperands() - 2;
		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 128);
		OpdsMapping[N] = getSGPROpMapping(MI.getOperand(N).getReg(), MRI, *TRI);
		for (unsigned I = 2; I < N; ++I)
		OpdsMapping[I] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 32);
		break;
		}
case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {		case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {
auto IntrID = MI.getIntrinsicID();		auto IntrID = MI.getIntrinsicID();
switch (IntrID) {		switch (IntrID) {
case Intrinsic::amdgcn_s_getreg:		case Intrinsic::amdgcn_s_getreg:
case Intrinsic::amdgcn_s_memtime:		case Intrinsic::amdgcn_s_memtime:
case Intrinsic::amdgcn_s_memrealtime:		case Intrinsic::amdgcn_s_memrealtime:
case Intrinsic::amdgcn_s_get_waveid_in_workgroup: {		case Intrinsic::amdgcn_s_get_waveid_in_workgroup: {
unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines	default:
return getInvalidInstructionMapping();		return getInvalidInstructionMapping();
}		}
break;		break;
}		}
case AMDGPU::G_SELECT: {		case AMDGPU::G_SELECT: {
unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
unsigned Op2Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,		unsigned Op2Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,
AMDGPU::SGPRRegBankID);		AMDGPU::SGPRRegBankID);
unsigned Op3Bank = getRegBankID(MI.getOperand(3).getReg(), MRI,		unsigned Op3Bank = getRegBankID(MI.getOperand(3).getReg(), MRI,
		arsenmUnsubmitted Done Reply Inline Actions Missing waterfall loop for SGPR operand arsenm: Missing waterfall loop for SGPR operand
		rampitecAuthorUnsubmitted Done Reply Inline Actions That's a descriptor, I'd rather refuse to select. rampitec: That's a descriptor, I'd rather refuse to select.
		arsenmUnsubmitted Done Reply Inline Actions You can never guarantee the input is uniform or in a VGPR. We can do the right thing now easily (and every other intrinsic with a descriptor does it) arsenm: You can never guarantee the input is uniform or in a VGPR. We can do the right thing now easily…
AMDGPU::SGPRRegBankID);		AMDGPU::SGPRRegBankID);
bool SGPRSrcs = Op2Bank == AMDGPU::SGPRRegBankID &&		bool SGPRSrcs = Op2Bank == AMDGPU::SGPRRegBankID &&
Op3Bank == AMDGPU::SGPRRegBankID;		Op3Bank == AMDGPU::SGPRRegBankID;

unsigned CondBankDefault = SGPRSrcs ?		unsigned CondBankDefault = SGPRSrcs ?
AMDGPU::SGPRRegBankID : AMDGPU::VCCRegBankID;		AMDGPU::SGPRRegBankID : AMDGPU::VCCRegBankID;
unsigned CondBank = getRegBankID(MI.getOperand(1).getReg(), MRI,		unsigned CondBank = getRegBankID(MI.getOperand(1).getReg(), MRI,
CondBankDefault);		CondBankDefault);
▲ Show 20 Lines • Show All 75 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 2,481 Lines • ▼ Show 20 Lines
	// This is equivalent to the G_INTRINSIC*, but the operands may have			// This is equivalent to the G_INTRINSIC*, but the operands may have
	// been legalized depending on the subtarget requirements.			// been legalized depending on the subtarget requirements.
	def G_AMDGPU_INTRIN_IMAGE_STORE : AMDGPUGenericInstruction {			def G_AMDGPU_INTRIN_IMAGE_STORE : AMDGPUGenericInstruction {
	let OutOperandList = (outs);			let OutOperandList = (outs);
	let InOperandList = (ins unknown:$intrin, variable_ops);			let InOperandList = (ins unknown:$intrin, variable_ops);
	let hasSideEffects = 0;			let hasSideEffects = 0;
	let mayStore = 1;			let mayStore = 1;
	}			}

				def G_AMDGPU_INTRIN_BVH_INTERSECT_RAY : AMDGPUGenericInstruction {
				let OutOperandList = (outs type0:$dst);
				let InOperandList = (ins unknown:$intrin, variable_ops);
				let hasSideEffects = 0;
				let mayLoad = 1;
				let mayStore = 0;
				}

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.intersect_ray.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

				; uint4 llvm.amdgcn.image.bvh.intersect.ray.i32.v4f32(uint node_ptr, float ray_extent, float4 ray_origin, float4 ray_dir, float4 ray_inv_dir, uint4 texture_descr)
				; uint4 llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(uint node_ptr, float ray_extent, float4 ray_origin, half4 ray_dir, half4 ray_inv_dir, uint4 texture_descr)
				; uint4 llvm.amdgcn.image.bvh.intersect.ray.i64.v4f32(ulong node_ptr, float ray_extent, float4 ray_origin, float4 ray_dir, float4 ray_inv_dir, uint4 texture_descr)
				; uint4 llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(ulong node_ptr, float ray_extent, float4 ray_origin, half4 ray_dir, half4 ray_inv_dir, uint4 texture_descr)

				declare <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f32(i32, float, <4 x float>, <4 x float>, <4 x float>, <4 x i32>)
				declare <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(i32, float, <4 x float>, <4 x half>, <4 x half>, <4 x i32>)
				declare <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f32(i64, float, <4 x float>, <4 x float>, <4 x float>, <4 x i32>)
				declare <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(i64, float, <4 x float>, <4 x half>, <4 x half>, <4 x i32>)

				define amdgpu_ps <4 x float> @image_bvh_intersect_ray(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> inreg %tdescr) {
				; GCN-LABEL: image_bvh_intersect_ray:
				; GCN: ; %bb.0:
				; GCN-NEXT: image_bvh_intersect_ray v[0:3], [v0, v1, v2, v3, v4, v6, v7, v8, v10, v11, v12], s[0:3]
				; GCN-NEXT: ; implicit-def: $vcc_hi
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f32(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

				define amdgpu_ps <4 x float> @image_bvh_intersect_ray_a16(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> inreg %tdescr) {
				; GCN-LABEL: image_bvh_intersect_ray_a16:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_mov_b32 s4, 0xffff
				; GCN-NEXT: v_lshrrev_b32_e32 v5, 16, v6
				; GCN-NEXT: v_and_b32_e32 v10, s4, v8
				; GCN-NEXT: v_lshrrev_b32_e32 v8, 16, v8
				; GCN-NEXT: v_and_b32_e32 v9, s4, v9
				; GCN-NEXT: ; implicit-def: $vcc_hi
				; GCN-NEXT: v_lshlrev_b32_e32 v5, 16, v5
				; GCN-NEXT: v_lshlrev_b32_e32 v10, 16, v10
				; GCN-NEXT: v_and_or_b32 v5, v6, s4, v5
				; GCN-NEXT: v_and_or_b32 v6, v7, s4, v10
				; GCN-NEXT: v_lshl_or_b32 v7, v9, 16, v8
				; GCN-NEXT: image_bvh_intersect_ray v[0:3], v[0:7], s[0:3] a16
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

				define amdgpu_ps <4 x float> @image_bvh64_intersect_ray(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> inreg %tdescr) {
				; GCN-LABEL: image_bvh64_intersect_ray:
				; GCN: ; %bb.0:
				; GCN-NEXT: image_bvh64_intersect_ray v[0:3], [v0, v1, v2, v3, v4, v5, v7, v8, v9, v11, v12, v13], s[0:3]
				; GCN-NEXT: ; implicit-def: $vcc_hi
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f32(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

				define amdgpu_ps <4 x float> @image_bvh64_intersect_ray_a16(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> inreg %tdescr) {
				; GCN-LABEL: image_bvh64_intersect_ray_a16:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_mov_b32 s4, 0xffff
				; GCN-NEXT: v_lshrrev_b32_e32 v6, 16, v7
				; GCN-NEXT: v_and_b32_e32 v11, s4, v9
				; GCN-NEXT: v_lshrrev_b32_e32 v9, 16, v9
				; GCN-NEXT: v_and_b32_e32 v10, s4, v10
				; GCN-NEXT: ; implicit-def: $vcc_hi
				arsenmUnsubmitted Done Reply Inline Actions Should include a case where this needs a waterfall loop arsenm: Should include a case where this needs a waterfall loop
				; GCN-NEXT: v_lshlrev_b32_e32 v6, 16, v6
				; GCN-NEXT: v_lshlrev_b32_e32 v11, 16, v11
				; GCN-NEXT: v_and_or_b32 v6, v7, s4, v6
				; GCN-NEXT: v_and_or_b32 v7, v8, s4, v11
				; GCN-NEXT: v_lshl_or_b32 v8, v10, 16, v9
				; GCN-NEXT: image_bvh64_intersect_ray v[0:3], v[0:15], s[0:3] a16
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

				define amdgpu_ps <4 x float> @image_bvh_intersect_ray_vgpr_descr(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> %tdescr) {
				; GCN-LABEL: image_bvh_intersect_ray_vgpr_descr:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_mov_b32 s1, exec_lo
				; GCN-NEXT: ; implicit-def: $vcc_hi
				; GCN-NEXT: BB4_1: ; =>This Inner Loop Header: Depth=1
				; GCN-NEXT: v_readfirstlane_b32 s4, v14
				; GCN-NEXT: v_readfirstlane_b32 s5, v15
				; GCN-NEXT: v_readfirstlane_b32 s6, v16
				; GCN-NEXT: v_readfirstlane_b32 s7, v17
				; GCN-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[14:15]
				; GCN-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[16:17]
				; GCN-NEXT: s_nop 2
				; GCN-NEXT: image_bvh_intersect_ray v[18:21], [v0, v1, v2, v3, v4, v6, v7, v8, v10, v11, v12], s[4:7]
				; GCN-NEXT: s_and_b32 s0, s0, vcc_lo
				; GCN-NEXT: s_and_saveexec_b32 s0, s0
				; GCN-NEXT: s_xor_b32 exec_lo, exec_lo, s0
				; GCN-NEXT: s_cbranch_execnz BB4_1
				; GCN-NEXT: ; %bb.2:
				; GCN-NEXT: s_mov_b32 exec_lo, s1
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_mov_b32_e32 v0, v18
				; GCN-NEXT: v_mov_b32_e32 v1, v19
				; GCN-NEXT: v_mov_b32_e32 v2, v20
				; GCN-NEXT: v_mov_b32_e32 v3, v21
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f32(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

				define amdgpu_ps <4 x float> @image_bvh_intersect_ray_a16_vgpr_descr(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> %tdescr) {
				; GCN-LABEL: image_bvh_intersect_ray_a16_vgpr_descr:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_mov_b32 s0, 0xffff
				; GCN-NEXT: v_lshrrev_b32_e32 v5, 16, v6
				; GCN-NEXT: v_and_b32_e32 v14, s0, v8
				; GCN-NEXT: v_lshrrev_b32_e32 v8, 16, v8
				; GCN-NEXT: v_and_b32_e32 v15, s0, v9
				; GCN-NEXT: s_mov_b32 s1, exec_lo
				; GCN-NEXT: v_lshlrev_b32_e32 v5, 16, v5
				; GCN-NEXT: v_lshlrev_b32_e32 v14, 16, v14
				; GCN-NEXT: ; implicit-def: $vcc_hi
				; GCN-NEXT: v_lshl_or_b32 v15, v15, 16, v8
				; GCN-NEXT: v_and_or_b32 v9, v6, s0, v5
				; GCN-NEXT: v_and_or_b32 v14, v7, s0, v14
				; GCN-NEXT: BB5_1: ; =>This Inner Loop Header: Depth=1
				; GCN-NEXT: v_readfirstlane_b32 s4, v10
				; GCN-NEXT: v_readfirstlane_b32 s5, v11
				; GCN-NEXT: v_readfirstlane_b32 s6, v12
				; GCN-NEXT: v_readfirstlane_b32 s7, v13
				; GCN-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[10:11]
				; GCN-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[12:13]
				; GCN-NEXT: s_nop 2
				; GCN-NEXT: image_bvh_intersect_ray v[5:8], [v0, v1, v2, v3, v4, v9, v14, v15], s[4:7] a16
				; GCN-NEXT: s_and_b32 s0, s0, vcc_lo
				; GCN-NEXT: s_and_saveexec_b32 s0, s0
				; GCN-NEXT: s_xor_b32 exec_lo, exec_lo, s0
				; GCN-NEXT: s_cbranch_execnz BB5_1
				; GCN-NEXT: ; %bb.2:
				; GCN-NEXT: s_mov_b32 exec_lo, s1
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_mov_b32_e32 v0, v5
				; GCN-NEXT: v_mov_b32_e32 v1, v6
				; GCN-NEXT: v_mov_b32_e32 v2, v7
				; GCN-NEXT: v_mov_b32_e32 v3, v8
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(i32 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

				define amdgpu_ps <4 x float> @image_bvh64_intersect_ray_vgpr_descr(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> %tdescr) {
				; GCN-LABEL: image_bvh64_intersect_ray_vgpr_descr:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_mov_b32 s1, exec_lo
				; GCN-NEXT: ; implicit-def: $vcc_hi
				; GCN-NEXT: BB6_1: ; =>This Inner Loop Header: Depth=1
				; GCN-NEXT: v_readfirstlane_b32 s4, v15
				; GCN-NEXT: v_readfirstlane_b32 s5, v16
				; GCN-NEXT: v_readfirstlane_b32 s6, v17
				; GCN-NEXT: v_readfirstlane_b32 s7, v18
				; GCN-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[15:16]
				; GCN-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[17:18]
				; GCN-NEXT: s_nop 2
				; GCN-NEXT: image_bvh64_intersect_ray v[19:22], [v0, v1, v2, v3, v4, v5, v7, v8, v9, v11, v12, v13], s[4:7]
				; GCN-NEXT: s_and_b32 s0, s0, vcc_lo
				; GCN-NEXT: s_and_saveexec_b32 s0, s0
				; GCN-NEXT: s_xor_b32 exec_lo, exec_lo, s0
				; GCN-NEXT: s_cbranch_execnz BB6_1
				; GCN-NEXT: ; %bb.2:
				; GCN-NEXT: s_mov_b32 exec_lo, s1
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_mov_b32_e32 v0, v19
				; GCN-NEXT: v_mov_b32_e32 v1, v20
				; GCN-NEXT: v_mov_b32_e32 v2, v21
				; GCN-NEXT: v_mov_b32_e32 v3, v22
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f32(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x float> %ray_dir, <4 x float> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

				define amdgpu_ps <4 x float> @image_bvh64_intersect_ray_a16_vgpr_descr(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> %tdescr) {
				; GCN-LABEL: image_bvh64_intersect_ray_a16_vgpr_descr:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_mov_b32 s0, 0xffff
				; GCN-NEXT: v_lshrrev_b32_e32 v6, 16, v7
				; GCN-NEXT: v_and_b32_e32 v15, s0, v9
				; GCN-NEXT: v_lshrrev_b32_e32 v9, 16, v9
				; GCN-NEXT: v_and_b32_e32 v16, s0, v10
				; GCN-NEXT: s_mov_b32 s1, exec_lo
				; GCN-NEXT: v_lshlrev_b32_e32 v6, 16, v6
				; GCN-NEXT: v_lshlrev_b32_e32 v15, 16, v15
				; GCN-NEXT: ; implicit-def: $vcc_hi
				; GCN-NEXT: v_lshl_or_b32 v16, v16, 16, v9
				; GCN-NEXT: v_and_or_b32 v10, v7, s0, v6
				; GCN-NEXT: v_and_or_b32 v15, v8, s0, v15
				; GCN-NEXT: BB7_1: ; =>This Inner Loop Header: Depth=1
				; GCN-NEXT: v_readfirstlane_b32 s4, v11
				; GCN-NEXT: v_readfirstlane_b32 s5, v12
				; GCN-NEXT: v_readfirstlane_b32 s6, v13
				; GCN-NEXT: v_readfirstlane_b32 s7, v14
				; GCN-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[11:12]
				; GCN-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[13:14]
				; GCN-NEXT: s_nop 2
				; GCN-NEXT: image_bvh64_intersect_ray v[6:9], [v0, v1, v2, v3, v4, v5, v10, v15, v16], s[4:7] a16
				; GCN-NEXT: s_and_b32 s0, s0, vcc_lo
				; GCN-NEXT: s_and_saveexec_b32 s0, s0
				; GCN-NEXT: s_xor_b32 exec_lo, exec_lo, s0
				; GCN-NEXT: s_cbranch_execnz BB7_1
				; GCN-NEXT: ; %bb.2:
				; GCN-NEXT: s_mov_b32 exec_lo, s1
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_mov_b32_e32 v0, v6
				; GCN-NEXT: v_mov_b32_e32 v1, v7
				; GCN-NEXT: v_mov_b32_e32 v2, v8
				; GCN-NEXT: v_mov_b32_e32 v3, v9
				; GCN-NEXT: ; return to shader part epilog
				%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(i64 %node_ptr, float %ray_extent, <4 x float> %ray_origin, <4 x half> %ray_dir, <4 x half> %ray_inv_dir, <4 x i32> %tdescr)
				%r = bitcast <4 x i32> %v to <4 x float>
				ret <4 x float> %r
				}

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] global-isel support for RT
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 294109

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.h

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.intersect_ray.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] global-isel support for RTClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 294109

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.h

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.intersect_ray.ll

[AMDGPU] global-isel support for RT
ClosedPublic