Diff 499534

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

	Show First 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	def foldable_fneg_matchdata : GIDefMatchData<"MachineInstr *">;			def foldable_fneg_matchdata : GIDefMatchData<"MachineInstr *">;

	def foldable_fneg : GICombineRule<			def foldable_fneg : GICombineRule<
	(defs root:$ffn, foldable_fneg_matchdata:$matchinfo),			(defs root:$ffn, foldable_fneg_matchdata:$matchinfo),
	(match (wip_match_opcode G_FNEG):$ffn,			(match (wip_match_opcode G_FNEG):$ffn,
	[{ return Helper.matchFoldableFneg(*${ffn}, ${matchinfo}); }]),			[{ return Helper.matchFoldableFneg(*${ffn}, ${matchinfo}); }]),
	(apply [{ Helper.applyFoldableFneg(*${ffn}, ${matchinfo}); }])>;			(apply [{ Helper.applyFoldableFneg(*${ffn}, ${matchinfo}); }])>;

				def sign_exension_in_reg_matchdata : GIDefMatchData<"MachineInstr *">;

				def sign_extension_in_reg : GICombineRule<
				(defs root:$sign_inreg, sign_exension_in_reg_matchdata:$matchinfo),
				(match (wip_match_opcode G_SEXT_INREG):$sign_inreg,
				[{ return PostLegalizerHelper.matchCombineSignExtendInReg(*${sign_inreg}, ${matchinfo}); }]),
				(apply [{ PostLegalizerHelper.applyCombineSignExtendInReg(*${sign_inreg}, ${matchinfo}); }])>;

	// Combines which should only apply on SI/VI			// Combines which should only apply on SI/VI
	def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;			def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;

	def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<			def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<
	"AMDGPUGenPreLegalizerCombinerHelper",			"AMDGPUGenPreLegalizerCombinerHelper",
	[all_combines, clamp_i64_to_i16, foldable_fneg]> {			[all_combines, clamp_i64_to_i16, foldable_fneg]> {
	let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";			let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";
	let StateClass = "AMDGPUPreLegalizerCombinerHelperState";			let StateClass = "AMDGPUPreLegalizerCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

	def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<			def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<
	"AMDGPUGenPostLegalizerCombinerHelper",			"AMDGPUGenPostLegalizerCombinerHelper",
	[all_combines, gfx6gfx7_combines,			[all_combines, gfx6gfx7_combines,
	uchar_to_float, cvt_f32_ubyteN, remove_fcanonicalize, foldable_fneg,			uchar_to_float, cvt_f32_ubyteN, remove_fcanonicalize, foldable_fneg,
	rcp_sqrt_to_rsq]> {			rcp_sqrt_to_rsq, sign_extension_in_reg]> {
	let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";			let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";
	let StateClass = "AMDGPUPostLegalizerCombinerHelperState";			let StateClass = "AMDGPUPostLegalizerCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

	def AMDGPURegBankCombinerHelper : GICombinerHelper<			def AMDGPURegBankCombinerHelper : GICombinerHelper<
	"AMDGPUGenRegBankCombinerHelper",			"AMDGPUGenRegBankCombinerHelper",
	[unmerge_merge, unmerge_cst, unmerge_undef,			[unmerge_merge, unmerge_cst, unmerge_undef,
	zext_trunc_fold, int_minmax_to_med3, ptr_add_immed_chain,			zext_trunc_fold, int_minmax_to_med3, ptr_add_immed_chain,
	fp_minmax_to_clamp, fp_minmax_to_med3, fmed3_intrinsic_to_clamp]> {			fp_minmax_to_clamp, fp_minmax_to_med3, fmed3_intrinsic_to_clamp]> {
	let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";			let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";
	let StateClass = "AMDGPURegBankCombinerHelperState";			let StateClass = "AMDGPURegBankCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

Show All 30 Lines
using namespace llvm;		using namespace llvm;
using namespace MIPatternMatch;		using namespace MIPatternMatch;

class AMDGPUPostLegalizerCombinerHelper {		class AMDGPUPostLegalizerCombinerHelper {
protected:		protected:
MachineIRBuilder &B;		MachineIRBuilder &B;
MachineFunction &MF;		MachineFunction &MF;
MachineRegisterInfo &MRI;		MachineRegisterInfo &MRI;
		const GCNSubtarget &Subtarget;
		const SIInstrInfo &TII;
AMDGPUCombinerHelper &Helper;		AMDGPUCombinerHelper &Helper;

public:		public:
AMDGPUPostLegalizerCombinerHelper(MachineIRBuilder &B,		AMDGPUPostLegalizerCombinerHelper(MachineIRBuilder &B,
AMDGPUCombinerHelper &Helper)		AMDGPUCombinerHelper &Helper)
: B(B), MF(B.getMF()), MRI(*B.getMRI()), Helper(Helper){};		: B(B), MF(B.getMF()), MRI(*B.getMRI()),
		Subtarget(MF.getSubtarget<GCNSubtarget>()),
		TII(*Subtarget.getInstrInfo()), Helper(Helper){};

struct FMinFMaxLegacyInfo {		struct FMinFMaxLegacyInfo {
Register LHS;		Register LHS;
Register RHS;		Register RHS;
Register True;		Register True;
Register False;		Register False;
CmpInst::Predicate Pred;		CmpInst::Predicate Pred;
};		};
Show All 16 Lines	struct CvtF32UByteMatchInfo {
unsigned ShiftOffset;		unsigned ShiftOffset;
};		};

bool matchCvtF32UByteN(MachineInstr &MI, CvtF32UByteMatchInfo &MatchInfo);		bool matchCvtF32UByteN(MachineInstr &MI, CvtF32UByteMatchInfo &MatchInfo);
void applyCvtF32UByteN(MachineInstr &MI,		void applyCvtF32UByteN(MachineInstr &MI,
const CvtF32UByteMatchInfo &MatchInfo);		const CvtF32UByteMatchInfo &MatchInfo);

bool matchRemoveFcanonicalize(MachineInstr &MI, Register &Reg);		bool matchRemoveFcanonicalize(MachineInstr &MI, Register &Reg);

		// Combine unsigned buffer load and signed extension instructions to generate
		// signed buffer laod instructions.
		bool matchCombineSignExtendInReg(MachineInstr &MI, MachineInstr *&MatchInfo);
		void applyCombineSignExtendInReg(MachineInstr &MI, MachineInstr *&MatchInfo);
};		};

bool AMDGPUPostLegalizerCombinerHelper::matchFMinFMaxLegacy(		bool AMDGPUPostLegalizerCombinerHelper::matchFMinFMaxLegacy(
MachineInstr &MI, FMinFMaxLegacyInfo &Info) {		MachineInstr &MI, FMinFMaxLegacyInfo &Info) {
// FIXME: Type predicate on pattern		// FIXME: Type predicate on pattern
if (MRI.getType(MI.getOperand(0).getReg()) != LLT::scalar(32))		if (MRI.getType(MI.getOperand(0).getReg()) != LLT::scalar(32))
return false;		return false;

▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
bool AMDGPUPostLegalizerCombinerHelper::matchRemoveFcanonicalize(		bool AMDGPUPostLegalizerCombinerHelper::matchRemoveFcanonicalize(
MachineInstr &MI, Register &Reg) {		MachineInstr &MI, Register &Reg) {
const SITargetLowering TLI = static_cast<const SITargetLowering >(		const SITargetLowering TLI = static_cast<const SITargetLowering >(
MF.getSubtarget().getTargetLowering());		MF.getSubtarget().getTargetLowering());
Reg = MI.getOperand(1).getReg();		Reg = MI.getOperand(1).getReg();
return TLI->isCanonicalized(Reg, MF);		return TLI->isCanonicalized(Reg, MF);
}		}

		// The buffer_load_{i8, i16} intrinsics are intially lowered as buffer_load_{u8,
		// u16} instructions. Here, the buffer_load_{u8, u16} instructions are combined
		// with sign extension instrucions in order to generate buffer_load_{i8, i16}
		// instructions.

		// Identify buffer_load_{u8, u16}.
		bool AMDGPUPostLegalizerCombinerHelper::matchCombineSignExtendInReg(
		MachineInstr &MI, MachineInstr *&SubwordBufferLoad) {
		Register Op0Reg = MI.getOperand(1).getReg();
		SubwordBufferLoad = MRI.getVRegDef(Op0Reg);

		if (!MRI.hasOneNonDBGUse(Op0Reg))
		return false;

		// Check if the first operand of the sign extension is a subword buffer load
		// instruction.
		return SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE \|\|
		SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT;
		}

		// Combine buffer_load_{u8, u16} and the sign extension instruction to generate
		// buffer_load_{i8, i16}.
		void AMDGPUPostLegalizerCombinerHelper::applyCombineSignExtendInReg(
		MachineInstr &MI, MachineInstr *&SubwordBufferLoad) {
		// Modify the opcode and the destination of buffer_load_{u8, u16}:
		// Replace the opcode.
		unsigned Opc =
		SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE
		? AMDGPU::G_AMDGPU_BUFFER_LOAD_SBYTE
		: AMDGPU::G_AMDGPU_BUFFER_LOAD_SSHORT;
		SubwordBufferLoad->setDesc(TII.get(Opc));
		// Update the destination register of SubwordBufferLoad with the destination
		// register of the sign extension.
		Register SignExtendInsnDst = MI.getOperand(0).getReg();
		SubwordBufferLoad->getOperand(0).setReg(SignExtendInsnDst);
		// Remove the sign extension.
		MI.eraseFromParent();
		}

class AMDGPUPostLegalizerCombinerHelperState {		class AMDGPUPostLegalizerCombinerHelperState {
protected:		protected:
AMDGPUCombinerHelper &Helper;		AMDGPUCombinerHelper &Helper;
AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper;		AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper;

// Note: pointer is necessary because Target Predicates use		// Note: pointer is necessary because Target Predicates use
// "Subtarget->"		// "Subtarget->"
const GCNSubtarget *Subtarget;		const GCNSubtarget *Subtarget;
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	bool AMDGPUPostLegalizerCombinerInfo::combine(GISelChangeObserver &Observer,
switch (MI.getOpcode()) {		switch (MI.getOpcode()) {
case TargetOpcode::G_SHL:		case TargetOpcode::G_SHL:
case TargetOpcode::G_LSHR:		case TargetOpcode::G_LSHR:
case TargetOpcode::G_ASHR:		case TargetOpcode::G_ASHR:
// On some subtargets, 64-bit shift is a quarter rate instruction. In the		// On some subtargets, 64-bit shift is a quarter rate instruction. In the
// common case, splitting this into a move and a 32-bit shift is faster and		// common case, splitting this into a move and a 32-bit shift is faster and
// the same code size.		// the same code size.
return Helper.tryCombineShiftToUnmerge(MI, 32);		return Helper.tryCombineShiftToUnmerge(MI, 32);
}		}

		foadUnsubmitted Done Reply Inline Actions Instead of calling applyCombineSignExtendInReg here, please declare the new combine in AMDGPUCombine.td so it will be called from the autogenerated tryCombineAll. foad: Instead of calling applyCombineSignExtendInReg here, please declare the new combine in…
return false;		return false;
}		}

#define AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_CPP		#define AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_CPP
#include "AMDGPUGenPostLegalizeGICombiner.inc"		#include "AMDGPUGenPostLegalizeGICombiner.inc"
#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_CPP		#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_CPP

// Pass boilerplate		// Pass boilerplate
▲ Show 20 Lines • Show All 75 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.load.ll

Show First 20 Lines • Show All 436 Lines • ▼ Show 20 Lines	define amdgpu_ps float @raw_buffer_load_i8__sgpr_rsrc__vgpr_voffset__sgpr_soffset_sext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2		; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[BUFFER_LOAD_UBYTE_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_UBYTE_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SBYTE_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SBYTE_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_UBYTE_OFFEN]], 0, 8, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SBYTE_OFFEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i8 @llvm.amdgcn.raw.buffer.load.i8(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)		%val = call i8 @llvm.amdgcn.raw.buffer.load.i8(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)
%zext = sext i8 %val to i32		%zext = sext i8 %val to i32
%cast = bitcast i32 %zext to float		%cast = bitcast i32 %zext to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @raw_buffer_load_i16__sgpr_rsrc__vgpr_voffset__sgpr_soffset_zext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {		define amdgpu_ps float @raw_buffer_load_i16__sgpr_rsrc__vgpr_voffset__sgpr_soffset_zext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
Show All 24 Lines	define amdgpu_ps float @raw_buffer_load_i16__sgpr_rsrc__vgpr_voffset__sgpr_soffset_sext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2		; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[BUFFER_LOAD_USHORT_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_USHORT_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SSHORT_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SSHORT_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_USHORT_OFFEN]], 0, 16, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SSHORT_OFFEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i16 @llvm.amdgcn.raw.buffer.load.i16(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)		%val = call i16 @llvm.amdgcn.raw.buffer.load.i16(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)
%sext = sext i16 %val to i32		%sext = sext i16 %val to i32
%cast = bitcast i32 %sext to float		%cast = bitcast i32 %sext to float
ret float %cast		ret float %cast
}		}

; Waterfall for rsrc		; Waterfall for rsrc
▲ Show 20 Lines • Show All 451 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.ll

Show First 20 Lines • Show All 261 Lines • ▼ Show 20 Lines	define amdgpu_ps float @struct_buffer_load_i8_sext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1		; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1
; CHECK-NEXT: [[BUFFER_LOAD_UBYTE_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_UBYTE_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SBYTE_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SBYTE_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_UBYTE_BOTHEN]], 0, 8, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SBYTE_BOTHEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i8 @llvm.amdgcn.struct.buffer.load.i8(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)		%val = call i8 @llvm.amdgcn.struct.buffer.load.i8(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)
%ext = sext i8 %val to i32		%ext = sext i8 %val to i32
%cast = bitcast i32 %ext to float		%cast = bitcast i32 %ext to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @struct_buffer_load_i16_zext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {		define amdgpu_ps float @struct_buffer_load_i16_zext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
Show All 28 Lines	define amdgpu_ps float @struct_buffer_load_i16_sext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1		; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1
; CHECK-NEXT: [[BUFFER_LOAD_USHORT_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_USHORT_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SSHORT_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SSHORT_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_USHORT_BOTHEN]], 0, 16, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SSHORT_BOTHEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i16 @llvm.amdgcn.struct.buffer.load.i16(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)		%val = call i16 @llvm.amdgcn.struct.buffer.load.i16(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)
%ext = sext i16 %val to i32		%ext = sext i16 %val to i32
%cast = bitcast i32 %ext to float		%cast = bitcast i32 %ext to float
ret float %cast		ret float %cast
}		}

; Natural mapping		; Natural mapping
▲ Show 20 Lines • Show All 108 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Improve the lowering of raw_buffer_load_{i8,i16} and struct_buffer_load_{i8,i16} intrinsics
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 499534

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.load.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Improve the lowering of raw_buffer_load_{i8,i16} and struct_buffer_load_{i8,i16} intrinsicsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 499534

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.load.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.ll

[AMDGPU] Improve the lowering of raw_buffer_load_{i8,i16} and struct_buffer_load_{i8,i16} intrinsics
ClosedPublic