Diff 499015

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

	Show First 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	def foldable_fneg_matchdata : GIDefMatchData<"MachineInstr *">;			def foldable_fneg_matchdata : GIDefMatchData<"MachineInstr *">;

	def foldable_fneg : GICombineRule<			def foldable_fneg : GICombineRule<
	(defs root:$ffn, foldable_fneg_matchdata:$matchinfo),			(defs root:$ffn, foldable_fneg_matchdata:$matchinfo),
	(match (wip_match_opcode G_FNEG):$ffn,			(match (wip_match_opcode G_FNEG):$ffn,
	[{ return Helper.matchFoldableFneg(*${ffn}, ${matchinfo}); }]),			[{ return Helper.matchFoldableFneg(*${ffn}, ${matchinfo}); }]),
	(apply [{ Helper.applyFoldableFneg(*${ffn}, ${matchinfo}); }])>;			(apply [{ Helper.applyFoldableFneg(*${ffn}, ${matchinfo}); }])>;

				def sign_exension_in_reg_matchdata : GIDefMatchData<"MachineInstr *">;

				def sign_extension_in_reg : GICombineRule<
				(defs root:$sign_inreg, sign_exension_in_reg_matchdata:$matchinfo),
				(match (wip_match_opcode G_SEXT_INREG):$sign_inreg,
				[{ return Helper.matchCombineSignExtendInReg(*${sign_inreg}, ${matchinfo}); }]),
				(apply [{ Helper.applyCombineSignExtendInReg(*${sign_inreg}, ${matchinfo}); }])>;

	// Combines which should only apply on SI/VI			// Combines which should only apply on SI/VI
	def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;			def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;

	def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<			def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<
	"AMDGPUGenPreLegalizerCombinerHelper",			"AMDGPUGenPreLegalizerCombinerHelper",
	[all_combines, clamp_i64_to_i16, foldable_fneg]> {			[all_combines, clamp_i64_to_i16, foldable_fneg]> {
	let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";			let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";
	let StateClass = "AMDGPUPreLegalizerCombinerHelperState";			let StateClass = "AMDGPUPreLegalizerCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

	def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<			def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<
	"AMDGPUGenPostLegalizerCombinerHelper",			"AMDGPUGenPostLegalizerCombinerHelper",
	[all_combines, gfx6gfx7_combines,			[all_combines, gfx6gfx7_combines,
	uchar_to_float, cvt_f32_ubyteN, remove_fcanonicalize, foldable_fneg,			uchar_to_float, cvt_f32_ubyteN, remove_fcanonicalize, foldable_fneg,
	rcp_sqrt_to_rsq]> {			rcp_sqrt_to_rsq, sign_extension_in_reg]> {
	let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";			let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";
	let StateClass = "AMDGPUPostLegalizerCombinerHelperState";			let StateClass = "AMDGPUPostLegalizerCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

	def AMDGPURegBankCombinerHelper : GICombinerHelper<			def AMDGPURegBankCombinerHelper : GICombinerHelper<
	"AMDGPUGenRegBankCombinerHelper",			"AMDGPUGenRegBankCombinerHelper",
	[unmerge_merge, unmerge_cst, unmerge_undef,			[unmerge_merge, unmerge_cst, unmerge_undef,
	zext_trunc_fold, int_minmax_to_med3, ptr_add_immed_chain,			zext_trunc_fold, int_minmax_to_med3, ptr_add_immed_chain,
	fp_minmax_to_clamp, fp_minmax_to_med3, fmed3_intrinsic_to_clamp]> {			fp_minmax_to_clamp, fp_minmax_to_med3, fmed3_intrinsic_to_clamp]> {
	let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";			let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";
	let StateClass = "AMDGPURegBankCombinerHelperState";			let StateClass = "AMDGPURegBankCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

llvm/lib/Target/AMDGPU/AMDGPUCombinerHelper.h

	Show All 17 Lines
	using namespace llvm;			using namespace llvm;

	class AMDGPUCombinerHelper : public CombinerHelper {			class AMDGPUCombinerHelper : public CombinerHelper {
	public:			public:
	using CombinerHelper::CombinerHelper;			using CombinerHelper::CombinerHelper;

	bool matchFoldableFneg(MachineInstr &MI, MachineInstr *&MatchInfo);			bool matchFoldableFneg(MachineInstr &MI, MachineInstr *&MatchInfo);
	void applyFoldableFneg(MachineInstr &MI, MachineInstr *&MatchInfo);			void applyFoldableFneg(MachineInstr &MI, MachineInstr *&MatchInfo);
				bool matchCombineSignExtendInReg(MachineInstr &MI, MachineInstr *&MatchInfo);
				void applyCombineSignExtendInReg(MachineInstr &MI, MachineInstr *&MatchInfo);
	};			};

llvm/lib/Target/AMDGPU/AMDGPUCombinerHelper.cpp

Show First 20 Lines • Show All 374 Lines • ▼ Show 20 Lines if (MRI.hasOneNonDBGUse(MatchInfoDst)) {

// Recreate non negated value for other uses of old MatchInfoDst // Recreate non negated value for other uses of old MatchInfoDst

auto NextInst = ++MatchInfo->getIterator(); auto NextInst = ++MatchInfo->getIterator();

Builder.setInstrAndDebugLoc(*NextInst); Builder.setInstrAndDebugLoc(*NextInst);

Builder.buildFNeg(MatchInfoDst, NegatedMatchInfo, MI.getFlags()); Builder.buildFNeg(MatchInfoDst, NegatedMatchInfo, MI.getFlags());

} }

MI.eraseFromParent(); MI.eraseFromParent();

} }

// The buffer_load_{i8, i16} intrinsics are intially lowered as buffer_load_{u8,

// u16} instructions. Here, the buffer_load_{u8, u16} instructions are combined

// with sign extension instrucions in order to generate buffer_load_{i8, i16}

// instructions.

// Identify buffer_load_{u8, u16}.

bool AMDGPUCombinerHelper::matchCombineSignExtendInReg(

MachineInstr &MI, MachineInstr *&SubwordBufferLoad) {

arsenmUnsubmitted

Done

getVRegDef?

arsenm: getVRegDef?

SubwordBufferLoad = MRI.getVRegDef(Op0Reg);

arsenmUnsubmitted

Done

The calling combiner code should really set the insert point for you, not sure why we still don't do that

arsenm: The calling combiner code should really set the insert point for you, not sure why we still…

kmitropoulouAuthorUnsubmitted

Done

I checked the combineMachineInstrs() in Combiner.cpp and it does not set an insertion point for the builder. The same happens in combine() in AMDGPUPostLegalizerCombiner.cpp . So, I assume it is intentional in case you need to add instructions at different points.

kmitropoulou: I checked the combineMachineInstrs() in Combiner.cpp and it does not set an insertion point for…

if (!MRI.hasOneNonDBGUse(Op0Reg))

return false;

// Check if the first operand of the sign extension is a subword buffer load

// instruction.

foadUnsubmitted

Done

You need to check that SubwordBufferLoad has no other uses.

Instead of creating a new instruction, you can modify it in-place using SubwordBufferLoad->setDesc and SubwordBufferLoad->getOperand(0).setReg.

foad: You need to check that SubwordBufferLoad has no other uses. Instead of creating a new…

if (SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE ||

SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT)

return true;

return false;

foadUnsubmitted

Done

// instruction.

- if (SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE ||

- SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT)

- return true;

- return false;

+ return SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE ||

+ SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_USHORT;

}

// Combine buffer_load_{u8, u16} with sign extension to generate

foad:

}

// Combine buffer_load_{u8, u16} with sign extension to generate

// buffer_load_{i8, i16}.

void AMDGPUCombinerHelper::applyCombineSignExtendInReg(

MachineInstr &MI, MachineInstr *&SubwordBufferLoad) {

SubwordBufferLoad = (*(MRI.def_begin(Op0Reg))).getParent();

foadUnsubmitted

Done

Don't need these two lines. SubwordBufferLoad is passed in as an argument now.

foad: Don't need these two lines. SubwordBufferLoad is passed in as an argument now.

// Modify the opcode and the destination of buffer_load_{u8, u16}:

// Replace the opcode.

const GCNSubtarget &Subtarget = MI.getMF()->getSubtarget<GCNSubtarget>();

const SIInstrInfo *TII = Subtarget.getInstrInfo();

foadUnsubmitted

Done

I think all this new code should probably live in AMDGPUPostLegalizerCombinerHelper instead of AMDGPUCombinerHelper, and you should add TII as a member variable in AMDGPUPostLegalizerCombinerHelper following the example of AMDGPURegBankCombinerHelper.

foad: I think all this new code should probably live in `AMDGPUPostLegalizerCombinerHelper` instead…

unsigned Opc =

SubwordBufferLoad->getOpcode() == AMDGPU::G_AMDGPU_BUFFER_LOAD_UBYTE

? AMDGPU::G_AMDGPU_BUFFER_LOAD_SBYTE

: AMDGPU::G_AMDGPU_BUFFER_LOAD_SSHORT;

SubwordBufferLoad->setDesc(TII->get(Opc));

// Update the destination register of SubwordBufferLoad with the destination

// register of the sign extension.

SubwordBufferLoad->getOperand(0).setReg(SignExtendInsnDst);

// Remove the sign extension.

MI.eraseFromParent();

}

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.load.ll

Show First 20 Lines • Show All 436 Lines • ▼ Show 20 Lines	define amdgpu_ps float @raw_buffer_load_i8__sgpr_rsrc__vgpr_voffset__sgpr_soffset_sext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2		; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[BUFFER_LOAD_UBYTE_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_UBYTE_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SBYTE_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SBYTE_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_UBYTE_OFFEN]], 0, 8, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SBYTE_OFFEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i8 @llvm.amdgcn.raw.buffer.load.i8(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)		%val = call i8 @llvm.amdgcn.raw.buffer.load.i8(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)
%zext = sext i8 %val to i32		%zext = sext i8 %val to i32
%cast = bitcast i32 %zext to float		%cast = bitcast i32 %zext to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @raw_buffer_load_i16__sgpr_rsrc__vgpr_voffset__sgpr_soffset_zext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {		define amdgpu_ps float @raw_buffer_load_i16__sgpr_rsrc__vgpr_voffset__sgpr_soffset_zext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
Show All 24 Lines	define amdgpu_ps float @raw_buffer_load_i16__sgpr_rsrc__vgpr_voffset__sgpr_soffset_sext(<4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2		; CHECK-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr2
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[BUFFER_LOAD_USHORT_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_USHORT_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SSHORT_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SSHORT_OFFEN [[COPY4]], [[REG_SEQUENCE]], [[COPY5]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_USHORT_OFFEN]], 0, 16, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SSHORT_OFFEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i16 @llvm.amdgcn.raw.buffer.load.i16(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)		%val = call i16 @llvm.amdgcn.raw.buffer.load.i16(<4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)
%sext = sext i16 %val to i32		%sext = sext i16 %val to i32
%cast = bitcast i32 %sext to float		%cast = bitcast i32 %sext to float
ret float %cast		ret float %cast
}		}

; Waterfall for rsrc		; Waterfall for rsrc
▲ Show 20 Lines • Show All 451 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.ll

Show First 20 Lines • Show All 261 Lines • ▼ Show 20 Lines	define amdgpu_ps float @struct_buffer_load_i8_sext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1		; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1
; CHECK-NEXT: [[BUFFER_LOAD_UBYTE_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_UBYTE_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SBYTE_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SBYTE_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s8), addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_UBYTE_BOTHEN]], 0, 8, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SBYTE_BOTHEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i8 @llvm.amdgcn.struct.buffer.load.i8(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)		%val = call i8 @llvm.amdgcn.struct.buffer.load.i8(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)
%ext = sext i8 %val to i32		%ext = sext i8 %val to i32
%cast = bitcast i32 %ext to float		%cast = bitcast i32 %ext to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @struct_buffer_load_i16_zext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {		define amdgpu_ps float @struct_buffer_load_i16_zext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
Show All 28 Lines	define amdgpu_ps float @struct_buffer_load_i16_sext__sgpr_rsrc__vgpr_vindex__vgpr_voffset__sgpr_soffset(<4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3		; CHECK-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr3
; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4		; CHECK-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr4
; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5		; CHECK-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr5
; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3		; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY3]], %subreg.sub3
; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6		; CHECK-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6
; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1		; CHECK-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY5]], %subreg.sub1
; CHECK-NEXT: [[BUFFER_LOAD_USHORT_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_USHORT_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)		; CHECK-NEXT: [[BUFFER_LOAD_SSHORT_BOTHEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_SSHORT_BOTHEN [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY6]], 0, 0, 0, implicit $exec :: (dereferenceable load (s16), align 1, addrspace 7)
; CHECK-NEXT: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[BUFFER_LOAD_USHORT_BOTHEN]], 0, 16, implicit $exec		; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_SSHORT_BOTHEN]]
; CHECK-NEXT: $vgpr0 = COPY [[V_BFE_I32_e64_]]
; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; CHECK-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%val = call i16 @llvm.amdgcn.struct.buffer.load.i16(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)		%val = call i16 @llvm.amdgcn.struct.buffer.load.i16(<4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 0)
%ext = sext i16 %val to i32		%ext = sext i16 %val to i32
%cast = bitcast i32 %ext to float		%cast = bitcast i32 %ext to float
ret float %cast		ret float %cast
}		}

; Natural mapping		; Natural mapping
▲ Show 20 Lines • Show All 108 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Improve the lowering of raw_buffer_load_{i8,i16} and struct_buffer_load_{i8,i16} intrinsics
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 499015

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUCombinerHelper.h

llvm/lib/Target/AMDGPU/AMDGPUCombinerHelper.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.load.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Improve the lowering of raw_buffer_load_{i8,i16} and struct_buffer_load_{i8,i16} intrinsicsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 499015

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUCombinerHelper.h

llvm/lib/Target/AMDGPU/AMDGPUCombinerHelper.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.load.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.load.ll

[AMDGPU] Improve the lowering of raw_buffer_load_{i8,i16} and struct_buffer_load_{i8,i16} intrinsics
ClosedPublic