Diff 405948

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 2,567 Lines • ▼ Show 20 Lines	if (Opc == AMDGPU::G_BUILD_VECTOR) {
Register ZextHi = B.buildZExt(S32, Hi).getReg(0);		Register ZextHi = B.buildZExt(S32, Hi).getReg(0);
MRI.setRegBank(ZextHi, *BankHi);		MRI.setRegBank(ZextHi, *BankHi);

auto ShiftAmt = B.buildConstant(S32, 16);		auto ShiftAmt = B.buildConstant(S32, 16);
MRI.setRegBank(ShiftAmt.getReg(0), *BankHi);		MRI.setRegBank(ShiftAmt.getReg(0), *BankHi);

ShiftHi = B.buildShl(S32, ZextHi, ShiftAmt).getReg(0);		ShiftHi = B.buildShl(S32, ZextHi, ShiftAmt).getReg(0);
MRI.setRegBank(ShiftHi, *BankHi);		MRI.setRegBank(ShiftHi, *BankHi);
		} else { // AMDGPU::G_BUILD_VECTOR_TRUNC
		MachineInstr *LoMI = MRI.getVRegDef(Lo);
		MachineInstr *HiMI = MRI.getVRegDef(Hi);
		unsigned HiOpc = HiMI->getOpcode();
		unsigned LoOpc = LoMI->getOpcode();

		auto isLshrBy16 = [&MRI](const MachineInstr &MI) {
		if (MI.getOpcode() == TargetOpcode::G_LSHR) {
		Register LshrCstReg =
		getDefIgnoringCopies(MI.getOperand(2).getReg(), MRI)
		->getOperand(0)
		.getReg();
		return mi_match(LshrCstReg, MRI, m_SpecificICst(16));
		}
		return false;
		};

		auto StripBitcast = [&MRI](Register Reg) {
		MachineInstr *MI = MRI.getVRegDef(Reg);
		if (MI->getOpcode() == TargetOpcode::G_BITCAST)
		return MI->getOperand(1).getReg();
		return Reg;
		};

		auto HiAndLoHaveSameSrc = [&]() {
		if (isLshrBy16(*HiMI)) {
		Register HiSrcReg = HiMI->getOperand(1).getReg();
		return StripBitcast(Lo) == StripBitcast(HiSrcReg);
		}
		return false;
		};

		MachineInstr *BuildVectorTruncArgMI = nullptr;
		// When the lower part of the G_BUILD_VECTOR_TRUNC is undef and the
		// high part is not 'G_LSHR %x, 16', we have to add one shift to
		// the left by 16.
		if (LoOpc == TargetOpcode::G_IMPLICIT_DEF) {
		arsenmUnsubmitted Not Done Reply Inline Actions I think we should have combined out any implicit def inputs into something else. Trying to optimize as part of a lowering expansion is generally a last resort strategy arsenm: I think we should have combined out any implicit def inputs into something else. Trying to…
		if (isLshrBy16(*HiMI))
		BuildVectorTruncArgMI = MRI.getVRegDef(HiMI->getOperand(1).getReg());
		else {
		auto ShiftAmt = B.buildConstant(S32, 16);
		MRI.setRegBank(ShiftAmt.getReg(0), *BankHi);

		auto ShiftHiMI =
		B.buildShl(S32, HiMI->getOperand(0).getReg(), ShiftAmt);
		MRI.setRegBank(ShiftHiMI->getOperand(0).getReg(), *BankHi);

		BuildVectorTruncArgMI = ShiftHiMI;
		}
		// If the high part of the G_BUILD_VECTOR_TRUNC is undef, or hi and lo
		// have the same source register, use that register instead of the
		// current DstReg.
		} else if (HiOpc == TargetOpcode::G_IMPLICIT_DEF \|\| HiAndLoHaveSameSrc())
		BuildVectorTruncArgMI = LoMI;

		if (BuildVectorTruncArgMI) {
		ApplyRegBankMapping O(*this, MRI, &AMDGPU::VGPRRegBank);
		GISelObserverWrapper Observer(&O);
		B.setChangeObserver(Observer);
		Register Reg;

		// If the selected MachineInstruction is a G_BITCAST, the result will
		// be the source of the bitcast.
		// If not, build a bitcast that uses the dst of the selected
		// MachineInstr.
		if (BuildVectorTruncArgMI->getOpcode() == TargetOpcode::G_BITCAST) {
		Reg = BuildVectorTruncArgMI->getOperand(1).getReg();
		Observer.changingAllUsesOfReg(MRI, DstReg);

		if (MRI.constrainRegAttrs(Reg, DstReg))
		MRI.replaceRegWith(DstReg, Reg);
		else
		B.buildCopy(Reg, DstReg);

		Observer.finishedChangingAllUsesOfReg();
} else {		} else {
		Reg = BuildVectorTruncArgMI->getOperand(0).getReg();
		B.buildBitcast(DstReg, Reg);
		}

		MI.eraseFromParent();
		return;
		}

Register MaskLo = B.buildConstant(S32, 0xffff).getReg(0);		Register MaskLo = B.buildConstant(S32, 0xffff).getReg(0);
MRI.setRegBank(MaskLo, *BankLo);		MRI.setRegBank(MaskLo, *BankLo);

auto ShiftAmt = B.buildConstant(S32, 16);		auto ShiftAmt = B.buildConstant(S32, 16);
MRI.setRegBank(ShiftAmt.getReg(0), *BankHi);		MRI.setRegBank(ShiftAmt.getReg(0), *BankHi);

ShiftHi = B.buildShl(S32, Hi, ShiftAmt).getReg(0);		ShiftHi = B.buildShl(S32, Hi, ShiftAmt).getReg(0);
MRI.setRegBank(ShiftHi, *BankHi);		MRI.setRegBank(ShiftHi, *BankHi);
▲ Show 20 Lines • Show All 1,992 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

Show First 20 Lines • Show All 780 Lines • ▼ Show 20 Lines	.entry:
%b = fadd <4 x half> %a, %z		%b = fadd <4 x half> %a, %z
ret <4 x half> %b		ret <4 x half> %b
}		}

define <3 x half> @test_3xhalf_add_mul_rhs(<3 x half> %x, <3 x half> %y, <3 x half> %z) {		define <3 x half> @test_3xhalf_add_mul_rhs(<3 x half> %x, <3 x half> %y, <3 x half> %z) {
; GFX9-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-LABEL: test_3xhalf_add_mul_rhs:
; GFX9: ; %bb.0: ; %.entry		; GFX9: ; %bb.0: ; %.entry
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3		; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v8		; GFX9-NEXT: v_pk_add_f16 v0, v4, v0
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_pk_add_f16 v1, v5, v1
; GFX9-NEXT: v_and_or_b32 v3, v4, v9, v3
; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-NEXT: v_pk_add_f16 v0, v3, v0
; GFX9-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-NEXT: v_pk_add_f16 v1, v4, v1
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:
; GFX9-CONTRACT: ; %bb.0: ; %.entry		; GFX9-CONTRACT: ; %bb.0: ; %.entry
; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-CONTRACT-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-CONTRACT-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v8
; GFX9-CONTRACT-NEXT: v_and_or_b32 v4, v4, v9, v6
; GFX9-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v5, v5, v9, s4
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5		; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]		; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-DENORM-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-DENORM-LABEL: test_3xhalf_add_mul_rhs:
; GFX9-DENORM: ; %bb.0: ; %.entry		; GFX9-DENORM: ; %bb.0: ; %.entry
; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-DENORM-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-DENORM-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-DENORM-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-DENORM-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3		; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v3, 16, v8		; GFX9-DENORM-NEXT: v_pk_add_f16 v0, v4, v0
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-DENORM-NEXT: v_pk_add_f16 v1, v5, v1
; GFX9-DENORM-NEXT: v_and_or_b32 v3, v4, v9, v3
; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-DENORM-NEXT: v_pk_add_f16 v0, v3, v0
; GFX9-DENORM-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-DENORM-NEXT: v_pk_add_f16 v1, v4, v1
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]		; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:
; GFX9-UNSAFE: ; %bb.0: ; %.entry		; GFX9-UNSAFE: ; %bb.0: ; %.entry
; GFX9-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-UNSAFE-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-UNSAFE-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v8
; GFX9-UNSAFE-NEXT: v_and_or_b32 v4, v4, v9, v6
; GFX9-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v5, v5, v9, s4
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5		; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-UNSAFE-NEXT: s_setpc_b64 s[30:31]		; GFX9-UNSAFE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-LABEL: test_3xhalf_add_mul_rhs:
; GFX10: ; %bb.0: ; %.entry		; GFX10: ; %bb.0: ; %.entry
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff
; GFX10-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-NEXT: v_and_or_b32 v3, v3, v8, s4
; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-NEXT: v_and_or_b32 v2, v2, v8, v7
; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v4		; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4		; GFX10-NEXT: v_pk_add_f16 v0, v4, v0
; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0		; GFX10-NEXT: v_pk_add_f16 v1, v5, v1
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-NEXT: v_and_or_b32 v2, v4, v8, v2
; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-NEXT: v_pk_add_f16 v0, v2, v0
; GFX10-NEXT: v_and_or_b32 v2, v5, v8, s4
; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-NEXT: v_pk_add_f16 v1, v2, v1
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v3
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:
; GFX10-CONTRACT: ; %bb.0: ; %.entry		; GFX10-CONTRACT: ; %bb.0: ; %.entry
; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX10-CONTRACT-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX10-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v8, 16, v8
; GFX10-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX10-CONTRACT-NEXT: v_and_or_b32 v2, v2, v9, v7
; GFX10-CONTRACT-NEXT: v_and_or_b32 v4, v4, v9, v8
; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX10-CONTRACT-NEXT: v_and_or_b32 v2, v3, v9, s4		; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX10-CONTRACT-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v2, v4
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v3
; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]		; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-DENORM-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-DENORM-LABEL: test_3xhalf_add_mul_rhs:
; GFX10-DENORM: ; %bb.0: ; %.entry		; GFX10-DENORM: ; %bb.0: ; %.entry
; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-DENORM-NEXT: v_mov_b32_e32 v8, 0xffff
; GFX10-DENORM-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-DENORM-NEXT: v_and_or_b32 v3, v3, v8, s4
; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-DENORM-NEXT: v_and_or_b32 v2, v2, v8, v7
; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v2, 16, v4		; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4		; GFX10-DENORM-NEXT: v_pk_add_f16 v0, v4, v0
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0		; GFX10-DENORM-NEXT: v_pk_add_f16 v1, v5, v1
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-DENORM-NEXT: v_and_or_b32 v2, v4, v8, v2
; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-DENORM-NEXT: v_pk_add_f16 v0, v2, v0
; GFX10-DENORM-NEXT: v_and_or_b32 v2, v5, v8, s4
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-DENORM-NEXT: v_pk_add_f16 v1, v2, v1
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v3
; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]		; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:
; GFX10-UNSAFE: ; %bb.0: ; %.entry		; GFX10-UNSAFE: ; %bb.0: ; %.entry
; GFX10-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-UNSAFE-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-UNSAFE-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX10-UNSAFE-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX10-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v8, 16, v8
; GFX10-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX10-UNSAFE-NEXT: v_and_or_b32 v2, v2, v9, v7
; GFX10-UNSAFE-NEXT: v_and_or_b32 v4, v4, v9, v8
; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX10-UNSAFE-NEXT: v_and_or_b32 v2, v3, v9, s4		; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX10-UNSAFE-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v2, v4
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v3
; GFX10-UNSAFE-NEXT: s_setpc_b64 s[30:31]		; GFX10-UNSAFE-NEXT: s_setpc_b64 s[30:31]
.entry:		.entry:
%a = fmul <3 x half> %x, %y		%a = fmul <3 x half> %x, %y
%b = fadd <3 x half> %z, %a		%b = fadd <3 x half> %z, %a
ret <3 x half> %b		ret <3 x half> %b
}		}

define <4 x double> @test_4xdouble_add_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {		define <4 x double> @test_4xdouble_add_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {
▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -o - %s \| FileCheck -check-prefix=GFX9 %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -o - %s \| FileCheck -check-prefix=GFX10 %s

				define amdgpu_vs <3 x half> @test_v3f16(<3 x half> %x, <3 x half> %y) {
				; GFX9-LABEL: test_v3f16:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: v_pk_add_f16 v0, v0, v2
				; GFX9-NEXT: v_pk_add_f16 v1, v1, v3
				; GFX9-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: test_v3f16:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: v_pk_add_f16 v0, v0, v2
				; GFX10-NEXT: v_pk_add_f16 v1, v1, v3
				; GFX10-NEXT: ; return to shader part epilog
				.entry:
				%a = fadd <3 x half> %x, %y
				ret <3 x half> %a
				}

				define amdgpu_vs <9 x half> @test_v9f16(<9 x half> %x, <9 x half> %y) {
				; GFX9-LABEL: test_v9f16:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: v_pk_add_f16 v0, v0, v5
				; GFX9-NEXT: v_pk_add_f16 v1, v1, v6
				; GFX9-NEXT: v_pk_add_f16 v2, v2, v7
				; GFX9-NEXT: v_pk_add_f16 v3, v3, v8
				; GFX9-NEXT: v_pk_add_f16 v4, v4, v9
				; GFX9-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: test_v9f16:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: v_pk_add_f16 v0, v0, v5
				; GFX10-NEXT: v_pk_add_f16 v1, v1, v6
				; GFX10-NEXT: v_pk_add_f16 v2, v2, v7
				; GFX10-NEXT: v_pk_add_f16 v3, v3, v8
				; GFX10-NEXT: v_pk_add_f16 v4, v4, v9
				; GFX10-NEXT: ; return to shader part epilog
				.entry:
				%a = fadd <9 x half> %x, %y
				ret <9 x half> %a
				}

				define amdgpu_vs <11 x half> @test_v11f16(<11 x half> %x, <11 x half> %y) {
				; GFX9-LABEL: test_v11f16:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: v_pk_add_f16 v0, v0, v6
				; GFX9-NEXT: v_pk_add_f16 v1, v1, v7
				; GFX9-NEXT: v_pk_add_f16 v2, v2, v8
				; GFX9-NEXT: v_pk_add_f16 v3, v3, v9
				; GFX9-NEXT: v_pk_add_f16 v4, v4, v10
				; GFX9-NEXT: v_pk_add_f16 v5, v5, v11
				; GFX9-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: test_v11f16:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: v_pk_add_f16 v0, v0, v6
				; GFX10-NEXT: v_pk_add_f16 v1, v1, v7
				; GFX10-NEXT: v_pk_add_f16 v2, v2, v8
				; GFX10-NEXT: v_pk_add_f16 v3, v3, v9
				; GFX10-NEXT: v_pk_add_f16 v4, v4, v10
				; GFX10-NEXT: v_pk_add_f16 v5, v5, v11
				; GFX10-NEXT: ; return to shader part epilog
				.entry:
				%a = fadd <11 x half> %x, %y
				ret <11 x half> %a
				}

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -run-pass=regbankselect -verify-machineinstrs %s -o - \| FileCheck -check-prefix=GFX9 %s
				# RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -run-pass=regbankselect -verify-machineinstrs %s -o - \| FileCheck -check-prefix=GFX10 %s

				---
				name: hi_undef_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: hi_undef_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr(<2 x s16>) = COPY $vgpr0
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX9-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX9-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				; GFX10-LABEL: name: hi_undef_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr(<2 x s16>) = COPY $vgpr0
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX10-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX10-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				%0:_(<2 x s16>) = COPY $vgpr0
				%1:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%2:_(s32) = G_IMPLICIT_DEF
				%3:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %1:_(s32), %2:_
				$vgpr0 = COPY %3:_(<2 x s16>)
				...

				---
				name: lo_undef_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_undef_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr(<2 x s16>) = COPY $vgpr0
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX9-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; GFX9-NEXT: [[LSHR:%[0-9]+]]:vgpr(s32) = G_LSHR [[BITCAST]], [[COPY1]](s32)
				; GFX9-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX9-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				; GFX10-LABEL: name: lo_undef_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr(<2 x s16>) = COPY $vgpr0
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX10-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; GFX10-NEXT: [[LSHR:%[0-9]+]]:vgpr(s32) = G_LSHR [[BITCAST]], [[COPY1]](s32)
				; GFX10-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX10-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				%0:_(<2 x s16>) = COPY $vgpr0
				%1:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%2:_(s32) = G_CONSTANT i32 16
				%3:_(s32) = G_LSHR %1:_, %2:_(s32)
				%4:_(s32) = G_IMPLICIT_DEF
				%5:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %4:_(s32), %3:_
				$vgpr0 = COPY %5:_(<2 x s16>)
				...

				---
				name: lo_equal_hi_bitcast222
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_equal_hi_bitcast222
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr(<2 x s16>) = COPY $vgpr0
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX9-NEXT: [[BITCAST1:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX9-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; GFX9-NEXT: [[LSHR:%[0-9]+]]:vgpr(s32) = G_LSHR [[BITCAST]], [[COPY1]](s32)
				; GFX9-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				; GFX10-LABEL: name: lo_equal_hi_bitcast222
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr(<2 x s16>) = COPY $vgpr0
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX10-NEXT: [[BITCAST1:%[0-9]+]]:vgpr(s32) = G_BITCAST [[COPY]](<2 x s16>)
				; GFX10-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; GFX10-NEXT: [[LSHR:%[0-9]+]]:vgpr(s32) = G_LSHR [[BITCAST]], [[COPY1]](s32)
				; GFX10-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				%0:_(<2 x s16>) = COPY $vgpr0
				%1:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%5:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%2:_(s32) = G_CONSTANT i32 16
				%3:_(s32) = G_LSHR %1:_, %2:_(s32)
				%4:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %5:_(s32), %3:_
				$vgpr0 = COPY %4:_(<2 x s16>)
				...

				---
				name: lo_undef_no_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_undef_no_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX9-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:vgpr(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX9-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				; GFX10-LABEL: name: lo_undef_no_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX10-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:vgpr(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX10-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_IMPLICIT_DEF
				%2:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %0:_(s32), %1:_
				$vgpr0 = COPY %2:_(<2 x s16>)
				...

				---
				name: hi_undef_no_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: hi_undef_no_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX9-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX9-NEXT: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 16
				; GFX9-NEXT: [[SHL:%[0-9]+]]:vgpr(s32) = G_SHL [[COPY]], [[C]](s32)
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:vgpr(<2 x s16>) = G_BITCAST [[SHL]](s32)
				; GFX9-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				; GFX10-LABEL: name: hi_undef_no_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX10-NEXT: [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
				; GFX10-NEXT: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 16
				; GFX10-NEXT: [[SHL:%[0-9]+]]:vgpr(s32) = G_SHL [[COPY]], [[C]](s32)
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:vgpr(<2 x s16>) = G_BITCAST [[SHL]](s32)
				; GFX10-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_IMPLICIT_DEF
				%2:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %1:_(s32), %0:_
				$vgpr0 = COPY %2:_(<2 x s16>)
				...

				---
				name: lo_equal_hi_no_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_equal_hi_no_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX9-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; GFX9-NEXT: [[LSHR:%[0-9]+]]:vgpr(s32) = G_LSHR [[COPY]], [[COPY1]](s32)
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:vgpr(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX9-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				; GFX10-LABEL: name: lo_equal_hi_no_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX10-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; GFX10-NEXT: [[LSHR:%[0-9]+]]:vgpr(s32) = G_LSHR [[COPY]], [[COPY1]](s32)
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:vgpr(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX10-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 16
				%2:_(s32) = G_LSHR %0:_, %1:_(s32)
				%3:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %0:_(s32), %2:_
				$vgpr0 = COPY %3:_(<2 x s16>)
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

Show First 20 Lines • Show All 480 Lines • ▼ Show 20 Lines	main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i32_3d:		; GFX9-LABEL: atomic_add_i32_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_3d:		; GFX10-LABEL: atomic_add_i32_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i32_cube:		; GFX9-LABEL: atomic_add_i32_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_cube:		; GFX10-LABEL: atomic_add_i32_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

Show All 34 Lines	main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i32_2darray:		; GFX9-LABEL: atomic_add_i32_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2darray:		; GFX10-LABEL: atomic_add_i32_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i32_2dmsaa:		; GFX9-LABEL: atomic_add_i32_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2dmsaa:		; GFX10-LABEL: atomic_add_i32_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

▲ Show 20 Lines • Show All 554 Lines • ▼ Show 20 Lines	main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i64_3d:		; GFX9-LABEL: atomic_add_i64_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_3d:		; GFX10-LABEL: atomic_add_i64_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i64_cube:		; GFX9-LABEL: atomic_add_i64_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_cube:		; GFX10-LABEL: atomic_add_i64_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

Show All 34 Lines	main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i64_2darray:		; GFX9-LABEL: atomic_add_i64_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2darray:		; GFX10-LABEL: atomic_add_i64_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i64_2dmsaa:		; GFX9-LABEL: atomic_add_i64_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2dmsaa:		; GFX10-LABEL: atomic_add_i64_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

▲ Show 20 Lines • Show All 121 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

	Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {			define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {
	; GFX9-LABEL: gather4_cube:			; GFX9-LABEL: gather4_cube:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cube:			; GFX10NSA-LABEL: gather4_cube:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {			define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {
	; GFX9-LABEL: gather4_2darray:			; GFX9-LABEL: gather4_2darray:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_2darray:			; GFX10NSA-LABEL: gather4_2darray:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_cl_2d:			; GFX9-LABEL: gather4_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cl_2d:			; GFX10NSA-LABEL: gather4_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_cl_2d:			; GFX9-LABEL: gather4_c_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_cl_2d:			; GFX10NSA-LABEL: gather4_c_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {
	; GFX9-LABEL: gather4_b_2d:			; GFX9-LABEL: gather4_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX9-NEXT: v_and_or_b32 v1, v1, v3, v2			; GFX9-NEXT: v_and_or_b32 v1, v1, v3, v2
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_b_2d:			; GFX10NSA-LABEL: gather4_b_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, s12			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v3, v2
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_b_2d:			; GFX9-LABEL: gather4_c_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v3			; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v3
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_b_2d:			; GFX10NSA-LABEL: gather4_c_b_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v4, s12			; GFX10NSA-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10NSA-NEXT: v_and_or_b32 v2, v2, v4, v3
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_b_cl_2d:			; GFX9-LABEL: gather4_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v4, s12			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_b_cl_2d:			; GFX10NSA-LABEL: gather4_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v4, s12			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_b_cl_2d:			; GFX9-LABEL: gather4_c_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v5, v3
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v3, v4
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v5, s12			; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v5
	; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3
	; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_b_cl_2d:			; GFX10NSA-LABEL: gather4_c_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v5, s12			; GFX10NSA-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10NSA-NEXT: v_and_or_b32 v2, v2, v5, v3
	; GFX10NSA-NEXT: v_and_or_b32 v3, v4, v5, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_l_2d:			; GFX9-LABEL: gather4_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12			; GFX9-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: image_gather4_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_l_2d:			; GFX10NSA-LABEL: gather4_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_c_l_2d:			; GFX9-LABEL: gather4_c_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12			; GFX9-NEXT: image_gather4_c_l v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: image_gather4_c_l v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_l_2d:			; GFX10NSA-LABEL: gather4_c_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_c_l v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
	▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

	Show First 20 Lines • Show All 539 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 unorm d16			; GFX9-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 unorm d16
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: v_and_or_b32 v1, v1, v2, s0
	; GFX9-NEXT: v_and_or_b32 v0, v0, v2, v3
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_v3f16_xyz:			; GFX10-LABEL: load_1d_v3f16_xyz:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 dim:SQ_RSRC_IMG_1D unorm d16			; GFX10-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 dim:SQ_RSRC_IMG_1D unorm d16
	; GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s0
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, v2
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call <3 x half> @llvm.amdgcn.image.load.1d.v3f16.i32(i32 7, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)			%v = call <3 x half> @llvm.amdgcn.image.load.1d.v3f16.i32(i32 7, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)
	ret <3 x half> %v			ret <3 x half> %v
	}			}

	define amdgpu_ps <4 x half> @load_1d_v4f16_xyzw(<8 x i32> inreg %rsrc, i32 %s) {			define amdgpu_ps <4 x half> @load_1d_v4f16_xyzw(<8 x i32> inreg %rsrc, i32 %s) {
	; GFX8-UNPACKED-LABEL: load_1d_v4f16_xyzw:			; GFX8-UNPACKED-LABEL: load_1d_v4f16_xyzw:
	; GFX8-UNPACKED: ; %bb.0:			; GFX8-UNPACKED: ; %bb.0:
	▲ Show 20 Lines • Show All 377 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX10 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX10 %s

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw:			; GFX9-LABEL: load_3d_v4f32_xyzw:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s8			; GFX9-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf unorm a16
	; GFX9-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf unorm a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw:			; GFX10-LABEL: load_3d_v4f32_xyzw:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v1, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16			; GFX10-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_and_or_b32 v5, v0, v2, v1
	; GFX9-NEXT: v_and_or_b32 v10, v0, v3, v1			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_and_or_b32 v11, v2, v3, s8			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v6, v5			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v7, v5			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v8, v5			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v5			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, v5
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v6			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v7			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v8			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v9			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v5, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_mov_b32_e32 v6, v5
	; GFX10-NEXT: v_mov_b32_e32 v7, v5
	; GFX10-NEXT: v_mov_b32_e32 v8, v5
	; GFX10-NEXT: v_mov_b32_e32 v9, v5
	; GFX10-NEXT: v_and_or_b32 v10, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v11, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: v_mov_b32_e32 v8, v7
				; GFX10-NEXT: v_mov_b32_e32 v9, v7
				; GFX10-NEXT: v_mov_b32_e32 v10, v7
				; GFX10-NEXT: v_mov_b32_e32 v11, v7
				; GFX10-NEXT: v_and_or_b32 v5, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v5			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v6			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v7			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v8			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v9			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v5, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)			%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue { <4 x float>, i32 } %v, 0			%v.vec = extractvalue { <4 x float>, i32 } %v, 0
	%v.err = extractvalue { <4 x float>, i32 } %v, 1			%v.err = extractvalue { <4 x float>, i32 } %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_and_or_b32 v5, v0, v2, v1
	; GFX9-NEXT: v_and_or_b32 v10, v0, v3, v1			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_and_or_b32 v11, v2, v3, s8			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v6, v5			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v7, v5			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v8, v5			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v5			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, v5
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v6			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v7			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v8			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v9			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe lwe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe lwe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v5, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_mov_b32_e32 v6, v5
	; GFX10-NEXT: v_mov_b32_e32 v7, v5
	; GFX10-NEXT: v_mov_b32_e32 v8, v5
	; GFX10-NEXT: v_mov_b32_e32 v9, v5
	; GFX10-NEXT: v_and_or_b32 v10, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v11, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: v_mov_b32_e32 v8, v7
				; GFX10-NEXT: v_mov_b32_e32 v9, v7
				; GFX10-NEXT: v_mov_b32_e32 v10, v7
				; GFX10-NEXT: v_mov_b32_e32 v11, v7
				; GFX10-NEXT: v_and_or_b32 v5, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v5			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v6			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v7			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v8			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v9			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v5, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 3, i32 0)			%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 3, i32 0)
	%v.vec = extractvalue { <4 x float>, i32 } %v, 0			%v.vec = extractvalue { <4 x float>, i32 } %v, 0
	%v.err = extractvalue { <4 x float>, i32 } %v, 1			%v.err = extractvalue { <4 x float>, i32 } %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	}			}

	declare <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0			declare <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0
	declare { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0			declare { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0

	attributes #0 = { nounwind readonly }			attributes #0 = { nounwind readonly }

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s

	define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_d_1d:			; GFX10-LABEL: sample_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {			define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
	; GFX10-LABEL: sample_d_3d:			; GFX10-LABEL: sample_d_3d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v2			; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v10, v3			; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10-NEXT: v_mov_b32_e32 v11, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16			; GFX10-NEXT: v_mov_b32_e32 v3, v2
	; GFX10-NEXT: v_and_or_b32 v3, v9, v11, s12			; GFX10-NEXT: v_and_or_b32 v2, v0, v10, v1
	; GFX10-NEXT: v_and_or_b32 v2, v0, v11, v1			; GFX10-NEXT: v_and_or_b32 v4, v9, v10, v4
	; GFX10-NEXT: v_and_or_b32 v4, v10, v11, v4
	; GFX10-NEXT: v_and_or_b32 v5, v5, v11, s12
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_d_cl_1d:			; GFX10-LABEL: sample_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_d_cl_1d:			; GFX10-LABEL: sample_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 14 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_cd_1d:			; GFX10-LABEL: sample_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_1d:			; GFX10-LABEL: sample_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_1d:			; GFX10-LABEL: sample_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL %s
	; TODO: global-isel produces more code - there will need to be some more combines in the postregbankselectcombine phase			; TODO: global-isel produces more code - there will need to be some more combines in the postregbankselectcombine phase
	; Depends on some other changes to pass this test - those are in review separately			; Depends on some other changes to pass this test - those are in review separately

	define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_d_1d:			; GFX10-LABEL: sample_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_1d:			; GFX10GISEL-LABEL: sample_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v2, 0xffff, v2, s12
	; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 31 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16			; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_3d:			; GFX10GISEL-LABEL: sample_d_3d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16			; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_1d:			; GFX10GISEL-LABEL: sample_c_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v3, 0xffff, v3, s12
	; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_mov_b32_e32 v7, v1			; GFX10-NEXT: v_mov_b32_e32 v7, v1
	; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0
	; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_cl_2d:			; GFX10GISEL-LABEL: sample_d_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v4, v7, v5			; GFX10GISEL-NEXT: v_and_or_b32 v4, 0xffff, v4, v6
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v6, v7, s12
	; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 30 Lines
	; GFX10-NEXT: v_mov_b32_e32 v8, v1			; GFX10-NEXT: v_mov_b32_e32 v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0
	; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_cl_2d:			; GFX10GISEL-LABEL: sample_c_d_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v8, v6			; GFX10GISEL-NEXT: v_and_or_b32 v5, 0xffff, v5, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v7, v8, s12
	; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_cd_1d:			; GFX10-LABEL: sample_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_cd_1d:			; GFX10GISEL-LABEL: sample_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v2, 0xffff, v2, s12
	; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 22 Lines
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_cd_1d:			; GFX10GISEL-LABEL: sample_c_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v3, 0xffff, v3, s12
	; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_mov_b32_e32 v7, v1			; GFX10-NEXT: v_mov_b32_e32 v7, v1
	; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0
	; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_cd_cl_2d:			; GFX10GISEL-LABEL: sample_cd_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v4, v7, v5			; GFX10GISEL-NEXT: v_and_or_b32 v4, 0xffff, v4, v6
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v6, v7, s12
	; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 30 Lines
	; GFX10-NEXT: v_mov_b32_e32 v8, v1			; GFX10-NEXT: v_mov_b32_e32 v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0
	; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_cd_cl_2d:			; GFX10GISEL-LABEL: sample_c_cd_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v8, v6			; GFX10GISEL-NEXT: v_and_or_b32 v5, 0xffff, v5, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v7, v8, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 10 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:			; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret float %v			ret float %v
	}			}

	Show All 10 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:			; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <2 x float> %v			ret <2 x float> %v
	}			}

	Show All 23 Lines
	; GFX10-LABEL: sample_g16_noa16_d_1d:			; GFX10-LABEL: sample_g16_noa16_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 35 Lines
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v9			; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v9
	; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v2			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v3
	; GFX10GISEL-NEXT: v_mov_b32_e32 v10, v3			; GFX10GISEL-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10GISEL-NEXT: v_mov_b32_e32 v11, 0xffff
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v2
	; GFX10GISEL-NEXT: v_and_or_b32 v3, v9, v11, s12			; GFX10GISEL-NEXT: v_and_or_b32 v2, v0, v10, v1
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v0, v11, v1			; GFX10GISEL-NEXT: v_and_or_b32 v4, v9, v10, v4
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v10, v11, v4
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v11, s12
	; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_g16_noa16_c_d_1d:			; GFX10-LABEL: sample_g16_noa16_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_d_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_d_cl_1d:			; GFX10-LABEL: sample_g16_noa16_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_d_cl_1d:			; GFX10-LABEL: sample_g16_noa16_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 33 Lines
	; GFX10-LABEL: sample_g16_noa16_cd_1d:			; GFX10-LABEL: sample_g16_noa16_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_cd_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_cd_1d:			; GFX10-LABEL: sample_g16_noa16_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_cd_cl_1d:			; GFX10-LABEL: sample_g16_noa16_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_cd_cl_1d:			; GFX10-LABEL: sample_g16_noa16_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 129 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Code quality: don't expand G_BUILD_VECTOR_TRUNC if not neccessary
AcceptedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 405948

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Code quality: don't expand G_BUILD_VECTOR_TRUNC if not neccessaryAcceptedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 405948

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

[AMDGPU][GlobalISel] Code quality: don't expand G_BUILD_VECTOR_TRUNC if not neccessary
AcceptedPublic