Diff 410553

llvm/include/llvm/CodeGen/GlobalISel/MIPatternMatch.h

	Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	inline GCstAndRegMatch m_GCst(Optional<ValueAndVReg> &ValReg) {			inline GCstAndRegMatch m_GCst(Optional<ValueAndVReg> &ValReg) {
	return GCstAndRegMatch(ValReg);			return GCstAndRegMatch(ValReg);
	}			}

	struct GFCstAndRegMatch {			struct GFCstAndRegMatch {
	Optional<FPValueAndVReg> &FPValReg;			Optional<FPValueAndVReg> &FPValReg;
	GFCstAndRegMatch(Optional<FPValueAndVReg> &FPValReg) : FPValReg(FPValReg) {}			GFCstAndRegMatch(Optional<FPValueAndVReg> &FPValReg) : FPValReg(FPValReg) {}
	bool match(const MachineRegisterInfo &MRI, Register Reg) {			bool match(const MachineRegisterInfo &MRI, Register Reg) {
	FPValReg = getFConstantVRegValWithLookThrough(Reg, MRI);			FPValReg = getFConstantVRegValWithLookThrough(Reg, MRI, true);
	return FPValReg ? true : false;			return FPValReg ? true : false;
	}			}
	};			};

	inline GFCstAndRegMatch m_GFCst(Optional<FPValueAndVReg> &FPValReg) {			inline GFCstAndRegMatch m_GFCst(Optional<FPValueAndVReg> &FPValReg) {
	return GFCstAndRegMatch(FPValReg);			return GFCstAndRegMatch(FPValReg);
	}			}

	struct GFCstOrSplatGFCstMatch {			struct GFCstOrSplatGFCstMatch {
	Optional<FPValueAndVReg> &FPValReg;			Optional<FPValueAndVReg> &FPValReg;
	GFCstOrSplatGFCstMatch(Optional<FPValueAndVReg> &FPValReg)			GFCstOrSplatGFCstMatch(Optional<FPValueAndVReg> &FPValReg)
	: FPValReg(FPValReg) {}			: FPValReg(FPValReg) {}
	bool match(const MachineRegisterInfo &MRI, Register Reg) {			bool match(const MachineRegisterInfo &MRI, Register Reg) {
	return (FPValReg = getFConstantSplat(Reg, MRI)) \|\|			return (FPValReg = getFConstantSplat(Reg, MRI)) \|\|
	(FPValReg = getFConstantVRegValWithLookThrough(Reg, MRI));			(FPValReg = getFConstantVRegValWithLookThrough(Reg, MRI, true, true));
	};			};
	};			};

	inline GFCstOrSplatGFCstMatch			inline GFCstOrSplatGFCstMatch
	m_GFCstOrSplat(Optional<FPValueAndVReg> &FPValReg) {			m_GFCstOrSplat(Optional<FPValueAndVReg> &FPValReg) {
	return GFCstOrSplatGFCstMatch(FPValReg);			return GFCstOrSplatGFCstMatch(FPValReg);
	}			}

	▲ Show 20 Lines • Show All 524 Lines • Show Last 20 Lines

llvm/include/llvm/CodeGen/GlobalISel/Utils.h

Show First 20 Lines • Show All 196 Lines • ▼ Show 20 Lines	struct FPValueAndVReg {
Register VReg;		Register VReg;
};		};

/// If \p VReg is defined by a statically evaluable chain of instructions rooted		/// If \p VReg is defined by a statically evaluable chain of instructions rooted
/// on a G_FCONSTANT returns its APFloat value and def register.		/// on a G_FCONSTANT returns its APFloat value and def register.
Optional<FPValueAndVReg>		Optional<FPValueAndVReg>
getFConstantVRegValWithLookThrough(Register VReg,		getFConstantVRegValWithLookThrough(Register VReg,
const MachineRegisterInfo &MRI,		const MachineRegisterInfo &MRI,
bool LookThroughInstrs = true);		bool LookThroughInstrs = true,
		bool LookThroughAnyExt = false);

const ConstantFP* getConstantFPVRegVal(Register VReg,		const ConstantFP* getConstantFPVRegVal(Register VReg,
const MachineRegisterInfo &MRI);		const MachineRegisterInfo &MRI);

/// See if Reg is defined by an single def instruction that is		/// See if Reg is defined by an single def instruction that is
/// Opcode. Also try to do trivial folding if it's a COPY with		/// Opcode. Also try to do trivial folding if it's a COPY with
/// same types. Returns null otherwise.		/// same types. Returns null otherwise.
MachineInstr *getOpcodeDef(unsigned Opcode, Register Reg,		MachineInstr *getOpcodeDef(unsigned Opcode, Register Reg,
▲ Show 20 Lines • Show All 285 Lines • Show Last 20 Lines

llvm/lib/CodeGen/GlobalISel/Utils.cpp

Show First 20 Lines • Show All 323 Lines • ▼ Show 20 Lines	case TargetOpcode::G_ZEXT:
VReg = MI->getOperand(1).getReg();		VReg = MI->getOperand(1).getReg();
break;		break;
case TargetOpcode::COPY:		case TargetOpcode::COPY:
VReg = MI->getOperand(1).getReg();		VReg = MI->getOperand(1).getReg();
if (Register::isPhysicalRegister(VReg))		if (Register::isPhysicalRegister(VReg))
return None;		return None;
break;		break;
case TargetOpcode::G_INTTOPTR:		case TargetOpcode::G_INTTOPTR:
		case TargetOpcode::G_BITCAST:
VReg = MI->getOperand(1).getReg();		VReg = MI->getOperand(1).getReg();
break;		break;
default:		default:
return None;		return None;
}		}
}		}
if (!MI \|\| !IsConstantOpcode(MI))		if (!MI \|\| !IsConstantOpcode(MI))
return None;		return None;
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	Optional<ValueAndVReg> llvm::getAnyConstantVRegValWithLookThrough(
Register VReg, const MachineRegisterInfo &MRI, bool LookThroughInstrs,		Register VReg, const MachineRegisterInfo &MRI, bool LookThroughInstrs,
bool LookThroughAnyExt) {		bool LookThroughAnyExt) {
return getConstantVRegValWithLookThrough(		return getConstantVRegValWithLookThrough(
VReg, MRI, isAnyConstant, getCImmOrFPImmAsAPInt, LookThroughInstrs,		VReg, MRI, isAnyConstant, getCImmOrFPImmAsAPInt, LookThroughInstrs,
LookThroughAnyExt);		LookThroughAnyExt);
}		}

Optional<FPValueAndVReg> llvm::getFConstantVRegValWithLookThrough(		Optional<FPValueAndVReg> llvm::getFConstantVRegValWithLookThrough(
Register VReg, const MachineRegisterInfo &MRI, bool LookThroughInstrs) {		Register VReg, const MachineRegisterInfo &MRI, bool LookThroughInstrs,
		bool LookThroughAnyExt) {
auto Reg = getConstantVRegValWithLookThrough(		auto Reg = getConstantVRegValWithLookThrough(
VReg, MRI, isFConstant, getCImmOrFPImmAsAPInt, LookThroughInstrs);		VReg, MRI, isFConstant, getCImmOrFPImmAsAPInt, LookThroughInstrs,
		LookThroughAnyExt);
if (!Reg)		if (!Reg)
return None;		return None;
return FPValueAndVReg{getConstantFPVRegVal(Reg->VReg, MRI)->getValueAPF(),		return FPValueAndVReg{getConstantFPVRegVal(Reg->VReg, MRI)->getValueAPF(),
Reg->VReg};		Reg->VReg};
}		}

const ConstantFP *		const ConstantFP *
llvm::getConstantFPVRegVal(Register VReg, const MachineRegisterInfo &MRI) {		llvm::getConstantFPVRegVal(Register VReg, const MachineRegisterInfo &MRI) {
▲ Show 20 Lines • Show All 888 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

	Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	def remove_fcanonicalize_matchinfo : GIDefMatchData<"Register">;			def remove_fcanonicalize_matchinfo : GIDefMatchData<"Register">;

	def remove_fcanonicalize : GICombineRule<			def remove_fcanonicalize : GICombineRule<
	(defs root:$fcanonicalize, remove_fcanonicalize_matchinfo:$matchinfo),			(defs root:$fcanonicalize, remove_fcanonicalize_matchinfo:$matchinfo),
	(match (wip_match_opcode G_FCANONICALIZE):$fcanonicalize,			(match (wip_match_opcode G_FCANONICALIZE):$fcanonicalize,
	[{ return PostLegalizerHelper.matchRemoveFcanonicalize(*${fcanonicalize}, ${matchinfo}); }]),			[{ return PostLegalizerHelper.matchRemoveFcanonicalize(*${fcanonicalize}, ${matchinfo}); }]),
	(apply [{ Helper.replaceSingleDefInstWithReg(*${fcanonicalize}, ${matchinfo}); }])>;			(apply [{ Helper.replaceSingleDefInstWithReg(*${fcanonicalize}, ${matchinfo}); }])>;

				def build_vector_trunc_matchdata : GIDefMatchData<"std::pair<MachineInstr*, bool>">;
				def build_vector_trunc_combine: GICombineRule<
				(defs root:$root, build_vector_trunc_matchdata:$info),
				(match (wip_match_opcode G_BUILD_VECTOR_TRUNC):$root,
				[{ return PostLegalizerHelper.matchCombineBuildVectorTrunc(
				*${root}, ${info}); }]),
				(apply [{ PostLegalizerHelper.applyCombineBuildVectorTrunc(*${root},
				${info}); }])>;

	def foldable_fneg_matchdata : GIDefMatchData<"MachineInstr *">;			def foldable_fneg_matchdata : GIDefMatchData<"MachineInstr *">;

	def foldable_fneg : GICombineRule<			def foldable_fneg : GICombineRule<
	(defs root:$ffn, foldable_fneg_matchdata:$matchinfo),			(defs root:$ffn, foldable_fneg_matchdata:$matchinfo),
	(match (wip_match_opcode G_FNEG):$ffn,			(match (wip_match_opcode G_FNEG):$ffn,
	[{ return Helper.matchFoldableFneg(*${ffn}, ${matchinfo}); }]),			[{ return Helper.matchFoldableFneg(*${ffn}, ${matchinfo}); }]),
	(apply [{ Helper.applyFoldableFneg(*${ffn}, ${matchinfo}); }])>;			(apply [{ Helper.applyFoldableFneg(*${ffn}, ${matchinfo}); }])>;

	// Combines which should only apply on SI/VI			// Combines which should only apply on SI/VI
	def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;			def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;

	def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<			def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<
	"AMDGPUGenPreLegalizerCombinerHelper",			"AMDGPUGenPreLegalizerCombinerHelper",
	[all_combines, clamp_i64_to_i16, foldable_fneg]> {			[all_combines, clamp_i64_to_i16, foldable_fneg]> {
	let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";			let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";
	let StateClass = "AMDGPUPreLegalizerCombinerHelperState";			let StateClass = "AMDGPUPreLegalizerCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

	def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<			def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<
	"AMDGPUGenPostLegalizerCombinerHelper",			"AMDGPUGenPostLegalizerCombinerHelper",
	[all_combines, gfx6gfx7_combines,			[all_combines, gfx6gfx7_combines,
	uchar_to_float, cvt_f32_ubyteN, remove_fcanonicalize, foldable_fneg,			uchar_to_float, cvt_f32_ubyteN, remove_fcanonicalize, foldable_fneg,
	rcp_sqrt_to_rsq]> {			rcp_sqrt_to_rsq, build_vector_trunc_combine]> {
	let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";			let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";
	let StateClass = "AMDGPUPostLegalizerCombinerHelperState";			let StateClass = "AMDGPUPostLegalizerCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

	def AMDGPURegBankCombinerHelper : GICombinerHelper<			def AMDGPURegBankCombinerHelper : GICombinerHelper<
	"AMDGPUGenRegBankCombinerHelper",			"AMDGPUGenRegBankCombinerHelper",
	[zext_trunc_fold, int_minmax_to_med3, ptr_add_immed_chain,			[zext_trunc_fold, int_minmax_to_med3, ptr_add_immed_chain,
	fp_minmax_to_clamp, fp_minmax_to_med3, fmed3_intrinsic_to_clamp]> {			fp_minmax_to_clamp, fp_minmax_to_med3, fmed3_intrinsic_to_clamp]> {
	let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";			let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";
	let StateClass = "AMDGPURegBankCombinerHelperState";			let StateClass = "AMDGPURegBankCombinerHelperState";
	let AdditionalArguments = [];			let AdditionalArguments = [];
	}			}

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	void applySelectFCmpToFMinToFMaxLegacy(MachineInstr &MI,
const FMinFMaxLegacyInfo &Info);		const FMinFMaxLegacyInfo &Info);

bool matchUCharToFloat(MachineInstr &MI);		bool matchUCharToFloat(MachineInstr &MI);
void applyUCharToFloat(MachineInstr &MI);		void applyUCharToFloat(MachineInstr &MI);

bool matchRcpSqrtToRsq(MachineInstr &MI,		bool matchRcpSqrtToRsq(MachineInstr &MI,
std::function<void(MachineIRBuilder &)> &MatchInfo);		std::function<void(MachineIRBuilder &)> &MatchInfo);

		bool matchCombineBuildVectorTrunc(MachineInstr &MI,
		std::pair<MachineInstr*, bool> &MatchInfo);
		void applyCombineBuildVectorTrunc(MachineInstr &MI,
		std::pair<MachineInstr*, bool> &MatchInfo);

// FIXME: Should be able to have 2 separate matchdatas rather than custom		// FIXME: Should be able to have 2 separate matchdatas rather than custom
// struct boilerplate.		// struct boilerplate.
struct CvtF32UByteMatchInfo {		struct CvtF32UByteMatchInfo {
Register CvtVal;		Register CvtVal;
unsigned ShiftOffset;		unsigned ShiftOffset;
};		};

bool matchCvtF32UByteN(MachineInstr &MI, CvtF32UByteMatchInfo &MatchInfo);		bool matchCvtF32UByteN(MachineInstr &MI, CvtF32UByteMatchInfo &MatchInfo);
▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines	void AMDGPUPostLegalizerCombinerHelper::applyCvtF32UByteN(
MI.eraseFromParent();		MI.eraseFromParent();
}		}

bool AMDGPUPostLegalizerCombinerHelper::matchRemoveFcanonicalize(		bool AMDGPUPostLegalizerCombinerHelper::matchRemoveFcanonicalize(
MachineInstr &MI, Register &Reg) {		MachineInstr &MI, Register &Reg) {
const SITargetLowering TLI = static_cast<const SITargetLowering >(		const SITargetLowering TLI = static_cast<const SITargetLowering >(
MF.getSubtarget().getTargetLowering());		MF.getSubtarget().getTargetLowering());
Reg = MI.getOperand(1).getReg();		Reg = MI.getOperand(1).getReg();
return TLI->isCanonicalized(Reg, MF);		MachineInstr *FCanonOpMI = MRI.getVRegDef(Reg);
		Register TmpReg = Reg;
		if (FCanonOpMI->getOpcode() == TargetOpcode::G_BITCAST)
		TmpReg = FCanonOpMI->getOperand(1).getReg();
		return TLI->isCanonicalized(TmpReg, MF);
		arsenmUnsubmitted Not Done Reply Inline Actions What's the point of this change? I don't think this is really correct since a bitcast from <2 x s16> to s32 won't have a consistent canonicalized interpretation arsenm: What's the point of this change? I don't think this is really correct since a bitcast from <2 x…
		matejamAuthorUnsubmitted Done Reply Inline Actions You're right, I'll remove that. matejam: You're right, I'll remove that.
		}

		bool AMDGPUPostLegalizerCombinerHelper::matchCombineBuildVectorTrunc(
		MachineInstr &MI, std::pair<MachineInstr*, bool> &MatchInfo) {
		Register Lo = MI.getOperand(1).getReg();
		Register Hi = MI.getOperand(2).getReg();
		MachineInstr *LoMI = MRI.getVRegDef(Lo);
		MachineInstr *HiMI = MRI.getVRegDef(Hi);
		unsigned HiOpc = HiMI->getOpcode();
		unsigned LoOpc = LoMI->getOpcode();

		auto isLshrBy16 = [&](const MachineInstr &MI) {
		if (MI.getOpcode() == TargetOpcode::G_LSHR) {
		Register LshrCstReg =
		getDefIgnoringCopies(MI.getOperand(2).getReg(), MRI)
		->getOperand(0)
		.getReg();
		if (mi_match(LshrCstReg, MRI, m_SpecificICst(16)))
		return MI.getOperand(1).getReg();
		}
		return Register();
		};

		auto StripBitcast = [&](Register Reg) {
		MachineInstr *MI = MRI.getVRegDef(Reg);
		if (MI->getOpcode() == TargetOpcode::G_BITCAST)
		return MI->getOperand(1).getReg();
		return Reg;
		};

		auto HiAndLoHaveSameSrc = [&]() {
		if (Register HiSrcReg = isLshrBy16(*HiMI))
		return StripBitcast(Lo) == StripBitcast(HiSrcReg);
		return false;
		};

		// When the lower part of the G_BUILD_VECTOR_TRUNC is undef and the
		// high part is not 'G_LSHR %x, 16', we have to add one shift to
		// the left by 16.
		if (LoOpc == TargetOpcode::G_IMPLICIT_DEF) {
		if (Register Reg = isLshrBy16(*HiMI)) {
		MatchInfo = {MRI.getVRegDef(Reg), false};
		return true;
		} else {
		arsenmUnsubmitted Not Done Reply Inline Actions No else after return arsenm: No else after return
		matejamAuthorUnsubmitted Done Reply Inline Actions Thanks! matejam: Thanks!
		MatchInfo = {HiMI, true};
		return true;
		}
		// If the high part of the G_BUILD_VECTOR_TRUNC is undef, or hi and lo
		// have the same source register, use that register instead of the
		// current DstReg.
		} else if (HiOpc == TargetOpcode::G_IMPLICIT_DEF \|\| HiAndLoHaveSameSrc()) {
		MatchInfo = {LoMI, false};
		return true;
		}

		return false;
		}

		void AMDGPUPostLegalizerCombinerHelper::applyCombineBuildVectorTrunc(
		MachineInstr &MI, std::pair<MachineInstr*, bool> &MatchInfo) {
		Register DstReg = MI.getOperand(0).getReg();
		Register Reg;
		MachineInstr *SrcMI = MatchInfo.first;
		bool NeedsShl = MatchInfo.second;

		B.setInstrAndDebugLoc(MI);
		if (NeedsShl) {
		Optional<FPValueAndVReg> FPValReg =
		getFConstantVRegValWithLookThrough(SrcMI->getOperand(0).getReg(), MRI, true, true);
		if (FPValReg.hasValue()) {
		APInt IntValue = FPValReg->Value.bitcastToAPInt().zext(32).shl(16);
		SrcMI = B.buildFConstant(LLT::scalar(32), IntValue.bitsToFloat());
		} else {
		const LLT S32 = LLT::scalar(32);
		auto ShiftAmt = B.buildConstant(S32, 16);
		SrcMI = B.buildShl(S32, SrcMI->getOperand(0).getReg(), ShiftAmt);
		}
		}

		// If the selected MachineInstruction is a G_BITCAST, the result will
		// be the source of the bitcast.
		// If not, build a bitcast that uses the dst of the selected
		// MachineInstr.
		if (SrcMI->getOpcode() == TargetOpcode::G_BITCAST) {
		Reg = SrcMI->getOperand(1).getReg();
		Helper.replaceRegWith(MRI, DstReg, Reg);
		} else {
		Reg = SrcMI->getOperand(0).getReg();
		B.buildBitcast(DstReg, Reg);
		}

		MI.eraseFromParent();
}		}
		arsenmUnsubmitted Not Done Reply Inline Actions Missing return value arsenm: Missing return value
		matejamAuthorUnsubmitted Done Reply Inline Actions Most of the apply functions are void and don't have the return statement. matejam: Most of the apply functions are void and don't have the return statement.

class AMDGPUPostLegalizerCombinerHelperState {		class AMDGPUPostLegalizerCombinerHelperState {
protected:		protected:
AMDGPUCombinerHelper &Helper;		AMDGPUCombinerHelper &Helper;
AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper;		AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper;

public:		public:
AMDGPUPostLegalizerCombinerHelperState(		AMDGPUPostLegalizerCombinerHelperState(
AMDGPUCombinerHelper &Helper,		AMDGPUCombinerHelper &Helper,
AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper)		AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper)
: Helper(Helper), PostLegalizerHelper(PostLegalizerHelper) {}		: Helper(Helper), PostLegalizerHelper(PostLegalizerHelper) {}
};		};

		arsenmUnsubmitted Not Done Reply Inline Actions Why use getDefIgnoringCopies instead of directly using mi_match? arsenm: Why use getDefIgnoringCopies instead of directly using mi_match?
		matejamAuthorUnsubmitted Not Done Reply Inline Actions In case we have a copy instruction as a second operand of G_LSHR. mi_match would return false, this way we don't have to worry about that. matejam: In case we have a copy instruction as a second operand of G_LSHR. mi_match would return false…
		arsenmUnsubmitted Not Done Reply Inline Actions Extra copies should be separately folded out by copy combines arsenm: Extra copies should be separately folded out by copy combines
		matejamAuthorUnsubmitted Done Reply Inline Actions No, you were right, no need for getDefIgnoringCopies. matejam: No, you were right, no need for getDefIgnoringCopies.
#define AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS		#define AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS
#include "AMDGPUGenPostLegalizeGICombiner.inc"		#include "AMDGPUGenPostLegalizeGICombiner.inc"
#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS		#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS

namespace {		namespace {
#define AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H		#define AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H
#include "AMDGPUGenPostLegalizeGICombiner.inc"		#include "AMDGPUGenPostLegalizeGICombiner.inc"
#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H		#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H

class AMDGPUPostLegalizerCombinerInfo final : public CombinerInfo {		class AMDGPUPostLegalizerCombinerInfo final : public CombinerInfo {
GISelKnownBits *KB;		GISelKnownBits *KB;
MachineDominatorTree *MDT;		MachineDominatorTree *MDT;
		foadUnsubmitted Not Done Reply Inline Actions It's a bit strange to define a lambda that is only used once. foad: It's a bit strange to define a lambda that is only used once.
		matejamAuthorUnsubmitted Done Reply Inline Actions Thanks, I'll remove the lambda. matejam: Thanks, I'll remove the lambda.

public:		public:
AMDGPUGenPostLegalizerCombinerHelperRuleConfig GeneratedRuleCfg;		AMDGPUGenPostLegalizerCombinerHelperRuleConfig GeneratedRuleCfg;

AMDGPUPostLegalizerCombinerInfo(bool EnableOpt, bool OptSize, bool MinSize,		AMDGPUPostLegalizerCombinerInfo(bool EnableOpt, bool OptSize, bool MinSize,
const AMDGPULegalizerInfo *LI,		const AMDGPULegalizerInfo *LI,
GISelKnownBits KB, MachineDominatorTree MDT)		GISelKnownBits KB, MachineDominatorTree MDT)
: CombinerInfo(/AllowIllegalOps/ false, /ShouldLegalizeIllegal/ true,		: CombinerInfo(/AllowIllegalOps/ false, /ShouldLegalizeIllegal/ true,
/LegalizerInfo/ LI, EnableOpt, OptSize, MinSize),		/LegalizerInfo/ LI, EnableOpt, OptSize, MinSize),
KB(KB), MDT(MDT) {		KB(KB), MDT(MDT) {
if (!GeneratedRuleCfg.parseCommandLineOption())		if (!GeneratedRuleCfg.parseCommandLineOption())
report_fatal_error("Invalid rule identifier");		report_fatal_error("Invalid rule identifier");
}		}
		foadUnsubmitted Not Done Reply Inline Actions What is this part for? It only seems to affect the specially constructed test cases in combine-or-and-shl.mir. Does it ever help with real code? foad: What is this part for? It only seems to affect the specially constructed test cases in combine…
		matejamAuthorUnsubmitted Done Reply Inline Actions You're right, I'll remove that. matejam: You're right, I'll remove that.

bool combine(GISelChangeObserver &Observer, MachineInstr &MI,		bool combine(GISelChangeObserver &Observer, MachineInstr &MI,
MachineIRBuilder &B) const override;		MachineIRBuilder &B) const override;
};		};

bool AMDGPUPostLegalizerCombinerInfo::combine(GISelChangeObserver &Observer,		bool AMDGPUPostLegalizerCombinerInfo::combine(GISelChangeObserver &Observer,
MachineInstr &MI,		MachineInstr &MI,
MachineIRBuilder &B) const {		MachineIRBuilder &B) const {
Show All 22 Lines
#include "AMDGPUGenPostLegalizeGICombiner.inc"		#include "AMDGPUGenPostLegalizeGICombiner.inc"
#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_CPP		#undef AMDGPUPOSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_CPP

// Pass boilerplate		// Pass boilerplate
// ================		// ================

class AMDGPUPostLegalizerCombiner : public MachineFunctionPass {		class AMDGPUPostLegalizerCombiner : public MachineFunctionPass {
public:		public:
static char ID;		static char ID;

AMDGPUPostLegalizerCombiner(bool IsOptNone = false);		AMDGPUPostLegalizerCombiner(bool IsOptNone = false);

StringRef getPassName() const override {		StringRef getPassName() const override {
return "AMDGPUPostLegalizerCombiner";		return "AMDGPUPostLegalizerCombiner";
}		}

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;

void getAnalysisUsage(AnalysisUsage &AU) const override;		void getAnalysisUsage(AnalysisUsage &AU) const override;
		arsenmUnsubmitted Not Done Reply Inline Actions Special casing the use doesn't feel right. If the type doesn't match, insert a new cast and rely on bitcast folding? arsenm: Special casing the use doesn't feel right. If the type doesn't match, insert a new cast and…
		arsenmUnsubmitted Not Done Reply Inline Actions I guess you did track that from before, so it doesn't really matter arsenm: I guess you did track that from before, so it doesn't really matter
private:		private:
bool IsOptNone;		bool IsOptNone;
};		};
} // end anonymous namespace		} // end anonymous namespace

void AMDGPUPostLegalizerCombiner::getAnalysisUsage(AnalysisUsage &AU) const {		void AMDGPUPostLegalizerCombiner::getAnalysisUsage(AnalysisUsage &AU) const {
AU.addRequired<TargetPassConfig>();		AU.addRequired<TargetPassConfig>();
AU.setPreservesCFG();		AU.setPreservesCFG();
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

Show First 20 Lines • Show All 242 Lines • ▼ Show 20 Lines	bb.0 :
; CHECK: liveins: $vgpr0		; CHECK: liveins: $vgpr0
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0		; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000		; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000
; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)		; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)
; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)		; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)
; CHECK-NEXT: %zero:_(s16) = G_FCONSTANT half 0xH0000		; CHECK-NEXT: %zero:_(s16) = G_FCONSTANT half 0xH0000
; CHECK-NEXT: %zero_s32:_(s32) = G_ANYEXT %zero(s16)		; CHECK-NEXT: %zero_s32:_(s32) = G_ANYEXT %zero(s16)
; CHECK-NEXT: %undef:_(s32) = G_IMPLICIT_DEF		; CHECK-NEXT: %zero_undef:_(<2 x s16>) = G_BITCAST %zero_s32(s32)
; CHECK-NEXT: %zero_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %zero_s32(s32), %undef(s32)
; CHECK-NEXT: %one:_(s16) = G_FCONSTANT half 0xH3C00		; CHECK-NEXT: %one:_(s16) = G_FCONSTANT half 0xH3C00
; CHECK-NEXT: %one_s32:_(s32) = G_ANYEXT %one(s16)		; CHECK-NEXT: %one_s32:_(s32) = G_ANYEXT %one(s16)
; CHECK-NEXT: %one_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %one_s32(s32), %undef(s32)		; CHECK-NEXT: %one_undef:_(<2 x s16>) = G_BITCAST %one_s32(s32)
; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat		; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat
; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]		; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]
; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %zero_undef, [[FCANONICALIZE]]		; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %zero_undef, [[FCANONICALIZE]]
; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %one_undef, [[FMAXNUM_IEEE]]		; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %one_undef, [[FMAXNUM_IEEE]]
; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)		; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)
%0:_(<2 x s16>) = COPY $vgpr0		%0:_(<2 x s16>) = COPY $vgpr0
%two:_(s16) = G_FCONSTANT half 0xH4000		%two:_(s16) = G_FCONSTANT half 0xH4000
%two_s32:_(s32) = G_ANYEXT %two(s16)		%two_s32:_(s32) = G_ANYEXT %two(s16)
Show All 30 Lines	bb.0 :
; CHECK: liveins: $vgpr0		; CHECK: liveins: $vgpr0
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0		; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000		; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000
; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)		; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)
; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)		; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)
; CHECK-NEXT: %snan:_(s16) = G_FCONSTANT half 0xH7C01		; CHECK-NEXT: %snan:_(s16) = G_FCONSTANT half 0xH7C01
; CHECK-NEXT: %snan_s32:_(s32) = G_ANYEXT %snan(s16)		; CHECK-NEXT: %snan_s32:_(s32) = G_ANYEXT %snan(s16)
; CHECK-NEXT: %undef:_(s32) = G_IMPLICIT_DEF		; CHECK-NEXT: %snan_undef:_(<2 x s16>) = G_BITCAST %snan_s32(s32)
; CHECK-NEXT: %snan_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %snan_s32(s32), %undef(s32)
; CHECK-NEXT: %qnan:_(s16) = G_FCONSTANT half 0xH7E01		; CHECK-NEXT: %qnan:_(s16) = G_FCONSTANT half 0xH7E01
; CHECK-NEXT: %qnan_s32:_(s32) = G_ANYEXT %qnan(s16)		; CHECK-NEXT: %qnan_s32:_(s32) = G_ANYEXT %qnan(s16)
; CHECK-NEXT: %qnan_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %qnan_s32(s32), %undef(s32)		; CHECK-NEXT: %qnan_undef:_(<2 x s16>) = G_BITCAST %qnan_s32(s32)
; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat		; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat
; CHECK-NEXT: %snan_undef_fcan:_(<2 x s16>) = G_FCANONICALIZE %snan_undef		; CHECK-NEXT: %snan_undef_fcan:_(<2 x s16>) = G_FCANONICALIZE %snan_undef
; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]		; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]
; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %snan_undef_fcan, [[FCANONICALIZE]]		; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %snan_undef_fcan, [[FCANONICALIZE]]
; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %qnan_undef, [[FMAXNUM_IEEE]]		; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %qnan_undef, [[FMAXNUM_IEEE]]
; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)		; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)
%0:_(<2 x s16>) = COPY $vgpr0		%0:_(<2 x s16>) = COPY $vgpr0
%two:_(s16) = G_FCONSTANT half 0xH4000		%two:_(s16) = G_FCONSTANT half 0xH4000
Show All 18 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-ext-mul.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	.entry:
%b = fpext half %a to float		%b = fpext half %a to float
%c = fadd fast float %z, %b		%c = fadd fast float %z, %b
ret float %c		ret float %c
}		}

define amdgpu_vs <5 x float> @test_5xf16_5xf32_add_ext_mul(<5 x half> inreg %x, <5 x half> inreg %y, <5 x float> inreg %z) {		define amdgpu_vs <5 x float> @test_5xf16_5xf32_add_ext_mul(<5 x half> inreg %x, <5 x half> inreg %y, <5 x float> inreg %z) {
; GFX9-FAST-DENORM-LABEL: test_5xf16_5xf32_add_ext_mul:		; GFX9-FAST-DENORM-LABEL: test_5xf16_5xf32_add_ext_mul:
; GFX9-FAST-DENORM: ; %bb.0: ; %.entry		; GFX9-FAST-DENORM: ; %bb.0: ; %.entry
; GFX9-FAST-DENORM-NEXT: s_pack_lh_b32_b16 s3, s3, s3
; GFX9-FAST-DENORM-NEXT: s_pack_lh_b32_b16 s4, s4, s4
; GFX9-FAST-DENORM-NEXT: s_pack_lh_b32_b16 s0, s0, s0
; GFX9-FAST-DENORM-NEXT: s_pack_lh_b32_b16 s1, s1, s1
; GFX9-FAST-DENORM-NEXT: v_mov_b32_e32 v0, s3		; GFX9-FAST-DENORM-NEXT: v_mov_b32_e32 v0, s3
; GFX9-FAST-DENORM-NEXT: v_mov_b32_e32 v1, s4		; GFX9-FAST-DENORM-NEXT: v_mov_b32_e32 v1, s4
; GFX9-FAST-DENORM-NEXT: v_mov_b32_e32 v2, s5		; GFX9-FAST-DENORM-NEXT: v_mov_b32_e32 v2, s5
; GFX9-FAST-DENORM-NEXT: v_pk_mul_f16 v0, s0, v0		; GFX9-FAST-DENORM-NEXT: v_pk_mul_f16 v0, s0, v0
; GFX9-FAST-DENORM-NEXT: v_pk_mul_f16 v1, s1, v1		; GFX9-FAST-DENORM-NEXT: v_pk_mul_f16 v1, s1, v1
; GFX9-FAST-DENORM-NEXT: v_pk_mul_f16 v2, s2, v2		; GFX9-FAST-DENORM-NEXT: v_pk_mul_f16 v2, s2, v2
; GFX9-FAST-DENORM-NEXT: v_cvt_f32_f16_e32 v3, v0		; GFX9-FAST-DENORM-NEXT: v_cvt_f32_f16_e32 v3, v0
; GFX9-FAST-DENORM-NEXT: v_cvt_f32_f16_sdwa v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX9-FAST-DENORM-NEXT: v_cvt_f32_f16_sdwa v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

Show First 20 Lines • Show All 780 Lines • ▼ Show 20 Lines	.entry:
%b = fadd <4 x half> %a, %z		%b = fadd <4 x half> %a, %z
ret <4 x half> %b		ret <4 x half> %b
}		}

define <3 x half> @test_3xhalf_add_mul_rhs(<3 x half> %x, <3 x half> %y, <3 x half> %z) {		define <3 x half> @test_3xhalf_add_mul_rhs(<3 x half> %x, <3 x half> %y, <3 x half> %z) {
; GFX9-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-LABEL: test_3xhalf_add_mul_rhs:
; GFX9: ; %bb.0: ; %.entry		; GFX9: ; %bb.0: ; %.entry
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3		; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v8		; GFX9-NEXT: v_pk_add_f16 v0, v4, v0
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_pk_add_f16 v1, v5, v1
; GFX9-NEXT: v_and_or_b32 v3, v4, v9, v3
; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-NEXT: v_pk_add_f16 v0, v3, v0
; GFX9-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-NEXT: v_pk_add_f16 v1, v4, v1
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:
; GFX9-CONTRACT: ; %bb.0: ; %.entry		; GFX9-CONTRACT: ; %bb.0: ; %.entry
; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-CONTRACT-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-CONTRACT-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v8
; GFX9-CONTRACT-NEXT: v_and_or_b32 v4, v4, v9, v6
; GFX9-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-CONTRACT-NEXT: v_and_or_b32 v5, v5, v9, s4
; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5		; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]		; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-DENORM-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-DENORM-LABEL: test_3xhalf_add_mul_rhs:
; GFX9-DENORM: ; %bb.0: ; %.entry		; GFX9-DENORM: ; %bb.0: ; %.entry
; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-DENORM-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-DENORM-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-DENORM-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-DENORM-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3		; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v3, 16, v8		; GFX9-DENORM-NEXT: v_pk_add_f16 v0, v4, v0
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-DENORM-NEXT: v_pk_add_f16 v1, v5, v1
; GFX9-DENORM-NEXT: v_and_or_b32 v3, v4, v9, v3
; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-DENORM-NEXT: v_pk_add_f16 v0, v3, v0
; GFX9-DENORM-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-DENORM-NEXT: v_pk_add_f16 v1, v4, v1
; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]		; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:		; GFX9-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:
; GFX9-UNSAFE: ; %bb.0: ; %.entry		; GFX9-UNSAFE: ; %bb.0: ; %.entry
; GFX9-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-UNSAFE-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v7
; GFX9-UNSAFE-NEXT: v_and_or_b32 v2, v2, v9, v6
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v8
; GFX9-UNSAFE-NEXT: v_and_or_b32 v4, v4, v9, v6
; GFX9-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16
; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v3, v3, v9, s4
; GFX9-UNSAFE-NEXT: v_and_or_b32 v5, v5, v9, s4
; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5		; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v2
; GFX9-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX9-UNSAFE-NEXT: s_setpc_b64 s[30:31]		; GFX9-UNSAFE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-LABEL: test_3xhalf_add_mul_rhs:
; GFX10: ; %bb.0: ; %.entry		; GFX10: ; %bb.0: ; %.entry
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff
; GFX10-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-NEXT: v_and_or_b32 v3, v3, v8, s4
; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-NEXT: v_and_or_b32 v2, v2, v8, v7
; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v4		; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4		; GFX10-NEXT: v_pk_add_f16 v0, v4, v0
; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0		; GFX10-NEXT: v_pk_add_f16 v1, v5, v1
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-NEXT: v_and_or_b32 v2, v4, v8, v2
; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-NEXT: v_pk_add_f16 v0, v2, v0
; GFX10-NEXT: v_and_or_b32 v2, v5, v8, s4
; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-NEXT: v_pk_add_f16 v1, v2, v1
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v3
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:
; GFX10-CONTRACT: ; %bb.0: ; %.entry		; GFX10-CONTRACT: ; %bb.0: ; %.entry
; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX10-CONTRACT-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX10-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v8, 16, v8
; GFX10-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX10-CONTRACT-NEXT: v_and_or_b32 v2, v2, v9, v7
; GFX10-CONTRACT-NEXT: v_and_or_b32 v4, v4, v9, v8
; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX10-CONTRACT-NEXT: v_and_or_b32 v2, v3, v9, s4		; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX10-CONTRACT-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v2, v4
; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v3
; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]		; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-DENORM-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-DENORM-LABEL: test_3xhalf_add_mul_rhs:
; GFX10-DENORM: ; %bb.0: ; %.entry		; GFX10-DENORM: ; %bb.0: ; %.entry
; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-DENORM-NEXT: v_mov_b32_e32 v8, 0xffff
; GFX10-DENORM-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-DENORM-NEXT: v_and_or_b32 v3, v3, v8, s4
; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-DENORM-NEXT: v_and_or_b32 v2, v2, v8, v7
; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2		; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v2, 16, v4		; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4		; GFX10-DENORM-NEXT: v_pk_add_f16 v0, v4, v0
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0		; GFX10-DENORM-NEXT: v_pk_add_f16 v1, v5, v1
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-DENORM-NEXT: v_and_or_b32 v2, v4, v8, v2
; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v6
; GFX10-DENORM-NEXT: v_pk_add_f16 v0, v2, v0
; GFX10-DENORM-NEXT: v_and_or_b32 v2, v5, v8, s4
; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-DENORM-NEXT: v_pk_add_f16 v1, v2, v1
; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4
; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v3
; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]		; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:		; GFX10-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:
; GFX10-UNSAFE: ; %bb.0: ; %.entry		; GFX10-UNSAFE: ; %bb.0: ; %.entry
; GFX10-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-UNSAFE-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-UNSAFE-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v4
; GFX10-UNSAFE-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX10-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v8, 16, v8
; GFX10-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v6
; GFX10-UNSAFE-NEXT: v_and_or_b32 v2, v2, v9, v7
; GFX10-UNSAFE-NEXT: v_and_or_b32 v4, v4, v9, v8
; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4		; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4
; GFX10-UNSAFE-NEXT: v_and_or_b32 v2, v3, v9, s4		; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5
; GFX10-UNSAFE-NEXT: v_and_or_b32 v4, v5, v9, s4
; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v2, v4
; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
; GFX10-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v3
; GFX10-UNSAFE-NEXT: s_setpc_b64 s[30:31]		; GFX10-UNSAFE-NEXT: s_setpc_b64 s[30:31]
.entry:		.entry:
%a = fmul <3 x half> %x, %y		%a = fmul <3 x half> %x, %y
%b = fadd <3 x half> %z, %a		%b = fadd <3 x half> %z, %a
ret <3 x half> %b		ret <3 x half> %b
}		}

define <4 x double> @test_4xdouble_add_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {		define <4 x double> @test_4xdouble_add_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {
▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -o - %s \| FileCheck -check-prefix=GFX9 %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -o - %s \| FileCheck -check-prefix=GFX10 %s

				define amdgpu_vs <3 x half> @test_v3f16(<3 x half> %x, <3 x half> %y) {
				; GFX9-LABEL: test_v3f16:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: v_pk_add_f16 v0, v0, v2
				; GFX9-NEXT: v_pk_add_f16 v1, v1, v3
				; GFX9-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: test_v3f16:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: v_pk_add_f16 v0, v0, v2
				; GFX10-NEXT: v_pk_add_f16 v1, v1, v3
				; GFX10-NEXT: ; return to shader part epilog
				.entry:
				%a = fadd <3 x half> %x, %y
				ret <3 x half> %a
				}

				define amdgpu_vs <9 x half> @test_v9f16(<9 x half> %x, <9 x half> %y) {
				; GFX9-LABEL: test_v9f16:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: v_pk_add_f16 v0, v0, v5
				; GFX9-NEXT: v_pk_add_f16 v1, v1, v6
				; GFX9-NEXT: v_pk_add_f16 v2, v2, v7
				; GFX9-NEXT: v_pk_add_f16 v3, v3, v8
				; GFX9-NEXT: v_pk_add_f16 v4, v4, v9
				; GFX9-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: test_v9f16:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: v_pk_add_f16 v0, v0, v5
				; GFX10-NEXT: v_pk_add_f16 v1, v1, v6
				; GFX10-NEXT: v_pk_add_f16 v2, v2, v7
				; GFX10-NEXT: v_pk_add_f16 v3, v3, v8
				; GFX10-NEXT: v_pk_add_f16 v4, v4, v9
				; GFX10-NEXT: ; return to shader part epilog
				.entry:
				%a = fadd <9 x half> %x, %y
				ret <9 x half> %a
				}

				define amdgpu_vs <11 x half> @test_v11f16(<11 x half> %x, <11 x half> %y) {
				; GFX9-LABEL: test_v11f16:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: v_pk_add_f16 v0, v0, v6
				; GFX9-NEXT: v_pk_add_f16 v1, v1, v7
				; GFX9-NEXT: v_pk_add_f16 v2, v2, v8
				; GFX9-NEXT: v_pk_add_f16 v3, v3, v9
				; GFX9-NEXT: v_pk_add_f16 v4, v4, v10
				; GFX9-NEXT: v_pk_add_f16 v5, v5, v11
				; GFX9-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: test_v11f16:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: v_pk_add_f16 v0, v0, v6
				; GFX10-NEXT: v_pk_add_f16 v1, v1, v7
				; GFX10-NEXT: v_pk_add_f16 v2, v2, v8
				; GFX10-NEXT: v_pk_add_f16 v3, v3, v9
				; GFX10-NEXT: v_pk_add_f16 v4, v4, v10
				; GFX10-NEXT: v_pk_add_f16 v5, v5, v11
				; GFX10-NEXT: ; return to shader part epilog
				.entry:
				%a = fadd <11 x half> %x, %y
				ret <11 x half> %a
				}

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck -check-prefix=GFX9 %s
				# RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck -check-prefix=GFX10 %s

				---
				name: hi_undef_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: hi_undef_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
				; GFX9-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				; GFX10-LABEL: name: hi_undef_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
				; GFX10-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				%0:_(<2 x s16>) = COPY $vgpr0
				%1:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%2:_(s32) = G_IMPLICIT_DEF
				%3:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %1:_(s32), %2:_
				$vgpr0 = COPY %3:_(<2 x s16>)
				...

				---
				name: lo_undef_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_undef_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
				; GFX9-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				; GFX10-LABEL: name: lo_undef_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
				; GFX10-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				%0:_(<2 x s16>) = COPY $vgpr0
				%1:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%2:_(s32) = G_CONSTANT i32 16
				%3:_(s32) = G_LSHR %1:_, %2:_(s32)
				%4:_(s32) = G_IMPLICIT_DEF
				%5:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %4:_(s32), %3:_
				$vgpr0 = COPY %5:_(<2 x s16>)
				...

				---
				name: lo_equal_hi_bitcast222
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_equal_hi_bitcast222
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
				; GFX9-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				; GFX10-LABEL: name: lo_equal_hi_bitcast222
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
				; GFX10-NEXT: $vgpr0 = COPY [[COPY]](<2 x s16>)
				%0:_(<2 x s16>) = COPY $vgpr0
				%1:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%5:_(s32) = G_BITCAST %0:_(<2 x s16>)
				%2:_(s32) = G_CONSTANT i32 16
				%3:_(s32) = G_LSHR %1:_, %2:_(s32)
				%4:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %5:_(s32), %3:_
				$vgpr0 = COPY %4:_(<2 x s16>)
				...

				---
				name: lo_undef_no_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_undef_no_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX9-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				; GFX10-LABEL: name: lo_undef_no_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX10-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_IMPLICIT_DEF
				%2:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %0:_(s32), %1:_
				$vgpr0 = COPY %2:_(<2 x s16>)
				...

				---
				name: hi_undef_no_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: hi_undef_no_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GFX9-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16
				; GFX9-NEXT: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[COPY]], [[C]](s32)
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[SHL]](s32)
				; GFX9-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				; GFX10-LABEL: name: hi_undef_no_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GFX10-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16
				; GFX10-NEXT: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[COPY]], [[C]](s32)
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[SHL]](s32)
				; GFX10-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_IMPLICIT_DEF
				%2:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %1:_(s32), %0:_
				$vgpr0 = COPY %2:_(<2 x s16>)
				...

				---
				name: lo_equal_hi_no_bitcast
				tracksRegLiveness: true
				legalized: true
				body: \|
				bb.0:
				liveins: $vgpr0

				; GFX9-LABEL: name: lo_equal_hi_no_bitcast
				; GFX9: liveins: $vgpr0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GFX9-NEXT: [[BITCAST:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX9-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				; GFX10-LABEL: name: lo_equal_hi_no_bitcast
				; GFX10: liveins: $vgpr0
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GFX10-NEXT: [[BITCAST:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; GFX10-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 16
				%2:_(s32) = G_LSHR %0:_, %1:_(s32)
				%3:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %0:_(s32), %2:_
				$vgpr0 = COPY %3:_(<2 x s16>)
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

Show First 20 Lines • Show All 480 Lines • ▼ Show 20 Lines	main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i32_3d:		; GFX9-LABEL: atomic_add_i32_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_3d:		; GFX10-LABEL: atomic_add_i32_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i32_cube:		; GFX9-LABEL: atomic_add_i32_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_cube:		; GFX10-LABEL: atomic_add_i32_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

Show All 34 Lines	main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i32_2darray:		; GFX9-LABEL: atomic_add_i32_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2darray:		; GFX10-LABEL: atomic_add_i32_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i32_2dmsaa:		; GFX9-LABEL: atomic_add_i32_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2dmsaa:		; GFX10-LABEL: atomic_add_i32_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

▲ Show 20 Lines • Show All 554 Lines • ▼ Show 20 Lines	main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i64_3d:		; GFX9-LABEL: atomic_add_i64_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_3d:		; GFX10-LABEL: atomic_add_i64_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i64_cube:		; GFX9-LABEL: atomic_add_i64_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_cube:		; GFX10-LABEL: atomic_add_i64_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

Show All 34 Lines	main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i64_2darray:		; GFX9-LABEL: atomic_add_i64_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2darray:		; GFX10-LABEL: atomic_add_i64_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i64_2dmsaa:		; GFX9-LABEL: atomic_add_i64_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2dmsaa:		; GFX10-LABEL: atomic_add_i64_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

▲ Show 20 Lines • Show All 121 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

	Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {			define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {
	; GFX9-LABEL: gather4_cube:			; GFX9-LABEL: gather4_cube:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cube:			; GFX10NSA-LABEL: gather4_cube:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {			define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {
	; GFX9-LABEL: gather4_2darray:			; GFX9-LABEL: gather4_2darray:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_2darray:			; GFX10NSA-LABEL: gather4_2darray:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_cl_2d:			; GFX9-LABEL: gather4_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cl_2d:			; GFX10NSA-LABEL: gather4_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_cl_2d:			; GFX9-LABEL: gather4_c_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_cl_2d:			; GFX10NSA-LABEL: gather4_c_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {
	; GFX9-LABEL: gather4_b_2d:			; GFX9-LABEL: gather4_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX9-NEXT: v_and_or_b32 v1, v1, v3, v2			; GFX9-NEXT: v_and_or_b32 v1, v1, v3, v2
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_b_2d:			; GFX10NSA-LABEL: gather4_b_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, s12			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v3, v2
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_b_2d:			; GFX9-LABEL: gather4_c_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v3			; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v3
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_b_2d:			; GFX10NSA-LABEL: gather4_c_b_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v4, s12			; GFX10NSA-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10NSA-NEXT: v_and_or_b32 v2, v2, v4, v3
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_b_cl_2d:			; GFX9-LABEL: gather4_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v4, s12			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_b_cl_2d:			; GFX10NSA-LABEL: gather4_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v4, s12			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_b_cl_2d:			; GFX9-LABEL: gather4_c_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v5, v3
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v3, v4
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v5, s12			; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v5
	; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3
	; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_b_cl_2d:			; GFX10NSA-LABEL: gather4_c_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v5, s12			; GFX10NSA-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10NSA-NEXT: v_and_or_b32 v2, v2, v5, v3
	; GFX10NSA-NEXT: v_and_or_b32 v3, v4, v5, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_l_2d:			; GFX9-LABEL: gather4_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12			; GFX9-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: image_gather4_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_l_2d:			; GFX10NSA-LABEL: gather4_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_c_l_2d:			; GFX9-LABEL: gather4_c_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12			; GFX9-NEXT: image_gather4_c_l v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: image_gather4_c_l v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_l_2d:			; GFX10NSA-LABEL: gather4_c_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_c_l v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
	▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

	Show First 20 Lines • Show All 539 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 unorm d16			; GFX9-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 unorm d16
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: v_and_or_b32 v1, v1, v2, s0
	; GFX9-NEXT: v_and_or_b32 v0, v0, v2, v3
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_v3f16_xyz:			; GFX10-LABEL: load_1d_v3f16_xyz:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 dim:SQ_RSRC_IMG_1D unorm d16			; GFX10-NEXT: image_load v[0:1], v0, s[0:7] dmask:0x7 dim:SQ_RSRC_IMG_1D unorm d16
	; GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s0
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, v2
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call <3 x half> @llvm.amdgcn.image.load.1d.v3f16.i32(i32 7, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)			%v = call <3 x half> @llvm.amdgcn.image.load.1d.v3f16.i32(i32 7, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)
	ret <3 x half> %v			ret <3 x half> %v
	}			}

	define amdgpu_ps <4 x half> @load_1d_v4f16_xyzw(<8 x i32> inreg %rsrc, i32 %s) {			define amdgpu_ps <4 x half> @load_1d_v4f16_xyzw(<8 x i32> inreg %rsrc, i32 %s) {
	; GFX8-UNPACKED-LABEL: load_1d_v4f16_xyzw:			; GFX8-UNPACKED-LABEL: load_1d_v4f16_xyzw:
	; GFX8-UNPACKED: ; %bb.0:			; GFX8-UNPACKED: ; %bb.0:
	▲ Show 20 Lines • Show All 377 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX10 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX10 %s

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw:			; GFX9-LABEL: load_3d_v4f32_xyzw:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s8			; GFX9-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf unorm a16
	; GFX9-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf unorm a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw:			; GFX10-LABEL: load_3d_v4f32_xyzw:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v1, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16			; GFX10-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_and_or_b32 v5, v0, v2, v1
	; GFX9-NEXT: v_and_or_b32 v10, v0, v3, v1			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_and_or_b32 v11, v2, v3, s8			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v6, v5			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v7, v5			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v8, v5			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v5			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, v5
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v6			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v7			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v8			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v9			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v5, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_mov_b32_e32 v6, v5
	; GFX10-NEXT: v_mov_b32_e32 v7, v5
	; GFX10-NEXT: v_mov_b32_e32 v8, v5
	; GFX10-NEXT: v_mov_b32_e32 v9, v5
	; GFX10-NEXT: v_and_or_b32 v10, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v11, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: v_mov_b32_e32 v8, v7
				; GFX10-NEXT: v_mov_b32_e32 v9, v7
				; GFX10-NEXT: v_mov_b32_e32 v10, v7
				; GFX10-NEXT: v_mov_b32_e32 v11, v7
				; GFX10-NEXT: v_and_or_b32 v5, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v5			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v6			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v7			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v8			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v9			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v5, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)			%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue { <4 x float>, i32 } %v, 0			%v.vec = extractvalue { <4 x float>, i32 } %v, 0
	%v.err = extractvalue { <4 x float>, i32 } %v, 1			%v.err = extractvalue { <4 x float>, i32 } %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_and_or_b32 v5, v0, v2, v1
	; GFX9-NEXT: v_and_or_b32 v10, v0, v3, v1			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_and_or_b32 v11, v2, v3, s8			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v6, v5			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v7, v5			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v8, v5			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v5			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, v5
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v6			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v7			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v8			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v9			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe lwe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe lwe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v5, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_mov_b32_e32 v6, v5
	; GFX10-NEXT: v_mov_b32_e32 v7, v5
	; GFX10-NEXT: v_mov_b32_e32 v8, v5
	; GFX10-NEXT: v_mov_b32_e32 v9, v5
	; GFX10-NEXT: v_and_or_b32 v10, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v11, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: v_mov_b32_e32 v8, v7
				; GFX10-NEXT: v_mov_b32_e32 v9, v7
				; GFX10-NEXT: v_mov_b32_e32 v10, v7
				; GFX10-NEXT: v_mov_b32_e32 v11, v7
				; GFX10-NEXT: v_and_or_b32 v5, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v5			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v6			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v7			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v8			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v9			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v5, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 3, i32 0)			%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 3, i32 0)
	%v.vec = extractvalue { <4 x float>, i32 } %v, 0			%v.vec = extractvalue { <4 x float>, i32 } %v, 0
	%v.err = extractvalue { <4 x float>, i32 } %v, 1			%v.err = extractvalue { <4 x float>, i32 } %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	}			}

	declare <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0			declare <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0
	declare { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0			declare { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0

	attributes #0 = { nounwind readonly }			attributes #0 = { nounwind readonly }

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s

	define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_d_1d:			; GFX10-LABEL: sample_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {			define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
	; GFX10-LABEL: sample_d_3d:			; GFX10-LABEL: sample_d_3d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v2			; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v10, v3			; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10-NEXT: v_mov_b32_e32 v11, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16			; GFX10-NEXT: v_mov_b32_e32 v3, v2
	; GFX10-NEXT: v_and_or_b32 v3, v9, v11, s12			; GFX10-NEXT: v_and_or_b32 v2, v0, v10, v1
	; GFX10-NEXT: v_and_or_b32 v2, v0, v11, v1			; GFX10-NEXT: v_and_or_b32 v4, v9, v10, v4
	; GFX10-NEXT: v_and_or_b32 v4, v10, v11, v4
	; GFX10-NEXT: v_and_or_b32 v5, v5, v11, s12
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_d_cl_1d:			; GFX10-LABEL: sample_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_d_cl_1d:			; GFX10-LABEL: sample_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 14 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_cd_1d:			; GFX10-LABEL: sample_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_1d:			; GFX10-LABEL: sample_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_1d:			; GFX10-LABEL: sample_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL %s
	; TODO: global-isel produces more code - there will need to be some more combines in the postregbankselectcombine phase			; TODO: global-isel produces more code - there will need to be some more combines in the postregbankselectcombine phase
	; Depends on some other changes to pass this test - those are in review separately			; Depends on some other changes to pass this test - those are in review separately

	define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_d_1d:			; GFX10-LABEL: sample_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_1d:			; GFX10GISEL-LABEL: sample_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v2, 0xffff, v2, s12
	; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 31 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16			; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_3d:			; GFX10GISEL-LABEL: sample_d_3d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16			; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_1d:			; GFX10GISEL-LABEL: sample_c_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v3, 0xffff, v3, s12
	; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_mov_b32_e32 v7, v1			; GFX10-NEXT: v_mov_b32_e32 v7, v1
	; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0
	; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_cl_2d:			; GFX10GISEL-LABEL: sample_d_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v4, v7, v5			; GFX10GISEL-NEXT: v_and_or_b32 v4, 0xffff, v4, v6
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v6, v7, s12
	; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 30 Lines
	; GFX10-NEXT: v_mov_b32_e32 v8, v1			; GFX10-NEXT: v_mov_b32_e32 v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0
	; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_cl_2d:			; GFX10GISEL-LABEL: sample_c_d_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v8, v6			; GFX10GISEL-NEXT: v_and_or_b32 v5, 0xffff, v5, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v7, v8, s12
	; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_cd_1d:			; GFX10-LABEL: sample_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_cd_1d:			; GFX10GISEL-LABEL: sample_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v2, 0xffff, v2, s12
	; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 22 Lines
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_cd_1d:			; GFX10GISEL-LABEL: sample_c_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v3, 0xffff, v3, s12
	; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_mov_b32_e32 v7, v1			; GFX10-NEXT: v_mov_b32_e32 v7, v1
	; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0
	; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_cd_cl_2d:			; GFX10GISEL-LABEL: sample_cd_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v4, v7, v5			; GFX10GISEL-NEXT: v_and_or_b32 v4, 0xffff, v4, v6
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v6, v7, s12
	; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 30 Lines
	; GFX10-NEXT: v_mov_b32_e32 v8, v1			; GFX10-NEXT: v_mov_b32_e32 v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0
	; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_cd_cl_2d:			; GFX10GISEL-LABEL: sample_c_cd_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v8, v6			; GFX10GISEL-NEXT: v_and_or_b32 v5, 0xffff, v5, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v7, v8, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 10 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:			; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret float %v			ret float %v
	}			}

	Show All 10 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:			; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <2 x float> %v			ret <2 x float> %v
	}			}

	Show All 23 Lines
	; GFX10-LABEL: sample_g16_noa16_d_1d:			; GFX10-LABEL: sample_g16_noa16_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 35 Lines
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v9			; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v9
	; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v2			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v3
	; GFX10GISEL-NEXT: v_mov_b32_e32 v10, v3			; GFX10GISEL-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10GISEL-NEXT: v_mov_b32_e32 v11, 0xffff
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v2
	; GFX10GISEL-NEXT: v_and_or_b32 v3, v9, v11, s12			; GFX10GISEL-NEXT: v_and_or_b32 v2, v0, v10, v1
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v0, v11, v1			; GFX10GISEL-NEXT: v_and_or_b32 v4, v9, v10, v4
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v10, v11, v4
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v11, s12
	; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_g16_noa16_c_d_1d:			; GFX10-LABEL: sample_g16_noa16_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_d_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_d_cl_1d:			; GFX10-LABEL: sample_g16_noa16_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_d_cl_1d:			; GFX10-LABEL: sample_g16_noa16_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 33 Lines
	; GFX10-LABEL: sample_g16_noa16_cd_1d:			; GFX10-LABEL: sample_g16_noa16_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_cd_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_cd_1d:			; GFX10-LABEL: sample_g16_noa16_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_cd_cl_1d:			; GFX10-LABEL: sample_g16_noa16_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_cd_cl_1d:			; GFX10-LABEL: sample_g16_noa16_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 129 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Code quality: don't expand G_BUILD_VECTOR_TRUNC if not neccessary
AcceptedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 410553

llvm/include/llvm/CodeGen/GlobalISel/MIPatternMatch.h

llvm/include/llvm/CodeGen/GlobalISel/Utils.h

llvm/lib/CodeGen/GlobalISel/Utils.cpp

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-ext-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Code quality: don't expand G_BUILD_VECTOR_TRUNC if not neccessaryAcceptedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 410553

llvm/include/llvm/CodeGen/GlobalISel/MIPatternMatch.h

llvm/include/llvm/CodeGen/GlobalISel/Utils.h

llvm/lib/CodeGen/GlobalISel/Utils.cpp

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-ext-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-or-and-shl.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

[AMDGPU][GlobalISel] Code quality: don't expand G_BUILD_VECTOR_TRUNC if not neccessary
AcceptedPublic