This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Try a lot harder to emit scalar loads
ClosedPublic

Authored by arsenm on Jun 6 2018, 6:16 AM.

Download Raw Diff

Details

Reviewers

rampitec
kzhuravl
cfang

Summary

This has two main components. First, widen
widen short constant loads in DAG when they have
the correct alignment. This is already done a bit in
AMDGPUCodeGenPrepare, since that has access to
DivergenceAnalysis. This can't help kernarg loads
created in the DAG. Start to use DAG divergence analysis
to help this case.

The second part is to avoid kernel argument lowering
breaking the alignment of short vector elements because
calling convention lowering wants to split everything
into legal register types.

When loading a split type, load the nearest 4-byte aligned
segment and shift to get the desired bits. This extra
load of the earlier argument piece ends up merging,
and the bit extract hopefully folds out.

There are a number of improvements and regressions with
this, but I think as-is this is a better compromise between
several of the worst parts of SelectionDAG.

Particularly when i16 is legal, this produces worse code
for i8 and i16 element vector kernel arguments. This is
partially due to the very weak load merging the DAG does.
It only looks for fairly specific combines between pairs
of loads which no longer appear. In particular this
causes v4i16 loads to be split into 2 components when
previously the two halves were merged.

Worse, because of the newly introduced shifts, there
is a lot more unnecessary vector packing and unpacking code
emitted. At least some of this is due to reporting
false for isTypeDesirableForOp for i16 as a workaround for
the lack of divergence information in the DAG. The cases
where this happens it doesn't actually matter, but the
relevant code in SimplifyDemandedBits doens't have the context
to know to ignore this.

The use of the scalar cache is probably more important
than the mess of mostly scalar instructions doing this packing
and unpacking. Future work can fix this, possibly by making better
use of the new DAG divergence information for controlling promotion
decisions, or adding another version of shift + trunc + shift
combines that doesn't only know about the used types.

Diff Detail

Event Timeline

arsenm created this revision.Jun 6 2018, 6:16 AM

Herald added subscribers: t-tye, tpr, dstuttard and 3 others. · View Herald TranscriptJun 6 2018, 6:16 AM

arsenm added a child revision: D47828: AMDGPU: Make v4i16/v4f16 legal.Jun 6 2018, 8:11 AM

rampitec added inline comments.Jun 6 2018, 11:27 AM

lib/Target/AMDGPU/SIISelLowering.cpp
1104	It can happen that offset diff is zero and then shift is not needed. Say you have kernarg layout: i32 a, i16 b, i16 c. For 'b' align will be 2, but offset will be 4.
5364	Why do not you want to get pointer, pointer info, AA and the rest from original load?

arsenm added inline comments.Jun 6 2018, 11:59 AM

lib/Target/AMDGPU/SIISelLowering.cpp
1104	getNode already avoids creating a shift if the passed offset is 0
5364	Question wording is broken. Everything remains the same, except the memory and possibly result type. I don't think the pointer info access size needs to increase, although I'm not 100% sure

rampitec added inline comments.Jun 6 2018, 12:05 PM

lib/Target/AMDGPU/SIISelLowering.cpp
1104	Ok, thanks.
5364	If later there will be some more info on an original load it will be lost here and it will need patching. IMO it is better to copy what is possible to copy.

arsenm added inline comments.Jun 6 2018, 2:47 PM

lib/Target/AMDGPU/SIISelLowering.cpp
5364	This is already copying everything?

rampitec added inline comments.Jun 6 2018, 2:58 PM

lib/Target/AMDGPU/SIISelLowering.cpp
5364	I would copy a pointer instead if creating a new undef. Ponter info, tbaa and range are probably cannot be just copied.

arsenm added inline comments.Jun 6 2018, 11:42 PM

lib/Target/AMDGPU/SIISelLowering.cpp
5364	Range needs to be adjusted or dropped, but tbaa and the rest of the pointer info should be fine. This isn't changing anything from an aliasing perspective and we don't actually use the high bits, so tbaa and the rest of the pointer info should be fine

Drop range metadata

LGTM. Thanks.

This revision is now accepted and ready to land.Jun 7 2018, 2:19 AM

r334180

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPUCodeGenPrepare.cpp

9 lines

SIISelLowering.h

2 lines

SIISelLowering.cpp

126 lines

test/

CodeGen/

AMDGPU/

and.ll

7 lines

ashr.v2i16.ll

19 lines

basic-branch.ll

17 lines

cf-loop-on-constant.ll

3 lines

extract_vector_elt-f16.ll

14 lines

extract_vector_elt-i16.ll

38 lines

extract_vector_elt-i8.ll

116 lines

48 lines

14 lines

16 lines

89 lines

74 lines

113 lines

210 lines

llvm.amdgcn.buffer.store.format.d16.ll

5 lines

llvm.amdgcn.class.f16.ll

41 lines

llvm.amdgcn.image.d16.ll

5 lines

llvm.amdgcn.tbuffer.store.d16.ll

5 lines

lshr.v2i16.ll

16 lines

min.ll

66 lines

reduce-store-width-alignment.ll

5 lines

28 lines

9 lines

21 lines

27 lines

169 lines

Diff 150259

lib/Target/AMDGPU/AMDGPUCodeGenPrepare.cpp

Show First 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
#include <iterator>		#include <iterator>

#define DEBUG_TYPE "amdgpu-codegenprepare"		#define DEBUG_TYPE "amdgpu-codegenprepare"

using namespace llvm;		using namespace llvm;

namespace {		namespace {

		static cl::opt<bool> WidenLoads(
		"amdgpu-codegenprepare-widen-constant-loads",
		cl::desc("Widen sub-dword constant address space loads in AMDGPUCodeGenPrepare"),
		cl::ReallyHidden,
		cl::init(true));

class AMDGPUCodeGenPrepare : public FunctionPass,		class AMDGPUCodeGenPrepare : public FunctionPass,
public InstVisitor<AMDGPUCodeGenPrepare, bool> {		public InstVisitor<AMDGPUCodeGenPrepare, bool> {
const SISubtarget *ST = nullptr;		const SISubtarget *ST = nullptr;
DivergenceAnalysis *DA = nullptr;		DivergenceAnalysis *DA = nullptr;
Module *Mod = nullptr;		Module *Mod = nullptr;
bool HasUnsafeFPMath = false;		bool HasUnsafeFPMath = false;
AMDGPUAS AMDGPUASI;		AMDGPUAS AMDGPUASI;

▲ Show 20 Lines • Show All 408 Lines • ▼ Show 20 Lines	bool AMDGPUCodeGenPrepare::visitBinaryOperator(BinaryOperator &I) {
if (ST->has16BitInsts() && needsPromotionToI32(I.getType()) &&		if (ST->has16BitInsts() && needsPromotionToI32(I.getType()) &&
DA->isUniform(&I))		DA->isUniform(&I))
Changed \|= promoteUniformOpToI32(I);		Changed \|= promoteUniformOpToI32(I);

return Changed;		return Changed;
}		}

bool AMDGPUCodeGenPrepare::visitLoadInst(LoadInst &I) {		bool AMDGPUCodeGenPrepare::visitLoadInst(LoadInst &I) {
		if (!WidenLoads)
		return false;

if ((I.getPointerAddressSpace() == AMDGPUASI.CONSTANT_ADDRESS \|\|		if ((I.getPointerAddressSpace() == AMDGPUASI.CONSTANT_ADDRESS \|\|
I.getPointerAddressSpace() == AMDGPUASI.CONSTANT_ADDRESS_32BIT) &&		I.getPointerAddressSpace() == AMDGPUASI.CONSTANT_ADDRESS_32BIT) &&
canWidenScalarExtLoad(I)) {		canWidenScalarExtLoad(I)) {
IRBuilder<> Builder(&I);		IRBuilder<> Builder(&I);
Builder.SetCurrentDebugLocation(I.getDebugLoc());		Builder.SetCurrentDebugLocation(I.getDebugLoc());

Type *I32Ty = Builder.getInt32Ty();		Type *I32Ty = Builder.getInt32Ty();
Type *PT = PointerType::get(I32Ty, I.getPointerAddressSpace());		Type *PT = PointerType::get(I32Ty, I.getPointerAddressSpace());
▲ Show 20 Lines • Show All 117 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.h

Show All 40 Lines	class SITargetLowering final : public AMDGPUTargetLowering {
SDValue LowerGlobalAddress(AMDGPUMachineFunction *MFI, SDValue Op,		SDValue LowerGlobalAddress(AMDGPUMachineFunction *MFI, SDValue Op,
SelectionDAG &DAG) const override;		SelectionDAG &DAG) const override;
SDValue lowerImplicitZextParam(SelectionDAG &DAG, SDValue Op,		SDValue lowerImplicitZextParam(SelectionDAG &DAG, SDValue Op,
MVT VT, unsigned Offset) const;		MVT VT, unsigned Offset) const;

SDValue LowerINTRINSIC_WO_CHAIN(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_WO_CHAIN(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINTRINSIC_W_CHAIN(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_W_CHAIN(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINTRINSIC_VOID(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_VOID(SDValue Op, SelectionDAG &DAG) const;

		SDValue widenLoad(LoadSDNode *Ld, DAGCombinerInfo &DCI) const;
SDValue LowerLOAD(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerLOAD(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerSELECT(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSELECT(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerFastUnsafeFDIV(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerFastUnsafeFDIV(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerFDIV_FAST(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerFDIV_FAST(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV16(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV16(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV32(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV32(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV64(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV64(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV(SDValue Op, SelectionDAG &DAG) const;
▲ Show 20 Lines • Show All 246 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,075 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::lowerKernargMemParameter(
SelectionDAG &DAG, EVT VT, EVT MemVT,		SelectionDAG &DAG, EVT VT, EVT MemVT,
const SDLoc &SL, SDValue Chain,		const SDLoc &SL, SDValue Chain,
uint64_t Offset, unsigned Align, bool Signed,		uint64_t Offset, unsigned Align, bool Signed,
const ISD::InputArg *Arg) const {		const ISD::InputArg *Arg) const {
Type Ty = MemVT.getTypeForEVT(DAG.getContext());		Type Ty = MemVT.getTypeForEVT(DAG.getContext());
PointerType *PtrTy = PointerType::get(Ty, AMDGPUASI.CONSTANT_ADDRESS);		PointerType *PtrTy = PointerType::get(Ty, AMDGPUASI.CONSTANT_ADDRESS);
MachinePointerInfo PtrInfo(UndefValue::get(PtrTy));		MachinePointerInfo PtrInfo(UndefValue::get(PtrTy));


		// Try to avoid using an extload by loading earlier than the argument address,
		// and extracting the relevant bits. The load should hopefully be merged with
		// the previous argument.
		if (Align < 4) {
		//if (MemVT.getStoreSize() < 4) {
		assert(MemVT.getStoreSize() < 4);
		int64_t AlignDownOffset = alignDown(Offset, 4);
		int64_t OffsetDiff = Offset - AlignDownOffset;

		EVT IntVT = MemVT.changeTypeToInteger();

		// TODO: If we passed in the base kernel offset we could have a better
		// alignment than 4, but we don't really need it.
		SDValue Ptr = lowerKernArgParameterPtr(DAG, SL, Chain, AlignDownOffset);
		SDValue Load = DAG.getLoad(MVT::i32, SL, Chain, Ptr, PtrInfo, 4,
		MachineMemOperand::MODereferenceable \|
		MachineMemOperand::MOInvariant);

		SDValue ShiftAmt = DAG.getConstant(OffsetDiff * 8, SL, MVT::i32);
		SDValue Extract = DAG.getNode(ISD::SRL, SL, MVT::i32, Load, ShiftAmt);
		rampitecUnsubmitted Not Done Reply Inline Actions It can happen that offset diff is zero and then shift is not needed. Say you have kernarg layout: i32 a, i16 b, i16 c. For 'b' align will be 2, but offset will be 4. rampitec: It can happen that offset diff is zero and then shift is not needed. Say you have kernarg…
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions getNode already avoids creating a shift if the passed offset is 0 arsenm: getNode already avoids creating a shift if the passed offset is 0
		rampitecUnsubmitted Not Done Reply Inline Actions Ok, thanks. rampitec: Ok, thanks.

		SDValue ArgVal = DAG.getNode(ISD::TRUNCATE, SL, IntVT, Extract);
		ArgVal = DAG.getNode(ISD::BITCAST, SL, MemVT, ArgVal);
		ArgVal = convertArgType(DAG, VT, MemVT, SL, ArgVal, Signed, Arg);


		return DAG.getMergeValues({ ArgVal, Load.getValue(1) }, SL);
		}

SDValue Ptr = lowerKernArgParameterPtr(DAG, SL, Chain, Offset);		SDValue Ptr = lowerKernArgParameterPtr(DAG, SL, Chain, Offset);
SDValue Load = DAG.getLoad(MemVT, SL, Chain, Ptr, PtrInfo, Align,		SDValue Load = DAG.getLoad(MemVT, SL, Chain, Ptr, PtrInfo, Align,
MachineMemOperand::MODereferenceable \|		MachineMemOperand::MODereferenceable \|
MachineMemOperand::MOInvariant);		MachineMemOperand::MOInvariant);

SDValue Val = convertArgType(DAG, VT, MemVT, SL, Load, Signed, Arg);		SDValue Val = convertArgType(DAG, VT, MemVT, SL, Load, Signed, Arg);
return DAG.getMergeValues({ Val, Load.getValue(1) }, SL);		return DAG.getMergeValues({ Val, Load.getValue(1) }, SL);
}		}
▲ Show 20 Lines • Show All 4,186 Lines • ▼ Show 20 Lines	if (D16ImageDimIntr) {
}		}
}		}

return Op;		return Op;
}		}
}		}
}		}

		static SDValue getLoadExtOrTrunc(SelectionDAG &DAG,
		ISD::LoadExtType ExtType, SDValue Op,
		const SDLoc &SL, EVT VT) {
		if (VT.bitsLT(Op.getValueType()))
		return DAG.getNode(ISD::TRUNCATE, SL, VT, Op);

		switch (ExtType) {
		case ISD::SEXTLOAD:
		return DAG.getNode(ISD::SIGN_EXTEND, SL, VT, Op);
		case ISD::ZEXTLOAD:
		return DAG.getNode(ISD::ZERO_EXTEND, SL, VT, Op);
		case ISD::EXTLOAD:
		return DAG.getNode(ISD::ANY_EXTEND, SL, VT, Op);
		case ISD::NON_EXTLOAD:
		return Op;
		}

		llvm_unreachable("invalid ext type");
		}

		SDValue SITargetLowering::widenLoad(LoadSDNode *Ld, DAGCombinerInfo &DCI) const {
		SelectionDAG &DAG = DCI.DAG;
		if (Ld->getAlignment() < 4 \|\| Ld->isDivergent())
		return SDValue();

		// FIXME: Constant loads should all be marked invariant.
		unsigned AS = Ld->getAddressSpace();
		if (AS != AMDGPUASI.CONSTANT_ADDRESS &&
		AS != AMDGPUASI.CONSTANT_ADDRESS_32BIT &&
		(AS != AMDGPUAS::GLOBAL_ADDRESS \|\| !Ld->isInvariant()))
		return SDValue();

		// Don't do this early, since it may interfere with adjacent load merging for
		// illegal types. We can avoid losing alignment information for exotic types
		// pre-legalize.
		EVT MemVT = Ld->getMemoryVT();
		if ((MemVT.isSimple() && !DCI.isAfterLegalizeDAG()) \|\|
		MemVT.getSizeInBits() >= 32)
		return SDValue();

		SDLoc SL(Ld);

		assert((!MemVT.isVector() \|\| Ld->getExtensionType() == ISD::NON_EXTLOAD) &&
		"unexpected vector extload");

		// TODO: Drop only high part of range.
		SDValue Ptr = Ld->getBasePtr();
		SDValue NewLoad = DAG.getLoad(ISD::UNINDEXED, ISD::NON_EXTLOAD,
		MVT::i32, SL, Ld->getChain(), Ptr,
		rampitecUnsubmitted Not Done Reply Inline Actions Why do not you want to get pointer, pointer info, AA and the rest from original load? rampitec: Why do not you want to get pointer, pointer info, AA and the rest from original load?
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions Question wording is broken. Everything remains the same, except the memory and possibly result type. I don't think the pointer info access size needs to increase, although I'm not 100% sure arsenm: Question wording is broken. Everything remains the same, except the memory and possibly result…
		rampitecUnsubmitted Not Done Reply Inline Actions If later there will be some more info on an original load it will be lost here and it will need patching. IMO it is better to copy what is possible to copy. rampitec: If later there will be some more info on an original load it will be lost here and it will need…
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions This is already copying everything? arsenm: This is already copying everything?
		rampitecUnsubmitted Not Done Reply Inline Actions I would copy a pointer instead if creating a new undef. Ponter info, tbaa and range are probably cannot be just copied. rampitec: I would copy a pointer instead if creating a new undef. Ponter info, tbaa and range are…
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions Range needs to be adjusted or dropped, but tbaa and the rest of the pointer info should be fine. This isn't changing anything from an aliasing perspective and we don't actually use the high bits, so tbaa and the rest of the pointer info should be fine arsenm: Range needs to be adjusted or dropped, but tbaa and the rest of the pointer info should be fine.
		Ld->getOffset(),
		Ld->getPointerInfo(), MVT::i32,
		Ld->getAlignment(),
		Ld->getMemOperand()->getFlags(),
		Ld->getAAInfo(),
		nullptr); // Drop ranges

		EVT TruncVT = EVT::getIntegerVT(*DAG.getContext(), MemVT.getSizeInBits());
		if (MemVT.isFloatingPoint()) {
		assert(Ld->getExtensionType() == ISD::NON_EXTLOAD &&
		"unexpected fp extload");
		TruncVT = MemVT.changeTypeToInteger();
		}

		SDValue Cvt = NewLoad;
		if (Ld->getExtensionType() == ISD::SEXTLOAD) {
		Cvt = DAG.getNode(ISD::SIGN_EXTEND_INREG, SL, MVT::i32, NewLoad,
		DAG.getValueType(TruncVT));
		} else if (Ld->getExtensionType() == ISD::ZEXTLOAD \|\|
		Ld->getExtensionType() == ISD::NON_EXTLOAD) {
		Cvt = DAG.getZeroExtendInReg(NewLoad, SL, TruncVT);
		} else {
		assert(Ld->getExtensionType() == ISD::EXTLOAD);
		}

		EVT VT = Ld->getValueType(0);
		EVT IntVT = EVT::getIntegerVT(*DAG.getContext(), VT.getSizeInBits());

		DCI.AddToWorklist(Cvt.getNode());

		// We may need to handle exotic cases, such as i16->i64 extloads, so insert
		// the appropriate extension from the 32-bit load.
		Cvt = getLoadExtOrTrunc(DAG, Ld->getExtensionType(), Cvt, SL, IntVT);
		DCI.AddToWorklist(Cvt.getNode());

		// Handle conversion back to floating point if necessary.
		Cvt = DAG.getNode(ISD::BITCAST, SL, VT, Cvt);

		return DAG.getMergeValues({ Cvt, NewLoad.getValue(1) }, SL);
		}

SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
SDLoc DL(Op);		SDLoc DL(Op);
LoadSDNode *Load = cast<LoadSDNode>(Op);		LoadSDNode *Load = cast<LoadSDNode>(Op);
ISD::LoadExtType ExtType = Load->getExtensionType();		ISD::LoadExtType ExtType = Load->getExtensionType();
EVT MemVT = Load->getMemoryVT();		EVT MemVT = Load->getMemoryVT();

if (ExtType == ISD::NON_EXTLOAD && MemVT.getSizeInBits() < 32) {		if (ExtType == ISD::NON_EXTLOAD && MemVT.getSizeInBits() < 32) {
if (MemVT == MVT::i16 && isTypeLegal(MVT::i16))		if (MemVT == MVT::i16 && isTypeLegal(MVT::i16))
▲ Show 20 Lines • Show All 1,884 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::PerformDAGCombine(SDNode *N,
case ISD::UMIN:		case ISD::UMIN:
case AMDGPUISD::FMIN_LEGACY:		case AMDGPUISD::FMIN_LEGACY:
case AMDGPUISD::FMAX_LEGACY: {		case AMDGPUISD::FMAX_LEGACY: {
if (DCI.getDAGCombineLevel() >= AfterLegalizeDAG &&		if (DCI.getDAGCombineLevel() >= AfterLegalizeDAG &&
getTargetMachine().getOptLevel() > CodeGenOpt::None)		getTargetMachine().getOptLevel() > CodeGenOpt::None)
return performMinMaxCombine(N, DCI);		return performMinMaxCombine(N, DCI);
break;		break;
}		}
case ISD::LOAD:		case ISD::LOAD: {
		if (SDValue Widended = widenLoad(cast<LoadSDNode>(N), DCI))
		return Widended;
		LLVM_FALLTHROUGH;
		}
case ISD::STORE:		case ISD::STORE:
case ISD::ATOMIC_LOAD:		case ISD::ATOMIC_LOAD:
case ISD::ATOMIC_STORE:		case ISD::ATOMIC_STORE:
case ISD::ATOMIC_CMP_SWAP:		case ISD::ATOMIC_CMP_SWAP:
case ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS:		case ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS:
case ISD::ATOMIC_SWAP:		case ISD::ATOMIC_SWAP:
case ISD::ATOMIC_LOAD_ADD:		case ISD::ATOMIC_LOAD_ADD:
case ISD::ATOMIC_LOAD_SUB:		case ISD::ATOMIC_LOAD_SUB:
▲ Show 20 Lines • Show All 598 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/and.ll

	Show First 20 Lines • Show All 172 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @s_and_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {			define amdgpu_kernel void @s_and_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {
	%and = and i64 %a, %b			%and = and i64 %a, %b
	store i64 %and, i64 addrspace(1)* %out, align 8			store i64 %and, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FIXME: Should use SGPRs			; FIXME: Should use SGPRs
	; FUNC-LABEL: {{^}}s_and_i1:			; FUNC-LABEL: {{^}}s_and_i1:
	; SI: v_and_b32			; SI: s_load_dword [[LOAD:s[0-9]+]]
				; SI: s_lshr_b32 [[B_SHIFT:s[0-9]+]], [[LOAD]], 8
				; SI: s_and_b32 [[AND:s[0-9]+]], [[LOAD]], [[B_SHIFT]]
				; SI: s_and_b32 [[AND_TRUNC:s[0-9]+]], [[AND]], 1{{$}}
				; SI: v_mov_b32_e32 [[V_AND_TRUNC:v[0-9]+]], [[AND_TRUNC]]
				; SI: buffer_store_byte [[V_AND_TRUNC]]
	define amdgpu_kernel void @s_and_i1(i1 addrspace(1)* %out, i1 %a, i1 %b) {			define amdgpu_kernel void @s_and_i1(i1 addrspace(1)* %out, i1 %a, i1 %b) {
	%and = and i1 %a, %b			%and = and i1 %a, %b
	store i1 %and, i1 addrspace(1)* %out			store i1 %and, i1 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}s_and_constant_i64:			; FUNC-LABEL: {{^}}s_and_constant_i64:
	; SI-DAG: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80000{{$}}			; SI-DAG: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80000{{$}}
	▲ Show 20 Lines • Show All 382 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/ashr.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s

				; FIXME: Should be same on CI/VI
	; GCN-LABEL: {{^}}s_ashr_v2i16:			; GCN-LABEL: {{^}}s_ashr_v2i16:
	; GFX9: s_load_dword [[LHS:s[0-9]+]]			; GFX9: s_load_dword [[LHS:s[0-9]+]]
	; GFX9: s_load_dword [[RHS:s[0-9]+]]			; GFX9: s_load_dword [[RHS:s[0-9]+]]
	; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]			; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]
	; GFX9: v_pk_ashrrev_i16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]			; GFX9: v_pk_ashrrev_i16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]

	; VI: s_load_dword [[LHS:s[0-9]+]]			; CIVI: s_load_dword [[LHS:s[0-9]+]]
	; VI: s_load_dword [[RHS:s[0-9]+]]			; CIVI: s_load_dword [[RHS:s[0-9]+]]

	; VI: s_ashr_i32			; VI: s_ashr_i32
	; VI: s_ashr_i32			; VI: s_ashr_i32
	; VI: s_sext_i32_i16			; VI: s_sext_i32_i16
	; VI: s_sext_i32_i16			; VI: s_sext_i32_i16
	; VI: s_ashr_i32			; VI: s_ashr_i32
	; VI: s_ashr_i32			; VI: s_ashr_i32
	; VI: s_lshl_b32			; VI: s_lshl_b32
	; VI: s_and_b32			; VI: s_and_b32
	; VI: s_or_b32			; VI: s_or_b32

	; CI-DAG: v_ashrrev_i32_e32			; CI: s_ashr_i32
	; CI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}			; CI: s_and_b32
	; CI-DAG: v_ashrrev_i32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: s_lshr_b32
	; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; CI: s_sext_i32_i16
	; CI: v_or_b32_e32			; CI: s_ashr_i32
				; CI: s_ashr_i32
				; CI: s_lshl_b32
				; CI: s_and_b32
	define amdgpu_kernel void @s_ashr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {			define amdgpu_kernel void @s_ashr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {
	%result = ashr <2 x i16> %lhs, %rhs			%result = ashr <2 x i16> %lhs, %rhs
	store <2 x i16> %result, <2 x i16> addrspace(1)* %out			store <2 x i16> %result, <2 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_ashr_v2i16:			; GCN-LABEL: {{^}}v_ashr_v2i16:
	; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]			; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]
	▲ Show 20 Lines • Show All 135 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/basic-branch.ll

; RUN: llc -O0 -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCNNOOPT -check-prefix=GCN %s		; RUN: llc -O0 -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCNNOOPT -check-prefix=GCN %s
; RUN: llc -O0 -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -amdgpu-spill-sgpr-to-smem=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCNNOOPT -check-prefix=GCN %s		; RUN: llc -O0 -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -amdgpu-spill-sgpr-to-smem=0 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCNNOOPT -check-prefix=GCN %s
; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCNOPT -check-prefix=GCN %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCNOPT -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCNOPT -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCNOPT -check-prefix=GCN %s

; GCN-LABEL: {{^}}test_branch:		; GCN-LABEL: {{^}}test_branch:
; GCNNOOPT: v_writelane_b32		; GCNNOOPT: v_writelane_b32
; GCNNOOPT: v_writelane_b32		; GCNNOOPT: v_writelane_b32
; GCN: s_cbranch_scc1 [[END:BB[0-9]+_[0-9]+]]		; GCN: s_cbranch_scc1 [[END:BB[0-9]+_[0-9]+]]

; GCNNOOPT: v_readlane_b32		; GCNNOOPT: v_readlane_b32
; GCNNOOPT: v_readlane_b32		; GCNNOOPT: v_readlane_b32
Show All 10 Lines	store:
store i32 222, i32 addrspace(1)* %out		store i32 222, i32 addrspace(1)* %out
ret void		ret void

end:		end:
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_brcc_i1:		; GCN-LABEL: {{^}}test_brcc_i1:
; GCN: buffer_load_ubyte		; GCN: s_load_dword [[VAL:s[0-9]+]]
; GCN: v_and_b32_e32 v{{[0-9]+}}, 1,		; GCNNOOPT: s_and_b32 s{{[0-9]+}}, 1, [[VAL]]
; GCN: v_cmp_eq_u32_e32 vcc,		; GCNOPT: s_and_b32 s{{[0-9]+}}, [[VAL]], 1
; GCN: s_cbranch_vccnz [[END:BB[0-9]+_[0-9]+]]		; GCN: s_cmp_eq_u32
		; GCN: s_cbranch_scc1 [[END:BB[0-9]+_[0-9]+]]

; GCN: buffer_store_dword		; GCN: buffer_store_dword

; GCN: {{^}}[[END]]:		; GCN: {{^}}[[END]]:
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @test_brcc_i1(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in, i1 %val) #0 {		define amdgpu_kernel void @test_brcc_i1(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in, i1 %val) #0 {
%cmp0 = icmp ne i1 %val, 0		%cmp0 = icmp ne i1 %val, 0
br i1 %cmp0, label %store, label %end		br i1 %cmp0, label %store, label %end
Show All 10 Lines

test/CodeGen/AMDGPU/cf-loop-on-constant.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines

	; GCN: [[LOOPBB:BB[0-9]+_[0-9]+]]			; GCN: [[LOOPBB:BB[0-9]+_[0-9]+]]
	; GCN: s_add_i32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80			; GCN: s_add_i32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80
	; GCN: s_add_i32 s{{[0-9]+}}, s{{[0-9]+}}, 4			; GCN: s_add_i32 s{{[0-9]+}}, s{{[0-9]+}}, 4

	; GCN: s_cbranch_vccnz [[LOOPBB]]			; GCN: s_cbranch_vccnz [[LOOPBB]]
	; GCN-NEXT: ; %bb.2			; GCN-NEXT: ; %bb.2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	define amdgpu_kernel void @loop_arg_0(float addrspace(3)* %ptr, i32 %n, i1 %cond) nounwind {			define amdgpu_kernel void @loop_arg_0(float addrspace(3)* %ptr, i32 %n) nounwind {
	entry:			entry:
				%cond = load volatile i1, i1 addrspace(3)* null
	br label %for.body			br label %for.body

	for.exit:			for.exit:
	ret void			ret void

	for.body:			for.body:
	%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]			%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]
	%tmp = add i32 %indvar, 32			%tmp = add i32 %indvar, 32
	%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp			%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp
	%vecload = load float, float addrspace(3)* %arrayidx, align 4			%vecload = load float, float addrspace(3)* %arrayidx, align 4
	%add = fadd float %vecload, 1.0			%add = fadd float %vecload, 1.0
	store float %add, float addrspace(3)* %arrayidx, align 8			store float %add, float addrspace(3)* %arrayidx, align 8
	%inc = add i32 %indvar, 1			%inc = add i32 %indvar, 1
	br i1 %cond, label %for.body, label %for.exit			br i1 %cond, label %for.body, label %for.exit
	}			}

test/CodeGen/AMDGPU/extract_vector_elt-f16.ll

Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @extract_vector_elt_v2f16_dynamic_vgpr(half addrspace(1)* %out, <2 x half> addrspace(4)* %vec.ptr, i32 addrspace(1)* %idx.ptr) #0 {
%vec = load <2 x half>, <2 x half> addrspace(4)* %vec.ptr		%vec = load <2 x half>, <2 x half> addrspace(4)* %vec.ptr
%idx = load i32, i32 addrspace(1)* %gep		%idx = load i32, i32 addrspace(1)* %gep
%elt = extractelement <2 x half> %vec, i32 %idx		%elt = extractelement <2 x half> %vec, i32 %idx
store half %elt, half addrspace(1)* %out.gep, align 2		store half %elt, half addrspace(1)* %out.gep, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}extract_vector_elt_v3f16:		; GCN-LABEL: {{^}}extract_vector_elt_v3f16:
; GCN: buffer_load_ushort		; GCN: s_load_dword s
; GCN: buffer_store_short		; GCN: s_load_dword s
; GCN: buffer_store_short
define amdgpu_kernel void @extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo) #0 {		define amdgpu_kernel void @extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo) #0 {
%p0 = extractelement <3 x half> %foo, i32 0		%p0 = extractelement <3 x half> %foo, i32 0
%p1 = extractelement <3 x half> %foo, i32 2		%p1 = extractelement <3 x half> %foo, i32 2
%out1 = getelementptr half, half addrspace(1)* %out, i32 1		%out1 = getelementptr half, half addrspace(1)* %out, i32 1
store half %p1, half addrspace(1)* %out, align 2		store half %p1, half addrspace(1)* %out, align 2
store half %p0, half addrspace(1)* %out1, align 2		store half %p0, half addrspace(1)* %out1, align 2
ret void		ret void
}		}

		; FIXME: Why sometimes vector shift?
; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3f16:		; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3f16:
; SICIVI: buffer_load_ushort		; GCN: s_load_dword s
; SICIVI: buffer_load_ushort		; GCN: s_load_dword s
; SICIVI: buffer_load_ushort		; GCN: s_load_dword s

; GFX9-DAG: global_load_short_d16_hi v		; GFX9-DAG: global_load_short_d16_hi v
; GFX9-DAG: global_load_short_d16 v		; GFX9-DAG: global_load_short_d16 v

; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4		; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4
; GFX89: v_lshrrev_b64 v{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}, v		; GFX89: v_lshrrev_b64 v{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}, v

; SI: v_lshr_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}		; SI: s_lshr_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}

; GCN: {{buffer\|global}}_store_short		; GCN: {{buffer\|global}}_store_short
define amdgpu_kernel void @dynamic_extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo, i32 %idx) #0 {		define amdgpu_kernel void @dynamic_extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo, i32 %idx) #0 {
%p0 = extractelement <3 x half> %foo, i32 %idx		%p0 = extractelement <3 x half> %foo, i32 %idx
%out1 = getelementptr half, half addrspace(1)* %out, i32 1		%out1 = getelementptr half, half addrspace(1)* %out, i32 1
store half %p0, half addrspace(1)* %out		store half %p0, half addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/extract_vector_elt-i16.ll

; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,SICIVI %s		; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,SIVI %s
; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,SICIVI,GFX89 %s		; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,SIVI,GFX89 %s
; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s		; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s

; GCN-LABEL: {{^}}extract_vector_elt_v2i16:		; GCN-LABEL: {{^}}extract_vector_elt_v2i16:
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN: s_load_dword [[VEC:s[0-9]+]]
; GCN: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], 16		; GCN: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], 16
; GCN-DAG: v_mov_b32_e32 [[VELT0:v[0-9]+]], [[VEC]]		; GCN-DAG: v_mov_b32_e32 [[VELT0:v[0-9]+]], [[VEC]]
; GCN-DAG: v_mov_b32_e32 [[VELT1:v[0-9]+]], [[ELT1]]		; GCN-DAG: v_mov_b32_e32 [[VELT1:v[0-9]+]], [[ELT1]]
; GCN-DAG: buffer_store_short [[VELT0]]		; GCN-DAG: buffer_store_short [[VELT0]]
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @extract_vector_elt_v2i16_dynamic_vgpr(i16 addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 addrspace(1)* %idx.ptr) #0 {
%idx = load volatile i32, i32 addrspace(1)* %gep		%idx = load volatile i32, i32 addrspace(1)* %gep
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt = extractelement <2 x i16> %vec, i32 %idx		%elt = extractelement <2 x i16> %vec, i32 %idx
store i16 %elt, i16 addrspace(1)* %out.gep, align 2		store i16 %elt, i16 addrspace(1)* %out.gep, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}extract_vector_elt_v3i16:		; GCN-LABEL: {{^}}extract_vector_elt_v3i16:
; GCN: buffer_load_ushort		; GCN: s_load_dword s
		; GCN: s_load_dword s
; GCN: buffer_store_short		; GCN: buffer_store_short
; GCN: buffer_store_short		; GCN: buffer_store_short
define amdgpu_kernel void @extract_vector_elt_v3i16(i16 addrspace(1)* %out, <3 x i16> %foo) #0 {		define amdgpu_kernel void @extract_vector_elt_v3i16(i16 addrspace(1)* %out, <3 x i16> %foo) #0 {
%p0 = extractelement <3 x i16> %foo, i32 0		%p0 = extractelement <3 x i16> %foo, i32 0
%p1 = extractelement <3 x i16> %foo, i32 2		%p1 = extractelement <3 x i16> %foo, i32 2
%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1		%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1
store i16 %p1, i16 addrspace(1)* %out, align 2		store i16 %p1, i16 addrspace(1)* %out, align 2
store i16 %p0, i16 addrspace(1)* %out1, align 2		store i16 %p0, i16 addrspace(1)* %out1, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}extract_vector_elt_v4i16:		; GCN-LABEL: {{^}}extract_vector_elt_v4i16:
; SICI: buffer_load_ushort		; SI: s_load_dword s
; SICI: buffer_load_ushort		; SI: s_load_dword s
; SICI: buffer_store_short		; SI: buffer_store_short
; SICI: buffer_store_short		; SI: buffer_store_short

; VI: s_load_dword s		; VI: s_load_dword s
; VI: s_load_dword s		; VI: s_load_dword s
; VI: buffer_store_short		; VI: buffer_store_short
; VI: buffer_store_short		; VI: buffer_store_short

; GFX9-DAG: s_load_dword [[LOAD0:s[0-9]+]], s[0:1], 0x2c		; GFX9-DAG: s_load_dword [[LOAD0:s[0-9]+]], s[0:1], 0x2c
; GFX9-DAG: s_load_dword [[LOAD1:s[0-9]+]], s[0:1], 0x30		; GFX9-DAG: s_load_dword [[LOAD1:s[0-9]+]], s[0:1], 0x30
; GFX9-DAG: v_mov_b32_e32 [[VLOAD0:v[0-9]+]], [[LOAD0]]		; GFX9-DAG: v_mov_b32_e32 [[VLOAD0:v[0-9]+]], [[LOAD0]]
; GFX9-DAG: buffer_store_short [[VLOAD0]], off		; GFX9-DAG: buffer_store_short [[VLOAD0]], off
; GFX9-DAG: v_mov_b32_e32 [[VLOAD1:v[0-9]+]], [[LOAD1]]		; GFX9-DAG: v_mov_b32_e32 [[VLOAD1:v[0-9]+]], [[LOAD1]]
; GFX9-DAG: buffer_store_short [[VLOAD1]], off		; GFX9-DAG: buffer_store_short [[VLOAD1]], off
define amdgpu_kernel void @extract_vector_elt_v4i16(i16 addrspace(1)* %out, <4 x i16> %foo) #0 {		define amdgpu_kernel void @extract_vector_elt_v4i16(i16 addrspace(1)* %out, <4 x i16> %foo) #0 {
%p0 = extractelement <4 x i16> %foo, i32 0		%p0 = extractelement <4 x i16> %foo, i32 0
%p1 = extractelement <4 x i16> %foo, i32 2		%p1 = extractelement <4 x i16> %foo, i32 2
%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 10		%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 10
store volatile i16 %p1, i16 addrspace(1)* %out, align 2		store volatile i16 %p1, i16 addrspace(1)* %out, align 2
store volatile i16 %p0, i16 addrspace(1)* %out1, align 2		store volatile i16 %p0, i16 addrspace(1)* %out1, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i16:		; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i16:
; SICI: buffer_load_ushort		; GCN: s_load_dword s
; SICI: buffer_load_ushort		; GCN: s_load_dword s
; SICI: buffer_load_ushort		; GCN: s_load_dword s
		; GCN-NOT: {{buffer\|flat\|global}}
; SICI: buffer_store_short
; SICI: buffer_store_short		; FIXME: Unnecessary repacking
; SICI: buffer_store_short		; GFX9: s_pack_ll_b32_b16
		; GFX9: s_pack_lh_b32_b16
; SICI: buffer_load_ushort
; SICI: buffer_store_short

; GFX9-DAG: global_load_short_d16_hi v
; GFX9-DAG: global_load_short_d16 v

; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4		; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4
; GFX89: v_lshrrev_b64 v{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}, v

; SI: v_lshr_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}
		; GCN: s_lshr_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s

; GCN: {{buffer\|global}}_store_short		; GCN: {{buffer\|global}}_store_short
define amdgpu_kernel void @dynamic_extract_vector_elt_v3i16(i16 addrspace(1)* %out, <3 x i16> %foo, i32 %idx) #0 {		define amdgpu_kernel void @dynamic_extract_vector_elt_v3i16(i16 addrspace(1)* %out, <3 x i16> %foo, i32 %idx) #0 {
%p0 = extractelement <3 x i16> %foo, i32 %idx		%p0 = extractelement <3 x i16> %foo, i32 %idx
%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1		%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1
store i16 %p0, i16 addrspace(1)* %out		store i16 %p0, i16 addrspace(1)* %out
ret void		ret void
}		}
Show All 17 Lines

test/CodeGen/AMDGPU/extract_vector_elt-i8.ll

	; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s			; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s			; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s

	; GCN-LABEL: {{^}}extract_vector_elt_v1i8:			; GCN-LABEL: {{^}}extract_vector_elt_v1i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword [[LOAD:s[0-9]+]]
	; GCN: buffer_store_byte			; GCN: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]
				; GCN: buffer_store_byte [[V_LOAD]]
	define amdgpu_kernel void @extract_vector_elt_v1i8(i8 addrspace(1)* %out, <1 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v1i8(i8 addrspace(1)* %out, <1 x i8> %foo) #0 {
	%p0 = extractelement <1 x i8> %foo, i32 0			%p0 = extractelement <1 x i8> %foo, i32 0
	store i8 %p0, i8 addrspace(1)* %out			store i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v2i8:			; GCN-LABEL: {{^}}extract_vector_elt_v2i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN-NOT: {{flat\|buffer\|global}}
				; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 8
				; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v2i8(i8 addrspace(1)* %out, <2 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v2i8(i8 addrspace(1)* %out, <2 x i8> %foo) #0 {
	%p0 = extractelement <2 x i8> %foo, i32 0			%p0 = extractelement <2 x i8> %foo, i32 0
	%p1 = extractelement <2 x i8> %foo, i32 1			%p1 = extractelement <2 x i8> %foo, i32 1
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v3i8:			; GCN-LABEL: {{^}}extract_vector_elt_v3i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN-NOT: {{flat\|buffer\|global}}
				; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
				; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v3i8(i8 addrspace(1)* %out, <3 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v3i8(i8 addrspace(1)* %out, <3 x i8> %foo) #0 {
	%p0 = extractelement <3 x i8> %foo, i32 0			%p0 = extractelement <3 x i8> %foo, i32 0
	%p1 = extractelement <3 x i8> %foo, i32 2			%p1 = extractelement <3 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v4i8:			; GCN-LABEL: {{^}}extract_vector_elt_v4i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN-NOT: {{flat\|buffer\|global}}
				; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
				; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> %foo) #0 {
	%p0 = extractelement <4 x i8> %foo, i32 0			%p0 = extractelement <4 x i8> %foo, i32 0
	%p1 = extractelement <4 x i8> %foo, i32 2			%p1 = extractelement <4 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v8i8:			; GCN-LABEL: {{^}}extract_vector_elt_v8i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword [[VAL:s[0-9]+]]
	; GCN: buffer_load_ubyte			; GCN-NOT: {{flat\|buffer\|global}}
				; GCN: s_lshr_b32 s{{[0-9]+}}, [[VAL]], 16
				; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v8i8(i8 addrspace(1)* %out, <8 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v8i8(i8 addrspace(1)* %out, <8 x i8> %foo) #0 {
	%p0 = extractelement <8 x i8> %foo, i32 0			%p0 = extractelement <8 x i8> %foo, i32 0
	%p1 = extractelement <8 x i8> %foo, i32 2			%p1 = extractelement <8 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v16i8:			; GCN-LABEL: {{^}}extract_vector_elt_v16i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword [[LOAD0:s[0-9]+]]
	; GCN: buffer_load_ubyte			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16
	; GCN: buffer_store_byte			; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]
				; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]
				; GCN: buffer_store_byte [[V_ELT2]]
				; GCN: buffer_store_byte [[V_LOAD0]]
	define amdgpu_kernel void @extract_vector_elt_v16i8(i8 addrspace(1)* %out, <16 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v16i8(i8 addrspace(1)* %out, <16 x i8> %foo) #0 {
	%p0 = extractelement <16 x i8> %foo, i32 0			%p0 = extractelement <16 x i8> %foo, i32 0
	%p1 = extractelement <16 x i8> %foo, i32 2			%p1 = extractelement <16 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v32i8:			; GCN-LABEL: {{^}}extract_vector_elt_v32i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword [[LOAD0:s[0-9]+]]
	; GCN: buffer_load_ubyte			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16
	; GCN: buffer_store_byte			; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]
				; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]
				; GCN: buffer_store_byte [[V_ELT2]]
				; GCN: buffer_store_byte [[V_LOAD0]]
	define amdgpu_kernel void @extract_vector_elt_v32i8(i8 addrspace(1)* %out, <32 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v32i8(i8 addrspace(1)* %out, <32 x i8> %foo) #0 {
	%p0 = extractelement <32 x i8> %foo, i32 0			%p0 = extractelement <32 x i8> %foo, i32 0
	%p1 = extractelement <32 x i8> %foo, i32 2			%p1 = extractelement <32 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v64i8:			; GCN-LABEL: {{^}}extract_vector_elt_v64i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dword [[LOAD0:s[0-9]+]]
	; GCN: buffer_load_ubyte			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16
	; GCN: buffer_store_byte			; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]
				; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]
				; GCN: buffer_store_byte [[V_ELT2]]
				; GCN: buffer_store_byte [[V_LOAD0]]
	define amdgpu_kernel void @extract_vector_elt_v64i8(i8 addrspace(1)* %out, <64 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v64i8(i8 addrspace(1)* %out, <64 x i8> %foo) #0 {
	%p0 = extractelement <64 x i8> %foo, i32 0			%p0 = extractelement <64 x i8> %foo, i32 0
	%p1 = extractelement <64 x i8> %foo, i32 2			%p1 = extractelement <64 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; FIXME: SI generates much worse code from that's a pain to match			; FIXME: SI generates much worse code from that's a pain to match

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v2i8:			; FIXME: 16-bit and 32-bit shift not combined after legalize to to
	; VI-DAG: buffer_load_ushort [[LOAD:v[0-9]+]],			; isTypeDesirableForOp in SimplifyDemandedBits
	; VI-DAG: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x30

	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v2i8:
	; VI: v_lshrrev_b16_e32 [[EXTRACT:v[0-9]+]], [[SCALED_IDX]], [[LOAD]]			; VI: s_load_dword [[LOAD:s[0-9]+]], s[0:1], 0x2c
				; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x30
				; VI-NOT: {{flat\|buffer\|global}}
				; VI: s_lshr_b32 [[ELT1:s[0-9]+]], [[LOAD]], 8
				; VI: v_lshlrev_b16_e64 [[ELT2:v[0-9]+]], 8, [[ELT1]]
				; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
				; VI: v_or_b32_e32 [[BUILD_VEC:v[0-9]+]], [[ELT0]], [[ELT2]]
				; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
				; VI: v_lshrrev_b16_e32 [[EXTRACT:v[0-9]+]], [[SCALED_IDX]], [[BUILD_VEC]]
	; VI: buffer_store_byte [[EXTRACT]]			; VI: buffer_store_byte [[EXTRACT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v2i8(i8 addrspace(1)* %out, <2 x i8> %foo, i32 %idx) #0 {			define amdgpu_kernel void @dynamic_extract_vector_elt_v2i8(i8 addrspace(1)* %out, <2 x i8> %foo, i32 %idx) #0 {
	%elt = extractelement <2 x i8> %foo, i32 %idx			%elt = extractelement <2 x i8> %foo, i32 %idx
	store i8 %elt, i8 addrspace(1)* %out			store i8 %elt, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i8:			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i8:
	; VI-DAG: buffer_load_ubyte [[LOAD2:v[0-9]+]],			; VI: s_load_dword [[LOAD:s[0-9]+]], s[0:1], 0x2c
	; VI-DAG: buffer_load_ushort [[LOAD01:v[0-9]+]],			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x30
	; VI-DAG: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x30			; VI-NOT: {{flat\|buffer\|global}}
				; VI: s_lshr_b32 [[ELT12:s[0-9]+]], [[LOAD]], 8
				; VI: v_lshlrev_b16_e64 [[ELT1:v[0-9]+]], 8, [[ELT12]]
				; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
				; VI: v_or_b32_e32 [[VEC3:v[0-9]+]], [[ELT0]], [[ELT1]]
	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3

	; VI: v_lshlrev_b32_e32 [[ELT2:v[0-9]+]], 16, [[LOAD2]]
	; VI: v_or_b32_e32 [[VEC3:v[0-9]+]], [[LOAD01]], [[ELT2]]
	; VI: v_lshrrev_b32_e32 [[EXTRACT:v[0-9]+]], [[SCALED_IDX]], [[VEC3]]			; VI: v_lshrrev_b32_e32 [[EXTRACT:v[0-9]+]], [[SCALED_IDX]], [[VEC3]]
	; VI: buffer_store_byte [[EXTRACT]]			; VI: buffer_store_byte [[EXTRACT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v3i8(i8 addrspace(1)* %out, <3 x i8> %foo, i32 %idx) #0 {			define amdgpu_kernel void @dynamic_extract_vector_elt_v3i8(i8 addrspace(1)* %out, <3 x i8> %foo, i32 %idx) #0 {
	%p0 = extractelement <3 x i8> %foo, i32 %idx			%p0 = extractelement <3 x i8> %foo, i32 %idx
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p0, i8 addrspace(1)* %out			store i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v4i8:			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v4i8:
	; VI-DAG: s_load_dword [[VEC3:s[0-9]+]], s[0:1], 0x2c			; VI: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x34
	; VI-DAG: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x30			; VI: s_load_dword [[VEC4:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: s_lshr_b32 [[EXTRACT:s[0-9]+]], [[VEC3]], [[SCALED_IDX]]			; VI: s_lshr_b32 [[EXTRACT:s[0-9]+]], [[VEC4]], [[SCALED_IDX]]

	; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], [[EXTRACT]]			; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], [[EXTRACT]]
	; VI: buffer_store_byte [[V_EXTRACT]]			; VI: buffer_store_byte [[V_EXTRACT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> %foo, i32 %idx) #0 {			define amdgpu_kernel void @dynamic_extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> addrspace(4)* %vec.ptr, i32 %idx) #0 {
	%p0 = extractelement <4 x i8> %foo, i32 %idx			%vec = load <4 x i8>, <4 x i8> addrspace(4)* %vec.ptr
				%p0 = extractelement <4 x i8> %vec, i32 %idx
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p0, i8 addrspace(1)* %out			store i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v8i8:			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v8i8:
	; VI-DAG: s_load_dwordx2 [[VEC3:s\[[0-9]+:[0-9]+\]]], s[0:1], 0x2c			; VI: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x34
	; VI-DAG: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x34			; VI: s_load_dwordx2 [[VEC8:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: s_lshr_b64 s{{\[}}[[EXTRACT_LO:[0-9]+]]:{{[0-9]+\]}}, [[VEC3]], [[SCALED_IDX]]			; VI: s_lshr_b64 s{{\[}}[[EXTRACT_LO:[0-9]+]]:{{[0-9]+\]}}, [[VEC8]], [[SCALED_IDX]]
	; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], s[[EXTRACT_LO]]			; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], s[[EXTRACT_LO]]
	; VI: buffer_store_byte [[V_EXTRACT]]			; VI: buffer_store_byte [[V_EXTRACT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v8i8(i8 addrspace(1)* %out, <8 x i8> %foo, i32 %idx) #0 {			define amdgpu_kernel void @dynamic_extract_vector_elt_v8i8(i8 addrspace(1)* %out, <8 x i8> addrspace(4)* %vec.ptr, i32 %idx) #0 {
	%p0 = extractelement <8 x i8> %foo, i32 %idx			%vec = load <8 x i8>, <8 x i8> addrspace(4)* %vec.ptr
				%p0 = extractelement <8 x i8> %vec, i32 %idx
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p0, i8 addrspace(1)* %out			store i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

test/CodeGen/AMDGPU/fabs.f16.ll

	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=CI %s			; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI %s
	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI -check-prefix=GFX89 %s			; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,GFX89 %s
	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX9 -check-prefix=GFX89 %s			; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s

	; DAGCombiner will transform:			; DAGCombiner will transform:
	; (fabs (f16 bitcast (i16 a))) => (f16 bitcast (and (i16 a), 0x7FFFFFFF))			; (fabs (f16 bitcast (i16 a))) => (f16 bitcast (and (i16 a), 0x7FFFFFFF))
	; unless isFabsFree returns true			; unless isFabsFree returns true

	; GCN-LABEL: {{^}}s_fabs_free_f16:			; GCN-LABEL: {{^}}s_fabs_free_f16:
	; GCN: {{flat\|global}}_load_ushort [[VAL:v[0-9]+]],			; GCN: s_load_dword [[VAL:s[0-9]+]]
	; GCN: v_and_b32_e32 [[RESULT:v[0-9]+]], 0x7fff, [[VAL]]
	; GCN: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]

				; CI: s_and_b32 [[RESULT:s[0-9]+]], [[VAL]], 0x7fff
				; CI: v_mov_b32_e32 [[V_RESULT:v[0-9]+]], [[RESULT]]
				; CI: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[V_RESULT]]

				; GFX89: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x7fff
				; GFX89: v_and_b32_e32 [[V_RESULT:v[0-9]+]], [[VAL]], [[MASK]]
				; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[V_RESULT]]
	define amdgpu_kernel void @s_fabs_free_f16(half addrspace(1)* %out, i16 %in) {			define amdgpu_kernel void @s_fabs_free_f16(half addrspace(1)* %out, i16 %in) {
	%bc= bitcast i16 %in to half			%bc= bitcast i16 %in to half
	%fabs = call half @llvm.fabs.f16(half %bc)			%fabs = call half @llvm.fabs.f16(half %bc)
	store half %fabs, half addrspace(1)* %out			store half %fabs, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_fabs_f16:			; GCN-LABEL: {{^}}s_fabs_f16:
	; CI: flat_load_ushort [[VAL:v[0-9]+]],			; GCN: s_load_dword [[VAL:s[0-9]+]]
	; CI: v_and_b32_e32 [[RESULT:v[0-9]+]], 0x7fff, [[VAL]]
	; CI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]			; CI: s_and_b32 [[RESULT:s[0-9]+]], [[VAL]], 0x7fff
				; CI: v_mov_b32_e32 [[V_RESULT:v[0-9]+]], [[RESULT]]
				; CI: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[V_RESULT]]

				; GFX89: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x7fff
				; GFX89: v_and_b32_e32 [[V_RESULT:v[0-9]+]], [[VAL]], [[MASK]]
				; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[V_RESULT]]
	define amdgpu_kernel void @s_fabs_f16(half addrspace(1)* %out, half %in) {			define amdgpu_kernel void @s_fabs_f16(half addrspace(1)* %out, half %in) {
	%fabs = call half @llvm.fabs.f16(half %in)			%fabs = call half @llvm.fabs.f16(half %in)
	store half %fabs, half addrspace(1)* %out			store half %fabs, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_fabs_v2f16:			; GCN-LABEL: {{^}}s_fabs_v2f16:
	; GCN: s_load_dword [[VAL:s[0-9]+]]			; GCN: s_load_dword [[VAL:s[0-9]+]]
	; GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0x7fff7fff			; GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0x7fff7fff
	define amdgpu_kernel void @s_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {			define amdgpu_kernel void @s_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {
	%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)			%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)
	store <2 x half> %fabs, <2 x half> addrspace(1)* %out			store <2 x half> %fabs, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_fabs_v4f16:			; GCN-LABEL: {{^}}s_fabs_v4f16:
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN: s_mov_b32 [[MASK:s[0-9]+]], 0x7fff7fff			; GCN: s_mov_b32 [[MASK:s[0-9]+]], 0x7fff7fff
	; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[MASK]]			; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[MASK]]
	; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[MASK]]			; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[MASK]]

	; GCN: {{flat\|global}}_store_dwordx2			; GCN: {{flat\|global}}_store_dwordx2
	define amdgpu_kernel void @s_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {			define amdgpu_kernel void @s_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {
	%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)			%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)
	store <4 x half> %fabs, <4 x half> addrspace(1)* %out			store <4 x half> %fabs, <4 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fabs_fold_f16:			; GCN-LABEL: {{^}}fabs_fold_f16:
	; GCN: {{flat\|global}}_load_ushort [[IN0:v[0-9]+]]			; GCN: s_load_dword [[IN0:s[0-9]+]]
	; GCN: {{flat\|global}}_load_ushort [[IN1:v[0-9]+]]			; GCN: s_lshr_b32 [[IN1:s[0-9]+]], [[IN0]], 16

	; CI-DAG: v_cvt_f32_f16_e32 [[CVT0:v[0-9]+]], [[IN0]]			; CI-DAG: v_cvt_f32_f16_e64 [[CVT0:v[0-9]+]], \|[[IN0]]\|
	; CI-DAG: v_cvt_f32_f16_e64 [[ABS_CVT1:v[0-9]+]], \|[[IN1]]\|			; CI-DAG: v_cvt_f32_f16_e32 [[ABS_CVT1:v[0-9]+]], [[IN1]]
	; CI: v_mul_f32_e32 [[RESULT:v[0-9]+]], [[ABS_CVT1]], [[CVT0]]			; CI-DAG: v_mul_f32_e32 [[RESULT:v[0-9]+]], [[CVT0]], [[ABS_CVT1]]
	; CI: v_cvt_f16_f32_e32 [[CVTRESULT:v[0-9]+]], [[RESULT]]			; CI-DAG: v_cvt_f16_f32_e32 [[CVTRESULT:v[0-9]+]], [[RESULT]]
	; CI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[CVTRESULT]]			; CI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[CVTRESULT]]

	; VI-NOT: and			; GFX89: v_mov_b32_e32 [[V_IN1:v[0-9]+]], [[IN1]]
	; VI: v_mul_f16_e64 [[RESULT:v[0-9]+]], \|[[IN1]]\|, [[IN0]]			; GFX89: v_mul_f16_e64 [[RESULT:v[0-9]+]], \|[[IN0]]\|, [[V_IN1]]
	; VI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
	define amdgpu_kernel void @fabs_fold_f16(half addrspace(1)* %out, half %in0, half %in1) {			define amdgpu_kernel void @fabs_fold_f16(half addrspace(1)* %out, half %in0, half %in1) {
	%fabs = call half @llvm.fabs.f16(half %in0)			%fabs = call half @llvm.fabs.f16(half %in0)
	%fmul = fmul half %fabs, %in1			%fmul = fmul half %fabs, %in1
	store half %fmul, half addrspace(1)* %out			store half %fmul, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_fabs_v2f16:			; GCN-LABEL: {{^}}v_fabs_v2f16:
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -check-prefix=CI -check-prefix=GCN -check-prefix=CIVI %s			; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -check-prefix=CI -check-prefix=GCN -check-prefix=CIVI %s
	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GFX89 -check-prefix=GCN -check-prefix=CIVI %s			; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GFX89 -check-prefix=GCN -check-prefix=CIVI %s
	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX89 -check-prefix=GFX9 -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX89 -check-prefix=GFX9 -check-prefix=GCN %s

	; GCN-LABEL: {{^}}fneg_fabs_fadd_f16:			; GCN-LABEL: {{^}}fneg_fabs_fadd_f16:
	; CI: v_cvt_f32_f16_e32			; CI-DAG: v_cvt_f32_f16_e32
	; CI: v_cvt_f32_f16_e64 [[CVT_ABS_X:v[0-9]+]], \|v{{[0-9]+}}\|			; CI-DAG: v_cvt_f32_f16_e64 [[CVT_ABS_X:v[0-9]+]], \|s{{[0-9]+}}\|
	; CI: v_sub_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[CVT_ABS_X]]			; CI: v_sub_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[CVT_ABS_X]]

	; GFX89-NOT: _and			; GFX89-NOT: _and
	; GFX89: v_sub_f16_e64 {{v[0-9]+}}, {{v[0-9]+}}, \|{{v[0-9]+}}\|			; GFX89: v_sub_f16_e64 {{v[0-9]+}}, {{s[0-9]+}}, \|{{v[0-9]+}}\|
	define amdgpu_kernel void @fneg_fabs_fadd_f16(half addrspace(1)* %out, half %x, half %y) {			define amdgpu_kernel void @fneg_fabs_fadd_f16(half addrspace(1)* %out, half %x, half %y) {
	%fabs = call half @llvm.fabs.f16(half %x)			%fabs = call half @llvm.fabs.f16(half %x)
	%fsub = fsub half -0.0, %fabs			%fsub = fsub half -0.0, %fabs
	%fadd = fadd half %y, %fsub			%fadd = fadd half %y, %fsub
	store half %fadd, half addrspace(1)* %out, align 2			store half %fadd, half addrspace(1)* %out, align 2
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fneg_fabs_fmul_f16:			; GCN-LABEL: {{^}}fneg_fabs_fmul_f16:
	; CI-DAG: v_cvt_f32_f16_e32			; CI-DAG: v_cvt_f32_f16_e32
	; CI-DAG: v_cvt_f32_f16_e64 [[CVT_NEG_ABS_X:v[0-9]+]], -\|{{v[0-9]+}}\|			; CI-DAG: v_cvt_f32_f16_e64 [[CVT_NEG_ABS_X:v[0-9]+]], -\|{{s[0-9]+}}\|
	; CI: v_mul_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, [[CVT_NEG_ABS_X]]			; CI: v_mul_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, [[CVT_NEG_ABS_X]]
	; CI: v_cvt_f16_f32_e32			; CI: v_cvt_f16_f32_e32

	; GFX89-NOT: _and			; GFX89-NOT: _and
	; GFX89: v_mul_f16_e64 [[MUL:v[0-9]+]], {{v[0-9]+}}, -\|{{v[0-9]+}}\|			; GFX89: v_mul_f16_e64 [[MUL:v[0-9]+]], {{s[0-9]+}}, -\|{{v[0-9]+}}\|
	; GFX89-NOT: [[MUL]]			; GFX89-NOT: [[MUL]]
	; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]
	define amdgpu_kernel void @fneg_fabs_fmul_f16(half addrspace(1)* %out, half %x, half %y) {			define amdgpu_kernel void @fneg_fabs_fmul_f16(half addrspace(1)* %out, half %x, half %y) {
	%fabs = call half @llvm.fabs.f16(half %x)			%fabs = call half @llvm.fabs.f16(half %x)
	%fsub = fsub half -0.0, %fabs			%fsub = fsub half -0.0, %fabs
	%fmul = fmul half %y, %fsub			%fmul = fmul half %y, %fsub
	store half %fmul, half addrspace(1)* %out, align 2			store half %fmul, half addrspace(1)* %out, align 2
	ret void			ret void
	}			}

	; DAGCombiner will transform:			; DAGCombiner will transform:
	; (fabs (f16 bitcast (i16 a))) => (f16 bitcast (and (i16 a), 0x7FFFFFFF))			; (fabs (f16 bitcast (i16 a))) => (f16 bitcast (and (i16 a), 0x7FFFFFFF))
	; unless isFabsFree returns true			; unless isFabsFree returns true

	; GCN-LABEL: {{^}}fneg_fabs_free_f16:			; GCN-LABEL: {{^}}fneg_fabs_free_f16:
	; GCN: v_or_b32_e32 v{{[0-9]+}}, 0x8000, v{{[0-9]+}}			; GCN: s_or_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x8000
	define amdgpu_kernel void @fneg_fabs_free_f16(half addrspace(1)* %out, i16 %in) {			define amdgpu_kernel void @fneg_fabs_free_f16(half addrspace(1)* %out, i16 %in) {
	%bc = bitcast i16 %in to half			%bc = bitcast i16 %in to half
	%fabs = call half @llvm.fabs.f16(half %bc)			%fabs = call half @llvm.fabs.f16(half %bc)
	%fsub = fsub half -0.0, %fabs			%fsub = fsub half -0.0, %fabs
	store half %fsub, half addrspace(1)* %out			store half %fsub, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fneg_fabs_f16:			; GCN-LABEL: {{^}}fneg_fabs_f16:
	; GCN: v_or_b32_e32 v{{[0-9]+}}, 0x8000, v{{[0-9]+}}			; GCN: s_or_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x8000
	define amdgpu_kernel void @fneg_fabs_f16(half addrspace(1)* %out, half %in) {			define amdgpu_kernel void @fneg_fabs_f16(half addrspace(1)* %out, half %in) {
	%fabs = call half @llvm.fabs.f16(half %in)			%fabs = call half @llvm.fabs.f16(half %in)
	%fsub = fsub half -0.0, %fabs			%fsub = fsub half -0.0, %fabs
	store half %fsub, half addrspace(1)* %out, align 2			store half %fsub, half addrspace(1)* %out, align 2
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_fneg_fabs_f16:			; GCN-LABEL: {{^}}v_fneg_fabs_f16:
	▲ Show 20 Lines • Show All 114 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fneg.f16.ll

Show All 22 Lines	define amdgpu_kernel void @v_fneg_f16(half addrspace(1)* %out, half addrspace(1)* %in) #0 {
%gep.in = getelementptr inbounds half, half addrspace(1)* %in, i32 %tid		%gep.in = getelementptr inbounds half, half addrspace(1)* %in, i32 %tid
%gep.out = getelementptr inbounds half, half addrspace(1)* %in, i32 %tid		%gep.out = getelementptr inbounds half, half addrspace(1)* %in, i32 %tid
%val = load half, half addrspace(1)* %gep.in, align 2		%val = load half, half addrspace(1)* %gep.in, align 2
%fneg = fsub half -0.0, %val		%fneg = fsub half -0.0, %val
store half %fneg, half addrspace(1)* %gep.out		store half %fneg, half addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fneg_free_f16:		; GCN-LABEL: {{^}}s_fneg_free_f16:
; GCN: {{flat\|global}}_load_ushort [[NEG_VALUE:v[0-9]+]],		; GCN: s_load_dword [[NEG_VALUE:s[0-9]+]],

; XCI: s_xor_b32 [[XOR:s[0-9]+]], [[NEG_VALUE]], 0x8000{{$}}		; CI: s_xor_b32 [[XOR:s[0-9]+]], [[NEG_VALUE]], 0x8000{{$}}
; CI: v_xor_b32_e32 [[XOR:v[0-9]+]], 0x8000, [[NEG_VALUE]]		; CI: v_mov_b32_e32 [[V_XOR:v[0-9]+]], [[XOR]]
; CI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[XOR]]		; CI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[V_XOR]]
define amdgpu_kernel void @fneg_free_f16(half addrspace(1)* %out, i16 %in) #0 {
		; GFX89: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x8000
		; GFX89: v_xor_b32_e32 [[XOR:v[0-9]+]], [[NEG_VALUE]], [[MASK]]
		; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[XOR]]
		define amdgpu_kernel void @s_fneg_free_f16(half addrspace(1)* %out, i16 %in) #0 {
%bc = bitcast i16 %in to half		%bc = bitcast i16 %in to half
%fsub = fsub half -0.0, %bc		%fsub = fsub half -0.0, %bc
store half %fsub, half addrspace(1)* %out		store half %fsub, half addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fold_f16:		; GCN-LABEL: {{^}}v_fneg_fold_f16:
; GCN: {{flat\|global}}_load_ushort [[NEG_VALUE:v[0-9]+]]		; GCN: {{flat\|global}}_load_ushort [[NEG_VALUE:v[0-9]+]]
▲ Show 20 Lines • Show All 132 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/half.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s

	; half args should be promoted to float for SI and lower.			; half args should be promoted to float for SI and lower.

	; GCN-LABEL: {{^}}load_f16_arg:			; GCN-LABEL: {{^}}load_f16_arg:
	; GCN: flat_load_ushort [[ARG:v[0-9]+]]			; GCN: s_load_dword [[ARG:s[0-9]+]]
	; GCN-NOT: [[ARG]]			; GCN: v_mov_b32_e32 [[V_ARG:v[0-9]+]], [[ARG]]
	; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[ARG]]			; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[V_ARG]]
	define amdgpu_kernel void @load_f16_arg(half addrspace(1)* %out, half %arg) #0 {			define amdgpu_kernel void @load_f16_arg(half addrspace(1)* %out, half %arg) #0 {
	store half %arg, half addrspace(1)* %out			store half %arg, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}load_v2f16_arg:			; GCN-LABEL: {{^}}load_v2f16_arg:
	; GCN: s_load_dword [[ARG:s[0-9]+]]			; GCN: s_load_dword [[ARG:s[0-9]+]]
	; GCN: v_mov_b32_e32 [[V_ARG:v[0-9]+]], [[ARG]]			; GCN: v_mov_b32_e32 [[V_ARG:v[0-9]+]], [[ARG]]
	; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[V_ARG]]			; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[V_ARG]]
	define amdgpu_kernel void @load_v2f16_arg(<2 x half> addrspace(1)* %out, <2 x half> %arg) #0 {			define amdgpu_kernel void @load_v2f16_arg(<2 x half> addrspace(1)* %out, <2 x half> %arg) #0 {
	store <2 x half> %arg, <2 x half> addrspace(1)* %out			store <2 x half> %arg, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}load_v3f16_arg:			; GCN-LABEL: {{^}}load_v3f16_arg:
	; GCN: flat_load_ushort
	; GCN: s_load_dword s			; GCN: s_load_dword s
				; GCN: s_load_dword s
				; GCN-NOT: {buffer\|flat\|global}}_load_

	; GCN-NOT: _load			; GCN-NOT: _load
	; GCN-DAG: _store_dword			; GCN-DAG: _store_dword
	; GCN-DAG: _store_short			; GCN-DAG: _store_short
	; GCN-NOT: _store			; GCN-NOT: _store
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @load_v3f16_arg(<3 x half> addrspace(1)* %out, <3 x half> %arg) #0 {			define amdgpu_kernel void @load_v3f16_arg(<3 x half> addrspace(1)* %out, <3 x half> %arg) #0 {
	store <3 x half> %arg, <3 x half> addrspace(1)* %out			store <3 x half> %arg, <3 x half> addrspace(1)* %out
	Show All 36 Lines
	; GCN-LABEL: {{^}}extload_v2f16_to_v2f32_arg:			; GCN-LABEL: {{^}}extload_v2f16_to_v2f32_arg:
	define amdgpu_kernel void @extload_v2f16_to_v2f32_arg(<2 x float> addrspace(1)* %out, <2 x half> %arg) #0 {			define amdgpu_kernel void @extload_v2f16_to_v2f32_arg(<2 x float> addrspace(1)* %out, <2 x half> %arg) #0 {
	%ext = fpext <2 x half> %arg to <2 x float>			%ext = fpext <2 x half> %arg to <2 x float>
	store <2 x float> %ext, <2 x float> addrspace(1)* %out			store <2 x float> %ext, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v3f16_to_v3f32_arg:			; GCN-LABEL: {{^}}extload_v3f16_to_v3f32_arg:
	; GCN: flat_load_ushort			; GCN: s_load_dword s
	; GCN: flat_load_ushort			; GCN: s_load_dword s
	; GCN: flat_load_ushort			; GCN-NOT: _load
	; GCN-NOT: {{buffer\|flat\|global}}_load
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN-NOT: v_cvt_f32_f16			; GCN-NOT: v_cvt_f32_f16
	; GCN-DAG: _store_dword			; GCN-DAG: _store_dword
	; GCN-DAG: _store_dwordx2			; GCN-DAG: _store_dwordx2
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @extload_v3f16_to_v3f32_arg(<3 x float> addrspace(1)* %out, <3 x half> %arg) #0 {			define amdgpu_kernel void @extload_v3f16_to_v3f32_arg(<3 x float> addrspace(1)* %out, <3 x half> %arg) #0 {
	%ext = fpext <3 x half> %arg to <3 x float>			%ext = fpext <3 x half> %arg to <3 x float>
	store <3 x float> %ext, <3 x float> addrspace(1)* %out			store <3 x float> %ext, <3 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:			; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:
	define amdgpu_kernel void @extload_v4f16_to_v4f32_arg(<4 x float> addrspace(1)* %out, <4 x half> %arg) #0 {			define amdgpu_kernel void @extload_v4f16_to_v4f32_arg(<4 x float> addrspace(1)* %out, <4 x half> %arg) #0 {
	%ext = fpext <4 x half> %arg to <4 x float>			%ext = fpext <4 x half> %arg to <4 x float>
	store <4 x float> %ext, <4 x float> addrspace(1)* %out			store <4 x float> %ext, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v8f16_to_v8f32_arg:			; GCN-LABEL: {{^}}extload_v8f16_to_v8f32_arg:
	; SI: flat_load_ushort			; GCN: s_load_dword s
	; SI: flat_load_ushort			; GCN: s_load_dword s
	; SI: flat_load_ushort			; GCN: s_load_dword s
	; SI: flat_load_ushort			; GCN: s_load_dword s
	; SI: flat_load_ushort
	; SI: flat_load_ushort
	; SI: flat_load_ushort
	; SI: flat_load_ushort


	; VI: s_load_dword s
	; VI: s_load_dword s
	; VI: s_load_dword s
	; VI: s_load_dword s

	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32

	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	define amdgpu_kernel void @extload_v8f16_to_v8f32_arg(<8 x float> addrspace(1)* %out, <8 x half> %arg) #0 {			define amdgpu_kernel void @extload_v8f16_to_v8f32_arg(<8 x float> addrspace(1)* %out, <8 x half> %arg) #0 {
	%ext = fpext <8 x half> %arg to <8 x float>			%ext = fpext <8 x half> %arg to <8 x float>
	store <8 x float> %ext, <8 x float> addrspace(1)* %out			store <8 x float> %ext, <8 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_f16_to_f64_arg:			; GCN-LABEL: {{^}}extload_f16_to_f64_arg:
	; GCN: flat_load_ushort [[ARG:v[0-9]+]]			; GCN: s_load_dword [[ARG:s[0-9]+]]
	; GCN: v_cvt_f32_f16_e32 v[[ARG_F32:[0-9]+]], [[ARG]]			; GCN: v_cvt_f32_f16_e32 v[[ARG_F32:[0-9]+]], [[ARG]]
	; GCN: v_cvt_f64_f32_e32 [[RESULT:v\[[0-9]+:[0-9]+\]]], v[[ARG_F32]]			; GCN: v_cvt_f64_f32_e32 [[RESULT:v\[[0-9]+:[0-9]+\]]], v[[ARG_F32]]
	; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]			; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
	define amdgpu_kernel void @extload_f16_to_f64_arg(double addrspace(1)* %out, half %arg) #0 {			define amdgpu_kernel void @extload_f16_to_f64_arg(double addrspace(1)* %out, half %arg) #0 {
	%ext = fpext half %arg to double			%ext = fpext half %arg to double
	store double %ext, double addrspace(1)* %out			store double %ext, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v2f16_to_v2f64_arg:			; GCN-LABEL: {{^}}extload_v2f16_to_v2f64_arg:
	; SI-DAG: flat_load_ushort v			; GCN: s_load_dword
	; SI-DAG: flat_load_ushort v			; GCN: s_lshr_b32

	; VI-DAG: s_load_dword s
	; VI: s_lshr_b32

	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @extload_v2f16_to_v2f64_arg(<2 x double> addrspace(1)* %out, <2 x half> %arg) #0 {			define amdgpu_kernel void @extload_v2f16_to_v2f64_arg(<2 x double> addrspace(1)* %out, <2 x half> %arg) #0 {
	%ext = fpext <2 x half> %arg to <2 x double>			%ext = fpext <2 x half> %arg to <2 x double>
	store <2 x double> %ext, <2 x double> addrspace(1)* %out			store <2 x double> %ext, <2 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v3f16_to_v3f64_arg:			; GCN-LABEL: {{^}}extload_v3f16_to_v3f64_arg:
	; GCN-DAG: flat_load_ushort v			; GCN: s_load_dword
	; GCN-DAG: flat_load_ushort v			; GCN: s_load_dword
	; GCN-DAG: flat_load_ushort v			; GCN: s_lshr_b32

	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @extload_v3f16_to_v3f64_arg(<3 x double> addrspace(1)* %out, <3 x half> %arg) #0 {			define amdgpu_kernel void @extload_v3f16_to_v3f64_arg(<3 x double> addrspace(1)* %out, <3 x half> %arg) #0 {
	%ext = fpext <3 x half> %arg to <3 x double>			%ext = fpext <3 x half> %arg to <3 x double>
	store <3 x double> %ext, <3 x double> addrspace(1)* %out			store <3 x double> %ext, <3 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v4f16_to_v4f64_arg:			; GCN-LABEL: {{^}}extload_v4f16_to_v4f64_arg:
	; SI: flat_load_ushort v			; GCN: s_load_dword s
	; SI: flat_load_ushort v			; GCN: s_load_dword s
	; SI: flat_load_ushort v
	; SI: flat_load_ushort v

	; VI: s_load_dword s
	; VI: s_load_dword s

	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @extload_v4f16_to_v4f64_arg(<4 x double> addrspace(1)* %out, <4 x half> %arg) #0 {			define amdgpu_kernel void @extload_v4f16_to_v4f64_arg(<4 x double> addrspace(1)* %out, <4 x half> %arg) #0 {
	%ext = fpext <4 x half> %arg to <4 x double>			%ext = fpext <4 x half> %arg to <4 x double>
	store <4 x double> %ext, <4 x double> addrspace(1)* %out			store <4 x double> %ext, <4 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v8f16_to_v8f64_arg:			; GCN-LABEL: {{^}}extload_v8f16_to_v8f64_arg:
	; SI: flat_load_ushort v			; GCN: s_load_dword s
	; SI: flat_load_ushort v			; GCN-NEXT: s_load_dword s
	; SI: flat_load_ushort v			; GCN-NEXT: s_load_dword s
	; SI: flat_load_ushort v			; GCN-NEXT: s_load_dword s
				; GCN-NOT: _load_
	; SI: flat_load_ushort v
	; SI: flat_load_ushort v
	; SI: flat_load_ushort v
	; SI: flat_load_ushort v


	; VI: s_load_dword s
	; VI: s_load_dword s
	; VI: s_load_dword s
	; VI: s_load_dword s



	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32

	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32
	; GCN-DAG: v_cvt_f32_f16_e32			; GCN-DAG: v_cvt_f32_f16_e32

	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN-DAG: v_cvt_f64_f32_e32

	; GCN-DAG: v_cvt_f64_f32_e32			; GCN: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN: v_cvt_f64_f32_e32
	; GCN-DAG: v_cvt_f64_f32_e32			; GCN: v_cvt_f64_f32_e32

	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @extload_v8f16_to_v8f64_arg(<8 x double> addrspace(1)* %out, <8 x half> %arg) #0 {			define amdgpu_kernel void @extload_v8f16_to_v8f64_arg(<8 x double> addrspace(1)* %out, <8 x half> %arg) #0 {
	%ext = fpext <8 x half> %arg to <8 x double>			%ext = fpext <8 x half> %arg to <8 x double>
	store <8 x double> %ext, <8 x double> addrspace(1)* %out			store <8 x double> %ext, <8 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 427 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/imm16.ll

	Show First 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x6c00			; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x6c00
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @store_literal_imm_f16(half addrspace(1)* %out) {			define amdgpu_kernel void @store_literal_imm_f16(half addrspace(1)* %out) {
	store half 4096.0, half addrspace(1)* %out			store half 4096.0, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_0.0_f16:			; GCN-LABEL: {{^}}add_inline_imm_0.0_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 0, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 0{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_0.0_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_0.0_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 0.0			%y = fadd half %x, 0.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_0.5_f16:			; GCN-LABEL: {{^}}add_inline_imm_0.5_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 0.5, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 0.5{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_0.5_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_0.5_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 0.5			%y = fadd half %x, 0.5
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], -0.5, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], -0.5{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_0.5_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_neg_0.5_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, -0.5			%y = fadd half %x, -0.5
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1.0_f16:			; GCN-LABEL: {{^}}add_inline_imm_1.0_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 1.0, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 1.0{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_1.0_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_1.0_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 1.0			%y = fadd half %x, 1.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], -1.0, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], -1.0{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_1.0_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_neg_1.0_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, -1.0			%y = fadd half %x, -1.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2.0_f16:			; GCN-LABEL: {{^}}add_inline_imm_2.0_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 2.0, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 2.0{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_2.0_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_2.0_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 2.0			%y = fadd half %x, 2.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], -2.0, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], -2.0{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_2.0_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_neg_2.0_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, -2.0			%y = fadd half %x, -2.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_4.0_f16:			; GCN-LABEL: {{^}}add_inline_imm_4.0_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 4.0, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 4.0{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_4.0_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_4.0_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 4.0			%y = fadd half %x, 4.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], -4.0, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], -4.0{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_4.0_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_neg_4.0_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, -4.0			%y = fadd half %x, -4.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_f16:			; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_f16:
	Show All 14 Lines
	define amdgpu_kernel void @commute_add_literal_f16(half addrspace(1)* %out, half addrspace(1)* %in) {			define amdgpu_kernel void @commute_add_literal_f16(half addrspace(1)* %out, half addrspace(1)* %in) {
	%x = load half, half addrspace(1)* %in			%x = load half, half addrspace(1)* %in
	%y = fadd half %x, 1024.0			%y = fadd half %x, 1024.0
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1_f16:			; GCN-LABEL: {{^}}add_inline_imm_1_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 1, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 1{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_1_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_1_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 0xH0001			%y = fadd half %x, 0xH0001
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2_f16:			; GCN-LABEL: {{^}}add_inline_imm_2_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 2, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 2{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_2_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_2_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 0xH0002			%y = fadd half %x, 0xH0002
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_16_f16:			; GCN-LABEL: {{^}}add_inline_imm_16_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 16, [[VAL]]{{$}}			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 16{{$}}
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_16_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_16_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 0xH0010			%y = fadd half %x, 0xH0010
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1_f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_1_f16:
	; VI: v_add_u32_e32 [[REG:v[0-9]+]], vcc, -1			; VI: v_add_u32_e32 [[REG:v[0-9]+]], vcc, -1
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_1_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_neg_1_f16(half addrspace(1)* %out, i16 addrspace(1)* %in) {
	%xbc = bitcast half %x to i16			%x = load i16, i16 addrspace(1)* %in
	%y = add i16 %xbc, -1			%y = add i16 %x, -1
	%ybc = bitcast i16 %y to half			%ybc = bitcast i16 %y to half
	store half %ybc, half addrspace(1)* %out			store half %ybc, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2_f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_2_f16:
	; VI: v_add_u32_e32 [[REG:v[0-9]+]], vcc, 0xfffe			; VI: v_add_u32_e32 [[REG:v[0-9]+]], vcc, 0xfffe
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_2_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_neg_2_f16(half addrspace(1)* %out, i16 addrspace(1)* %in) {
	%xbc = bitcast half %x to i16			%x = load i16, i16 addrspace(1)* %in
	%y = add i16 %xbc, -2			%y = add i16 %x, -2
	%ybc = bitcast i16 %y to half			%ybc = bitcast i16 %y to half
	store half %ybc, half addrspace(1)* %out			store half %ybc, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_16_f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_16_f16:
	; VI: v_add_u32_e32 [[REG:v[0-9]+]], vcc, 0xfff0			; VI: v_add_u32_e32 [[REG:v[0-9]+]], vcc, 0xfff0
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_16_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_neg_16_f16(half addrspace(1)* %out, i16 addrspace(1)* %in) {
	%xbc = bitcast half %x to i16			%x = load i16, i16 addrspace(1)* %in
	%y = add i16 %xbc, -16			%y = add i16 %x, -16
	%ybc = bitcast i16 %y to half			%ybc = bitcast i16 %y to half
	store half %ybc, half addrspace(1)* %out			store half %ybc, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_63_f16:			; GCN-LABEL: {{^}}add_inline_imm_63_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 63, [[VAL]]			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 63
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_63_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_63_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 0xH003F			%y = fadd half %x, 0xH003F
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_64_f16:			; GCN-LABEL: {{^}}add_inline_imm_64_f16:
	; VI: buffer_load_ushort [[VAL:v[0-9]+]]			; VI: s_load_dword [[VAL:s[0-9]+]]
	; VI: v_add_f16_e32 [[REG:v[0-9]+]], 64, [[VAL]]			; VI: v_add_f16_e64 [[REG:v[0-9]+]], [[VAL]], 64
	; VI: buffer_store_short [[REG]]			; VI: buffer_store_short [[REG]]
	define amdgpu_kernel void @add_inline_imm_64_f16(half addrspace(1)* %out, half %x) {			define amdgpu_kernel void @add_inline_imm_64_f16(half addrspace(1)* %out, half %x) {
	%y = fadd half %x, 0xH0040			%y = fadd half %x, 0xH0040
	store half %y, half addrspace(1)* %out			store half %y, half addrspace(1)* %out
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/insert_vector_elt.ll

	Show First 20 Lines • Show All 196 Lines • ▼ Show 20 Lines
	; GCN-LABEL: {{^}}dynamic_insertelement_v3i16:			; GCN-LABEL: {{^}}dynamic_insertelement_v3i16:
	define amdgpu_kernel void @dynamic_insertelement_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, i32 %b) nounwind {
	%vecins = insertelement <3 x i16> %a, i16 5, i32 %b			%vecins = insertelement <3 x i16> %a, i16 5, i32 %b
	store <3 x i16> %vecins, <3 x i16> addrspace(1)* %out, align 8			store <3 x i16> %vecins, <3 x i16> addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_insertelement_v2i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v2i8:
	; VI: buffer_load_ushort [[LOAD:v[0-9]]]			; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI: s_load_dword [[IDX:s[0-9]]]			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30
				; VI-NOT: _load
				; VI: s_lshr_b32 [[ELT1:s[0-9]+]], [[LOAD]], 8
	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: v_lshlrev_b16_e64 [[SHL:v[0-9]+]], [[SCALED_IDX]], -1			; VI: v_lshlrev_b16_e64 [[ELT1_SHIFT:v[0-9]+]], 8, [[ELT1]]
	; VI: v_xor_b32_e32 [[NOT:v[0-9]+]], -1, [[SHL]]			; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
	; VI: v_and_b32_e32 [[AND0:v[0-9]+]], 5, [[SHL]]			; VI: v_lshlrev_b16_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], -1
	; VI: v_and_b32_e32 [[AND1:v[0-9]+]], [[NOT]], [[LOAD]]
	; VI: v_or_b32_e32 [[OR:v[0-9]+]], [[AND0]], [[AND1]]			; VI: v_xor_b32_e32 [[NOT:v[0-9]+]], -1, [[MASK]]
				; VI: v_or_b32_e32 [[BUILD_VECTOR:v[0-9]+]], [[ELT0]], [[ELT1_SHIFT]]

				; VI: v_and_b32_e32 [[AND1:v[0-9]+]], [[NOT]], [[BUILD_VECTOR]]
				; VI-DAG: v_and_b32_e32 [[INSERT:v[0-9]+]], 5, [[MASK]]
				; VI: v_or_b32_e32 [[OR:v[0-9]+]], [[INSERT]], [[BUILD_VECTOR]]
	; VI: buffer_store_short [[OR]]			; VI: buffer_store_short [[OR]]
	define amdgpu_kernel void @dynamic_insertelement_v2i8(<2 x i8> addrspace(1)* %out, <2 x i8> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v2i8(<2 x i8> addrspace(1)* %out, <2 x i8> %a, i32 %b) nounwind {
	%vecins = insertelement <2 x i8> %a, i8 5, i32 %b			%vecins = insertelement <2 x i8> %a, i8 5, i32 %b
	store <2 x i8> %vecins, <2 x i8> addrspace(1)* %out, align 8			store <2 x i8> %vecins, <2 x i8> addrspace(1)* %out, align 8
	ret void			ret void
	}			}

				; FIXME: post legalize i16 and i32 shifts aren't merged because of
				; isTypeDesirableForOp in SimplifyDemandedBits

	; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:
	; VI: buffer_load_ubyte			; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI: buffer_load_ushort			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30
	; VI: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 3			; VI-NOT: _load
	; VI: s_lshl_b32 s{{[0-9]+}}, 0xffff,
	; VI: s_not_b32			; VI: s_lshr_b32 [[VEC_HI:s[0-9]+]], [[LOAD]], 8
	; VI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; VI: v_lshlrev_b16_e64 [[ELT2:v[0-9]+]], 8, [[VEC_HI]]
	; VI: v_or_b32_e32			; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
	; VI: v_and_b32			; VI: v_or_b32_e32 [[BUILD_VEC:v[0-9]+]], [[VEC_HI]], [[ELT2]]
	; VI: v_bfi_b32			; VI: s_and_b32 [[ELT2:s[0-9]+]], [[LOAD]], 0xff0000{{$}}
	; VI: v_lshrrev_b32
				; VI: s_mov_b32 [[MASK16:s[0-9]+]], 0xffff{{$}}
				; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
				; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], [[MASK16]], [[SCALED_IDX]]

				; VI: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]
				; VI: v_or_b32_sdwa [[SDWA:v[0-9]+]], [[BUILD_VEC]], [[V_ELT2]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; VI: s_not_b32 [[NOT_SHIFT_MASK:s[0-9]+]], [[SHIFTED_MASK]]
				; VI: v_and_b32_e32 [[AND_NOT_MASK:v[0-9]+]], [[NOT_SHIFT_MASK]], [[SDWA]]
				; VI: v_lshrrev_b32_e32 [[HI2:v[0-9]+]], 16, [[AND_NOT_MASK]]
				; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SCALED_IDX]], 5, [[SDWA]]
				; VI: buffer_store_short [[BFI]]
				; VI: buffer_store_byte [[HI2]]
	define amdgpu_kernel void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, <3 x i8> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, <3 x i8> %a, i32 %b) nounwind {
	%vecins = insertelement <3 x i8> %a, i8 5, i32 %b			%vecins = insertelement <3 x i8> %a, i8 5, i32 %b
	store <3 x i8> %vecins, <3 x i8> addrspace(1)* %out, align 4			store <3 x i8> %vecins, <3 x i8> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_insertelement_v4i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v4i8:
	; VI: s_load_dword [[VEC:s[0-9]+]]			; VI: s_load_dword [[VEC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI: s_load_dword [[IDX:s[0-9]]]			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30
				; VI-NOT: _load

				; VI: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], 8
				; VI: v_lshlrev_b16_e64 [[ELT2:v[0-9]+]], 8, [[ELT1]]
				; VI: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0xff{{$}}


				; VI: s_lshr_b32 [[ELT3:s[0-9]+]], [[VEC]], 24
				; VI: s_lshr_b32 [[ELT2:s[0-9]+]], [[VEC]], 16
				; VI: v_lshlrev_b16_e64 v{{[0-9]+}}, 8, [[ELT3]]
				; VI: v_or_b32_e32
				; VI: v_or_b32_sdwa
	; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI-DAG: s_lshl_b32 [[MASK:s[0-9]+]], 0xffff, [[SCALED_IDX]]			; VI: v_or_b32_sdwa
	; VI-DAG: v_mov_b32_e32 [[V_VEC:v[0-9]+]], [[VEC]]			; VI: s_lshl_b32
	; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[MASK]], 5, [[V_VEC]]			; VI: v_bfi_b32
	define amdgpu_kernel void @dynamic_insertelement_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, i32 %b) nounwind {
	%vecins = insertelement <4 x i8> %a, i8 5, i32 %b			%vecins = insertelement <4 x i8> %a, i8 5, i32 %b
	store <4 x i8> %vecins, <4 x i8> addrspace(1)* %out, align 4			store <4 x i8> %vecins, <4 x i8> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_insertelement_v8i8:			; GCN-LABEL: {{^}}s_dynamic_insertelement_v8i8:
	; VI: s_load_dwordx2 [[VEC:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI-NOT: {{buffer\|flat\|global}}
	; VI: s_load_dword [[IDX:s[0-9]]]			; VI: s_load_dword [[IDX:s[0-9]]]
				; VI-NOT: {{buffer\|flat\|global}}
				; VI: s_load_dwordx2 [[VEC:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0
				; VI-NOT: {{buffer\|flat\|global}}

	; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0			; VI-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0
	; VI-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff			; VI-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff
	; VI: s_lshl_b64 s{{\[}}[[MASK_SHIFT_LO:[0-9]+]]:[[MASK_SHIFT_HI:[0-9]+]]{{\]}}, s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}, [[SCALED_IDX]]			; VI: s_lshl_b64 s{{\[}}[[MASK_SHIFT_LO:[0-9]+]]:[[MASK_SHIFT_HI:[0-9]+]]{{\]}}, s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}, [[SCALED_IDX]]
	; VI: s_not_b64 [[NOT_MASK:s\[[0-9]+:[0-9]+\]]], s{{\[}}[[MASK_SHIFT_LO]]:[[MASK_SHIFT_HI]]{{\]}}			; VI: s_not_b64 [[NOT_MASK:s\[[0-9]+:[0-9]+\]]], s{{\[}}[[MASK_SHIFT_LO]]:[[MASK_SHIFT_HI]]{{\]}}
	; VI: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[NOT_MASK]], [[VEC]]			; VI: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[NOT_MASK]], [[VEC]]
	; VI: s_and_b32 s[[INS:[0-9]+]], s[[MASK_SHIFT_LO]], 5			; VI: s_and_b32 s[[INS:[0-9]+]], s[[MASK_SHIFT_LO]], 5
	; VI: s_or_b64 s{{\[}}[[RESULT0:[0-9]+]]:[[RESULT1:[0-9]+]]{{\]}}, s{{\[}}[[INS]]:[[MASK_HI]]{{\]}}, [[AND]]			; VI: s_or_b64 s{{\[}}[[RESULT0:[0-9]+]]:[[RESULT1:[0-9]+]]{{\]}}, s{{\[}}[[INS]]:[[MASK_HI]]{{\]}}, [[AND]]
	; VI: v_mov_b32_e32 v[[V_RESULT0:[0-9]+]], s[[RESULT0]]			; VI: v_mov_b32_e32 v[[V_RESULT0:[0-9]+]], s[[RESULT0]]
	; VI: v_mov_b32_e32 v[[V_RESULT1:[0-9]+]], s[[RESULT1]]			; VI: v_mov_b32_e32 v[[V_RESULT1:[0-9]+]], s[[RESULT1]]
	; VI: buffer_store_dwordx2 v{{\[}}[[V_RESULT0]]:[[V_RESULT1]]{{\]}}			; VI: buffer_store_dwordx2 v{{\[}}[[V_RESULT0]]:[[V_RESULT1]]{{\]}}
	define amdgpu_kernel void @dynamic_insertelement_v8i8(<8 x i8> addrspace(1)* %out, <8 x i8> %a, i32 %b) nounwind {			define amdgpu_kernel void @s_dynamic_insertelement_v8i8(<8 x i8> addrspace(1)* %out, <8 x i8> addrspace(4)* %a.ptr, i32 %b) nounwind {
				%a = load <8 x i8>, <8 x i8> addrspace(4)* %a.ptr, align 4
	%vecins = insertelement <8 x i8> %a, i8 5, i32 %b			%vecins = insertelement <8 x i8> %a, i8 5, i32 %b
	store <8 x i8> %vecins, <8 x i8> addrspace(1)* %out, align 8			store <8 x i8> %vecins, <8 x i8> addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_insertelement_v16i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v16i8:
	; GCN: buffer_load_ubyte			; GCN: s_load_dwordx2
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN: s_load_dword s
	; GCN: buffer_load_ubyte			; GCN-NOT: _load_
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte

	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	▲ Show 20 Lines • Show All 155 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/kernel-args.ll

	; RUN: llc < %s -march=amdgcn -verify-machineinstrs \| FileCheck -enable-var-scope --check-prefixes=SI,GCN,MESA-GCN,FUNC %s			; RUN: llc < %s -march=amdgcn -verify-machineinstrs \| FileCheck -enable-var-scope --check-prefixes=SI,GCN,MESA-GCN,FUNC %s
	; RUN: llc < %s -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefixes=VI,GCN,MESA-VI,MESA-GCN,FUNC %s			; RUN: llc < %s -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefixes=VI,GCN,MESA-VI,MESA-GCN,FUNC %s
	; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=fiji -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefixes=VI,GCN,HSA-VI,FUNC %s			; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=fiji -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefixes=VI,GCN,HSA-VI,FUNC %s
	; RUN: llc < %s -march=r600 -mcpu=redwood -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=EG --check-prefix=FUNC %s			; RUN: llc < %s -march=r600 -mcpu=redwood -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=EG --check-prefix=FUNC %s
	; RUN: llc < %s -march=r600 -mcpu=cayman -verify-machineinstrs \| FileCheck -enable-var-scope --check-prefix=EG --check-prefix=FUNC %s			; RUN: llc < %s -march=r600 -mcpu=cayman -verify-machineinstrs \| FileCheck -enable-var-scope --check-prefix=EG --check-prefix=FUNC %s

	; FUNC-LABEL: {{^}}i8_arg:			; FUNC-LABEL: {{^}}i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: AND_INT {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z			; EG: AND_INT {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z
	; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb			; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb
	; MESA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c			; MESA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c
	; MESA-GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xff			; MESA-GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xff
	; HSA-VI: s_add_u32 [[SPTR_LO:s[0-9]+]], s4, 8
	; HSA-VI: s_addc_u32 [[SPTR_HI:s[0-9]+]], s5, 0			; HSA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x8
	; HSA-VI: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], [[SPTR_LO]]			; HSA-VI: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xff
	; HSA-VI: v_mov_b32_e32 v[[VPTR_HI:[0-9]+]], [[SPTR_HI]]
	; FIXME: Should be using s_load_dword
	; HSA-VI: flat_load_ubyte v{{[0-9]+}}, v{{\[}}[[VPTR_LO]]:[[VPTR_HI]]]{{$}}

	define amdgpu_kernel void @i8_arg(i32 addrspace(1)* nocapture %out, i8 %in) nounwind {			define amdgpu_kernel void @i8_arg(i32 addrspace(1)* nocapture %out, i8 %in) nounwind {
	entry:			entry:
	%0 = zext i8 %in to i32			%0 = zext i8 %in to i32
	store i32 %0, i32 addrspace(1)* %out, align 4			store i32 %0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i8_zext_arg:			; FUNC-LABEL: {{^}}i8_zext_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z			; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z
	; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb			; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb
	; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c			; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c
	; HSA-VI: s_add_u32 [[SPTR_LO:s[0-9]+]], s4, 8
	; HSA-VI: s_addc_u32 [[SPTR_HI:s[0-9]+]], s5, 0
	; HSA-VI: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], [[SPTR_LO]]
	; HSA-VI: v_mov_b32_e32 v[[VPTR_HI:[0-9]+]], [[SPTR_HI]]
	; FIXME: Should be using s_load_dword
	; HSA-VI: flat_load_ubyte v{{[0-9]+}}, v{{\[}}[[VPTR_LO]]:[[VPTR_HI]]]{{$}}

				; HSA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x8
				; HSA-VI: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xff
	define amdgpu_kernel void @i8_zext_arg(i32 addrspace(1)* nocapture %out, i8 zeroext %in) nounwind {			define amdgpu_kernel void @i8_zext_arg(i32 addrspace(1)* nocapture %out, i8 zeroext %in) nounwind {
	entry:			entry:
	%0 = zext i8 %in to i32			%0 = zext i8 %in to i32
	store i32 %0, i32 addrspace(1)* %out, align 4			store i32 %0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i8_sext_arg:			; FUNC-LABEL: {{^}}i8_sext_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z			; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z
	; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb			; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb

	; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c			; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c
	; HSA-VI: s_add_u32 [[SPTR_LO:s[0-9]+]], s4, 8
	; HSA-VI: s_addc_u32 [[SPTR_HI:s[0-9]+]], s5, 0
	; HSA-VI: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], [[SPTR_LO]]
	; HSA-VI: v_mov_b32_e32 v[[VPTR_HI:[0-9]+]], [[SPTR_HI]]
	; FIXME: Should be using s_load_dword
	; HSA-VI: flat_load_sbyte v{{[0-9]+}}, v{{\[}}[[VPTR_LO]]:[[VPTR_HI]]]{{$}}

				; HSA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x8
				; HSA-VI: s_sext_i32_i8 s{{[0-9]+}}, [[VAL]]
				; HSA-VI: flat_store_dword
	define amdgpu_kernel void @i8_sext_arg(i32 addrspace(1)* nocapture %out, i8 signext %in) nounwind {			define amdgpu_kernel void @i8_sext_arg(i32 addrspace(1)* nocapture %out, i8 signext %in) nounwind {
	entry:			entry:
	%0 = sext i8 %in to i32			%0 = sext i8 %in to i32
	store i32 %0, i32 addrspace(1)* %out, align 4			store i32 %0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i16_arg:			; FUNC-LABEL: {{^}}i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG: AND_INT {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z			; EG: AND_INT {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z
	; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb			; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb

	; MESA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c			; MESA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c
	; MESA-GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xff			; MESA-GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xff
	; HSA-VI: s_add_u32 [[SPTR_LO:s[0-9]+]], s4, 8
	; HSA-VI: s_addc_u32 [[SPTR_HI:s[0-9]+]], s5, 0
	; HSA-VI: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], [[SPTR_LO]]
	; HSA-VI: v_mov_b32_e32 v[[VPTR_HI:[0-9]+]], [[SPTR_HI]]
	; FIXME: Should be using s_load_dword
	; HSA-VI: flat_load_ushort v{{[0-9]+}}, v{{\[}}[[VPTR_LO]]:[[VPTR_HI]]]{{$}}

				; HSA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x8
				; HSA-VI: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xffff{{$}}
				; HSA-VI: flat_store_dword
	define amdgpu_kernel void @i16_arg(i32 addrspace(1)* nocapture %out, i16 %in) nounwind {			define amdgpu_kernel void @i16_arg(i32 addrspace(1)* nocapture %out, i16 %in) nounwind {
	entry:			entry:
	%0 = zext i16 %in to i32			%0 = zext i16 %in to i32
	store i32 %0, i32 addrspace(1)* %out, align 4			store i32 %0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i16_zext_arg:			; FUNC-LABEL: {{^}}i16_zext_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z			; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z
	; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb			; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb
	; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c			; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c
	; HSA-VI: s_add_u32 [[SPTR_LO:s[0-9]+]], s4, 8
	; HSA-VI: s_addc_u32 [[SPTR_HI:s[0-9]+]], s5, 0
	; HSA-VI: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], [[SPTR_LO]]
	; HSA-VI: v_mov_b32_e32 v[[VPTR_HI:[0-9]+]], [[SPTR_HI]]
	; FIXME: Should be using s_load_dword
	; HSA-VI: flat_load_ushort v{{[0-9]+}}, v{{\[}}[[VPTR_LO]]:[[VPTR_HI]]]{{$}}

				; HSA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x8
				; HSA-VI: s_and_b32 s{{[0-9]+}}, [[VAL]], 0xffff{{$}}
				; HSA-VI: flat_store_dword
	define amdgpu_kernel void @i16_zext_arg(i32 addrspace(1)* nocapture %out, i16 zeroext %in) nounwind {			define amdgpu_kernel void @i16_zext_arg(i32 addrspace(1)* nocapture %out, i16 zeroext %in) nounwind {
	entry:			entry:
	%0 = zext i16 %in to i32			%0 = zext i16 %in to i32
	store i32 %0, i32 addrspace(1)* %out, align 4			store i32 %0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i16_sext_arg:			; FUNC-LABEL: {{^}}i16_sext_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z			; EG: MOV {{[ ]}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z
	; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb			; SI: s_load_dword s{{[0-9]}}, s[0:1], 0xb
	; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c			; MESA-VI: s_load_dword s{{[0-9]}}, s[0:1], 0x2c
	; HSA-VI: s_add_u32 [[SPTR_LO:s[0-9]+]], s4, 8
	; HSA-VI: s_addc_u32 [[SPTR_HI:s[0-9]+]], s5, 0
	; HSA-VI: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], [[SPTR_LO]]
	; HSA-VI: v_mov_b32_e32 v[[VPTR_HI:[0-9]+]], [[SPTR_HI]]
	; FIXME: Should be using s_load_dword
	; HSA-VI: flat_load_sshort v{{[0-9]+}}, v{{\[}}[[VPTR_LO]]:[[VPTR_HI]]]{{$}}


				; HSA-VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x8
				; HSA-VI: s_sext_i32_i16 s{{[0-9]+}}, [[VAL]]
				; HSA-VI: flat_store_dword
	define amdgpu_kernel void @i16_sext_arg(i32 addrspace(1)* nocapture %out, i16 signext %in) nounwind {			define amdgpu_kernel void @i16_sext_arg(i32 addrspace(1)* nocapture %out, i16 signext %in) nounwind {
	entry:			entry:
	%0 = sext i16 %in to i32			%0 = sext i16 %in to i32
	store i32 %0, i32 addrspace(1)* %out, align 4			store i32 %0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i32_arg:			; FUNC-LABEL: {{^}}i32_arg:
	Show All 25 Lines

	; FUNC-LABEL: {{^}}v2i8_arg:			; FUNC-LABEL: {{^}}v2i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8

	; SI: buffer_load_ubyte			; GCN: s_load_dword s
	; SI: buffer_load_ubyte			; GCN-NOT: {{buffer\|flat\|global}}_load_

	; HSA: flat_load_ushort
	define amdgpu_kernel void @v2i8_arg(<2 x i8> addrspace(1)* %out, <2 x i8> %in) {			define amdgpu_kernel void @v2i8_arg(<2 x i8> addrspace(1)* %out, <2 x i8> %in) {
	entry:			entry:
	store <2 x i8> %in, <2 x i8> addrspace(1)* %out			store <2 x i8> %in, <2 x i8> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v2i16_arg:			; FUNC-LABEL: {{^}}v2i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines

	; FUNC-LABEL: {{^}}v3i8_arg:			; FUNC-LABEL: {{^}}v3i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 40			; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 40
	; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 41			; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 41
	; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 42			; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 42
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte

	; MESA-VI: buffer_load_ushort
	; MESA-VI: buffer_load_ubyte

	; HSA-VI: flat_load_ushort			; GCN: s_load_dword s
	; HSA-VI: flat_load_ubyte			; GCN-NOT: {{buffer\|flat\|global}}_load_
	define amdgpu_kernel void @v3i8_arg(<3 x i8> addrspace(1)* nocapture %out, <3 x i8> %in) nounwind {			define amdgpu_kernel void @v3i8_arg(<3 x i8> addrspace(1)* nocapture %out, <3 x i8> %in) nounwind {
	entry:			entry:
	store <3 x i8> %in, <3 x i8> addrspace(1)* %out, align 4			store <3 x i8> %in, <3 x i8> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v3i16_arg:			; FUNC-LABEL: {{^}}v3i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 16			; HSA-VI: kernarg_segment_byte_size = 16
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 44			; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 44
	; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 46			; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 46
	; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 48			; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 48

	; GCN-DAG: s_load_dword s			; GCN: s_load_dword s
	; GCN-DAG: {{buffer\|flat}}_load_ushort			; GCN: s_load_dword s
	define amdgpu_kernel void @v3i16_arg(<3 x i16> addrspace(1)* nocapture %out, <3 x i16> %in) nounwind {			define amdgpu_kernel void @v3i16_arg(<3 x i16> addrspace(1)* nocapture %out, <3 x i16> %in) nounwind {
	entry:			entry:
	store <3 x i16> %in, <3 x i16> addrspace(1)* %out, align 4			store <3 x i16> %in, <3 x i16> addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	; FUNC-LABEL: {{^}}v3i32_arg:			; FUNC-LABEL: {{^}}v3i32_arg:
	; HSA-VI: kernarg_segment_byte_size = 32			; HSA-VI: kernarg_segment_byte_size = 32
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	Show All 27 Lines
	; FUNC-LABEL: {{^}}v4i8_arg:			; FUNC-LABEL: {{^}}v4i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8

	; SI: buffer_load_ubyte			; GCN: s_load_dword s
	; SI: buffer_load_ubyte			; GCN-NOT: {{buffer\|flat\|global}}_load_
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte

	; VI: s_load_dword s
	define amdgpu_kernel void @v4i8_arg(<4 x i8> addrspace(1)* %out, <4 x i8> %in) {			define amdgpu_kernel void @v4i8_arg(<4 x i8> addrspace(1)* %out, <4 x i8> %in) {
	entry:			entry:
	store <4 x i8> %in, <4 x i8> addrspace(1)* %out			store <4 x i8> %in, <4 x i8> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v4i16_arg:			; FUNC-LABEL: {{^}}v4i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 16			; HSA-VI: kernarg_segment_byte_size = 16
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16

	; SI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0xb			; SI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0xb
				; SI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0xc
	; SI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x9			; SI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x9

	; MESA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; MESA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0x2c
	; MESA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0x30			; MESA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0x30

	; HSA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0x8			; HSA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0x8
	; HSA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0xc			; HSA-VI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0xc
	define amdgpu_kernel void @v4i16_arg(<4 x i16> addrspace(1)* %out, <4 x i16> %in) {			define amdgpu_kernel void @v4i16_arg(<4 x i16> addrspace(1)* %out, <4 x i16> %in) {
	Show All 30 Lines
	; MESA-VI: s_load_dwordx4 s{{\[[0-9]:[0-9]\]}}, s[0:1], 0x34			; MESA-VI: s_load_dwordx4 s{{\[[0-9]:[0-9]\]}}, s[0:1], 0x34
	; HSA-VI: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x10			; HSA-VI: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x10
	define amdgpu_kernel void @v4f32_arg(<4 x float> addrspace(1)* nocapture %out, <4 x float> %in) nounwind {			define amdgpu_kernel void @v4f32_arg(<4 x float> addrspace(1)* nocapture %out, <4 x float> %in) nounwind {
	entry:			entry:
	store <4 x float> %in, <4 x float> addrspace(1)* %out, align 4			store <4 x float> %in, <4 x float> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

				; FIXME: Lots of unpack and re-pack junk on VI
	; FUNC-LABEL: {{^}}v8i8_arg:			; FUNC-LABEL: {{^}}v8i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 16			; HSA-VI: kernarg_segment_byte_size = 16
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8

	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte

	; VI: s_load_dwordx2			; SI: s_load_dword s
	; VI: s_load_dwordx2			; SI: s_load_dword s
				; SI: s_load_dwordx2 s
				; SI-NOT: {{buffer\|flat\|global}}_load

				; VI: s_load_dword s
				; VI: s_load_dword s

				; VI: v_lshlrev_b16
				; VI: v_or_b32_e32
				; VI: v_or_b32_sdwa
				; VI: v_or_b32_sdwa
				; VI: v_lshlrev_b16
				; VI: s_lshr_b32
				; VI: v_or_b32_sdwa
				; VI: v_or_b32_sdwa
	define amdgpu_kernel void @v8i8_arg(<8 x i8> addrspace(1)* %out, <8 x i8> %in) {			define amdgpu_kernel void @v8i8_arg(<8 x i8> addrspace(1)* %out, <8 x i8> %in) {
	entry:			entry:
	store <8 x i8> %in, <8 x i8> addrspace(1)* %out			store <8 x i8> %in, <8 x i8> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v8i16_arg:			; FUNC-LABEL: {{^}}v8i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 32			; HSA-VI: kernarg_segment_byte_size = 32
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16

				; SI: s_load_dword s
				; SI: s_load_dword s
				; SI: s_load_dword s
				; SI: s_load_dword s
	; SI: s_load_dwordx2			; SI: s_load_dwordx2
	; SI: s_load_dwordx2			; SI-NOT: {{buffer\|flat\|global}}_load
	; SI: s_load_dwordx2

	; VI: s_load_dwordx2			; VI: s_load_dwordx2
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	define amdgpu_kernel void @v8i16_arg(<8 x i16> addrspace(1)* %out, <8 x i16> %in) {			define amdgpu_kernel void @v8i16_arg(<8 x i16> addrspace(1)* %out, <8 x i16> %in) {
	entry:			entry:
	Show All 34 Lines
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[6].X			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[6].X
	; SI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x11			; SI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x11
	define amdgpu_kernel void @v8f32_arg(<8 x float> addrspace(1)* nocapture %out, <8 x float> %in) nounwind {			define amdgpu_kernel void @v8f32_arg(<8 x float> addrspace(1)* nocapture %out, <8 x float> %in) nounwind {
	entry:			entry:
	store <8 x float> %in, <8 x float> addrspace(1)* %out, align 4			store <8 x float> %in, <8 x float> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

				; FIXME: Pack/repack on VI

	; FUNC-LABEL: {{^}}v16i8_arg:			; FUNC-LABEL: {{^}}v16i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 32			; HSA-VI: kernarg_segment_byte_size = 32
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8

	; SI: buffer_load_ubyte			; SI: s_load_dword s
	; SI: buffer_load_ubyte			; SI: s_load_dword s
	; SI: buffer_load_ubyte			; SI: s_load_dword s
	; SI: buffer_load_ubyte			; SI: s_load_dword s
	; SI: buffer_load_ubyte			; SI: s_load_dwordx2
	; SI: buffer_load_ubyte			; SI-NOT: {{buffer\|flat\|global}}_load
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte
	; SI: buffer_load_ubyte

	; VI: s_load_dwordx2
	; VI: s_load_dwordx2			; VI: s_load_dword s
	; VI: s_load_dwordx2			; VI: s_load_dword s
				; VI: s_load_dword s
				; VI: s_load_dword s

				; VI: s_lshr_b32
				; VI: v_lshlrev_b16
				; VI: s_lshr_b32
				; VI: s_lshr_b32
				; VI: v_or_b32_sdwa
				; VI: v_or_b32_sdwa
				; VI: v_lshlrev_b16
				; VI: v_lshlrev_b16
				; VI: v_or_b32_sdwa
				; VI: v_or_b32_sdwa
				; VI: v_lshlrev_b16
				; VI: v_lshlrev_b16
				; VI: v_or_b32_sdwa
				; VI: v_or_b32_sdwa
	define amdgpu_kernel void @v16i8_arg(<16 x i8> addrspace(1)* %out, <16 x i8> %in) {			define amdgpu_kernel void @v16i8_arg(<16 x i8> addrspace(1)* %out, <16 x i8> %in) {
	entry:			entry:
	store <16 x i8> %in, <16 x i8> addrspace(1)* %out			store <16 x i8> %in, <16 x i8> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v16i16_arg:			; FUNC-LABEL: {{^}}v16i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 64			; HSA-VI: kernarg_segment_byte_size = 64
	; HSA-VI: kernarg_segment_alignment = 5			; HSA-VI: kernarg_segment_alignment = 5
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16

	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16

	; SI: s_load_dword s			; SI: s_load_dword s
	; SI: s_load_dword s			; SI: s_load_dword s
	; SI: s_load_dword s			; SI: s_load_dword s
	; SI: s_load_dword s			; SI: s_load_dword s
	; SI: s_load_dwordx2			; SI: s_load_dword s
	; SI: s_load_dwordx2			; SI: s_load_dword s
	; SI: s_load_dwordx2			; SI: s_load_dword s
				; SI: s_load_dword s

				; SI-NOT: {{buffer\|flat\|global}}_load


	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; store <1 x i64> %a, <1 x i64> addrspace(1)* %out, align 8			; store <1 x i64> %a, <1 x i64> addrspace(1)* %out, align 8
	; ret void			; ret void
	; }			; }

	; FUNC-LABEL: {{^}}i1_arg:			; FUNC-LABEL: {{^}}i1_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; SI: buffer_load_ubyte			; GCN: s_load_dword s
	; SI: v_and_b32_e32			; GCN: s_and_b32
	; SI: buffer_store_byte			; GCN: {{buffer\|flat}}_store_byte
	; SI: s_endpgm
	define amdgpu_kernel void @i1_arg(i1 addrspace(1)* %out, i1 %x) nounwind {			define amdgpu_kernel void @i1_arg(i1 addrspace(1)* %out, i1 %x) nounwind {
	store i1 %x, i1 addrspace(1)* %out, align 1			store i1 %x, i1 addrspace(1)* %out, align 1
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i1_arg_zext_i32:			; FUNC-LABEL: {{^}}i1_arg_zext_i32:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; SI: buffer_load_ubyte			; GCN: s_load_dword
	; SI: buffer_store_dword			; SGCN: buffer_store_dword
	; SI: s_endpgm
	define amdgpu_kernel void @i1_arg_zext_i32(i32 addrspace(1)* %out, i1 %x) nounwind {			define amdgpu_kernel void @i1_arg_zext_i32(i32 addrspace(1)* %out, i1 %x) nounwind {
	%ext = zext i1 %x to i32			%ext = zext i1 %x to i32
	store i32 %ext, i32 addrspace(1)* %out, align 4			store i32 %ext, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i1_arg_zext_i64:			; FUNC-LABEL: {{^}}i1_arg_zext_i64:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; SI: buffer_load_ubyte			; GCN: s_load_dword s
	; SI: buffer_store_dwordx2			; GCN: {{buffer\|flat}}_store_dwordx2
	; SI: s_endpgm
	define amdgpu_kernel void @i1_arg_zext_i64(i64 addrspace(1)* %out, i1 %x) nounwind {			define amdgpu_kernel void @i1_arg_zext_i64(i64 addrspace(1)* %out, i1 %x) nounwind {
	%ext = zext i1 %x to i64			%ext = zext i1 %x to i64
	store i64 %ext, i64 addrspace(1)* %out, align 8			store i64 %ext, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i1_arg_sext_i32:			; FUNC-LABEL: {{^}}i1_arg_sext_i32:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; SI: buffer_load_ubyte			; GCN: s_load_dword
	; SI: buffer_store_dword			; GCN: {{buffer\|flat}}_store_dword
	; SI: s_endpgm
	define amdgpu_kernel void @i1_arg_sext_i32(i32 addrspace(1)* %out, i1 %x) nounwind {			define amdgpu_kernel void @i1_arg_sext_i32(i32 addrspace(1)* %out, i1 %x) nounwind {
	%ext = sext i1 %x to i32			%ext = sext i1 %x to i32
	store i32 %ext, i32addrspace(1)* %out, align 4			store i32 %ext, i32addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}i1_arg_sext_i64:			; FUNC-LABEL: {{^}}i1_arg_sext_i64:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; SI: buffer_load_ubyte			; GCN: s_load_dword
	; SI: v_bfe_i32			; GCN: s_bfe_i64
	; SI: v_ashrrev_i32			; GCN: {{buffer\|flat}}_store_dwordx2
	; SI: buffer_store_dwordx2
	; SI: s_endpgm
	define amdgpu_kernel void @i1_arg_sext_i64(i64 addrspace(1)* %out, i1 %x) nounwind {			define amdgpu_kernel void @i1_arg_sext_i64(i64 addrspace(1)* %out, i1 %x) nounwind {
	%ext = sext i1 %x to i64			%ext = sext i1 %x to i64
	store i64 %ext, i64 addrspace(1)* %out, align 8			store i64 %ext, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/llvm.amdgcn.buffer.store.format.d16.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,UNPACKED %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,UNPACKED %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX81 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX81 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX9 %s

	; GCN-LABEL: {{^}}buffer_store_format_d16_x:			; GCN-LABEL: {{^}}buffer_store_format_d16_x:
	; GCN: {{buffer\|flat\|global}}_load_ushort v[[LO:[0-9]+]]			; GCN: s_load_dword s[[LO:[0-9]+]]
	; GCN: buffer_store_format_d16_x v[[LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen			; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[LO]]
				; GCN: buffer_store_format_d16_x v[[V_LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen
	define amdgpu_kernel void @buffer_store_format_d16_x(<4 x i32> %rsrc, half %data, i32 %index) {			define amdgpu_kernel void @buffer_store_format_d16_x(<4 x i32> %rsrc, half %data, i32 %index) {
	main_body:			main_body:
	call void @llvm.amdgcn.buffer.store.format.f16(half %data, <4 x i32> %rsrc, i32 %index, i32 0, i1 0, i1 0)			call void @llvm.amdgcn.buffer.store.format.f16(half %data, <4 x i32> %rsrc, i32 %index, i32 0, i1 0, i1 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_format_d16_xy:			; GCN-LABEL: {{^}}buffer_store_format_d16_xy:

	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.class.f16.ll

Show All 18 Lines	entry:
%b.val = load i32, i32 addrspace(1)* %b		%b.val = load i32, i32 addrspace(1)* %b
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 %b.val)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 %b.val)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}class_f16_fabs:		; GCN-LABEL: {{^}}class_f16_fabs:
; GCN-DAG: buffer_load_ushort v[[SA_F16:[0-9]+]]		; GCN: s_load_dword s[[SA_F16:[0-9]+]]
; GCN-DAG: s_load_dword s[[SB_I32:[0-9]+]]		; GCN: s_load_dword s[[SB_I32:[0-9]+]]
; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|v[[SA_F16]]\|, s[[SB_I32]]		; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]
		; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|s[[SA_F16]]\|, [[V_B_I32]]
; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]		; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
; GCN: buffer_store_dword v[[VR_I32]]		; GCN: buffer_store_dword v[[VR_I32]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @class_f16_fabs(		define amdgpu_kernel void @class_f16_fabs(
i32 addrspace(1)* %r,		i32 addrspace(1)* %r,
half %a.val,		half %a.val,
i32 %b.val) {		i32 %b.val) {
entry:		entry:
%a.val.fabs = call half @llvm.fabs.f16(half %a.val)		%a.val.fabs = call half @llvm.fabs.f16(half %a.val)
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs, i32 %b.val)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs, i32 %b.val)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}class_f16_fneg		; GCN-LABEL: {{^}}class_f16_fneg:
; GCN: buffer_load_ushort v[[SA_F16:[0-9]+]]		; GCN: s_load_dword s[[SA_F16:[0-9]+]]
; GCN: s_load_dword s[[SB_I32:[0-9]+]]		; GCN: s_load_dword s[[SB_I32:[0-9]+]]
; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -v[[SA_F16]], s[[SB_I32]]		; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]
		; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -s[[SA_F16]], [[V_B_I32]]
; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]		; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
; GCN: buffer_store_dword v[[VR_I32]]		; GCN: buffer_store_dword v[[VR_I32]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @class_f16_fneg(		define amdgpu_kernel void @class_f16_fneg(
i32 addrspace(1)* %r,		i32 addrspace(1)* %r,
half %a.val,		half %a.val,
i32 %b.val) {		i32 %b.val) {
entry:		entry:
%a.val.fneg = fsub half -0.0, %a.val		%a.val.fneg = fsub half -0.0, %a.val
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fneg, i32 %b.val)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fneg, i32 %b.val)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}class_f16_fabs_fneg		; GCN-LABEL: {{^}}class_f16_fabs_fneg:
; GCN-DAG: buffer_load_ushort v[[SA_F16:[0-9]+]]		; GCN: s_load_dword s[[SA_F16:[0-9]+]]
; GCN-DAG: s_load_dword s[[SB_I32:[0-9]+]]		; GCN: s_load_dword s[[SB_I32:[0-9]+]]
; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|v[[SA_F16]]\|, s[[SB_I32]]		; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]
		; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|s[[SA_F16]]\|, [[V_B_I32]]
; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]		; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
; GCN: buffer_store_dword v[[VR_I32]]		; GCN: buffer_store_dword v[[VR_I32]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @class_f16_fabs_fneg(		define amdgpu_kernel void @class_f16_fabs_fneg(
i32 addrspace(1)* %r,		i32 addrspace(1)* %r,
half %a.val,		half %a.val,
i32 %b.val) {		i32 %b.val) {
entry:		entry:
%a.val.fabs = call half @llvm.fabs.f16(half %a.val)		%a.val.fabs = call half @llvm.fabs.f16(half %a.val)
%a.val.fabs.fneg = fsub half -0.0, %a.val.fabs		%a.val.fabs.fneg = fsub half -0.0, %a.val.fabs
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs.fneg, i32 %b.val)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs.fneg, i32 %b.val)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}class_f16_1:		; GCN-LABEL: {{^}}class_f16_1:
; GCN: buffer_load_ushort v[[SA_F16:[0-9]+]]		; GCN: s_load_dword s[[SA_F16:[0-9]+]]
; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], v[[SA_F16]], 1{{$}}		; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], s[[SA_F16]], 1{{$}}
; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]		; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
; GCN: buffer_store_dword v[[VR_I32]]		; GCN: buffer_store_dword v[[VR_I32]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @class_f16_1(		define amdgpu_kernel void @class_f16_1(
i32 addrspace(1)* %r,		i32 addrspace(1)* %r,
half %a.val) {		half %a.val) {
entry:		entry:
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 1)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 1)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}class_f16_64		; GCN-LABEL: {{^}}class_f16_64
; GCN: buffer_load_ushort v[[SA_F16:[0-9]+]]		; GCN: s_load_dword s[[SA_F16:[0-9]+]]
; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], v[[SA_F16]], 64{{$}}		; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], s[[SA_F16]], 64{{$}}
; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]		; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
; GCN: buffer_store_dword v[[VR_I32]]		; GCN: buffer_store_dword v[[VR_I32]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @class_f16_64(		define amdgpu_kernel void @class_f16_64(
i32 addrspace(1)* %r,		i32 addrspace(1)* %r,
half %a.val) {		half %a.val) {
entry:		entry:
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 64)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 64)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}class_f16_full_mask:		; GCN-LABEL: {{^}}class_f16_full_mask:
; GCN: buffer_load_ushort v[[SA_F16:[0-9]+]]		; GCN: s_load_dword s[[SA_F16:[0-9]+]]
; VI: v_mov_b32_e32 v[[MASK:[0-9]+]], 0x3ff{{$}}		; VI: v_mov_b32_e32 v[[MASK:[0-9]+]], 0x3ff{{$}}
; VI: v_cmp_class_f16_e32 vcc, v[[SA_F16]], v[[MASK]]		; VI: v_cmp_class_f16_e32 vcc, s[[SA_F16]], v[[MASK]]
; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, vcc		; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, vcc
; GCN: buffer_store_dword v[[VR_I32]]		; GCN: buffer_store_dword v[[VR_I32]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @class_f16_full_mask(		define amdgpu_kernel void @class_f16_full_mask(
i32 addrspace(1)* %r,		i32 addrspace(1)* %r,
half %a.val) {		half %a.val) {
entry:		entry:
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 1023)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 1023)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}class_f16_nine_bit_mask		; GCN-LABEL: {{^}}class_f16_nine_bit_mask:
; GCN: buffer_load_ushort v[[SA_F16:[0-9]+]]		; GCN: s_load_dword s[[SA_F16:[0-9]+]]
; VI: v_mov_b32_e32 v[[MASK:[0-9]+]], 0x1ff{{$}}		; VI: v_mov_b32_e32 v[[MASK:[0-9]+]], 0x1ff{{$}}
; VI: v_cmp_class_f16_e32 vcc, v[[SA_F16]], v[[MASK]]		; VI: v_cmp_class_f16_e32 vcc, s[[SA_F16]], v[[MASK]]
; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, vcc		; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, vcc
; GCN: buffer_store_dword v[[VR_I32]]		; GCN: buffer_store_dword v[[VR_I32]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @class_f16_nine_bit_mask(		define amdgpu_kernel void @class_f16_nine_bit_mask(
i32 addrspace(1)* %r,		i32 addrspace(1)* %r,
half %a.val) {		half %a.val) {
entry:		entry:
%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 511)		%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val, i32 511)
%r.val.sext = sext i1 %r.val to i32		%r.val.sext = sext i1 %r.val to i32
store i32 %r.val.sext, i32 addrspace(1)* %r		store i32 %r.val.sext, i32 addrspace(1)* %r
ret void		ret void
}		}

test/CodeGen/AMDGPU/llvm.amdgcn.image.d16.ll

	Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	define half @image_load_mip_v4f16(<4 x i32> %coords, <8 x i32> inreg %rsrc) {			define half @image_load_mip_v4f16(<4 x i32> %coords, <8 x i32> inreg %rsrc) {
	main_body:			main_body:
	%tex = call <4 x half> @llvm.amdgcn.image.load.mip.v4f16.v4i32.v8i32(<4 x i32> %coords, <8 x i32> %rsrc, i32 15, i1 false, i1 false, i1 false, i1 false)			%tex = call <4 x half> @llvm.amdgcn.image.load.mip.v4f16.v4i32.v8i32(<4 x i32> %coords, <8 x i32> %rsrc, i32 15, i1 false, i1 false, i1 false, i1 false)
	%elt = extractelement <4 x half> %tex, i32 3			%elt = extractelement <4 x half> %tex, i32 3
	ret half %elt			ret half %elt
	}			}

	; GCN-LABEL: {{^}}image_store_f16			; GCN-LABEL: {{^}}image_store_f16
	; GCN: {{flat\|global}}_load_ushort v[[LO:[0-9]+]],			; GCN: s_load_dword s[[LO:[0-9]+]],
	; GCN: image_store v[[LO]], v[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}] dmask:0x1 unorm d16			; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[LO]]
				; GCN: image_store v[[V_LO]], v[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}] dmask:0x1 unorm d16
	define amdgpu_kernel void @image_store_f16(half %data, <4 x i32> %coords, <8 x i32> inreg %rsrc) {			define amdgpu_kernel void @image_store_f16(half %data, <4 x i32> %coords, <8 x i32> inreg %rsrc) {
	main_body:			main_body:
	call void @llvm.amdgcn.image.store.f16.v4i32.v8i32(half %data, <4 x i32> %coords, <8 x i32> %rsrc, i32 1, i1 false, i1 false, i1 false, i1 false)			call void @llvm.amdgcn.image.store.f16.v4i32.v8i32(half %data, <4 x i32> %coords, <8 x i32> %rsrc, i32 1, i1 false, i1 false, i1 false, i1 false)
	ret void			ret void
	}			}

	; FIXME: Eliminate and to get low bits			; FIXME: Eliminate and to get low bits
	; GCN-LABEL: {{^}}image_store_v2f16:			; GCN-LABEL: {{^}}image_store_v2f16:
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.d16.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s


	; GCN-LABEL: {{^}}tbuffer_store_d16_x:			; GCN-LABEL: {{^}}tbuffer_store_d16_x:
	; GCN: {{flat\|global}}_load_ushort v[[LO:[0-9]+]],			; GCN: s_load_dword s[[S_LO:[0-9]+]]
	; GCN: tbuffer_store_format_d16_x v[[LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen			; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[S_LO]]
				; GCN: tbuffer_store_format_d16_x v[[V_LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
	define amdgpu_kernel void @tbuffer_store_d16_x(<4 x i32> %rsrc, half %data, i32 %vindex) {			define amdgpu_kernel void @tbuffer_store_d16_x(<4 x i32> %rsrc, half %data, i32 %vindex) {
	main_body:			main_body:
	call void @llvm.amdgcn.tbuffer.store.f16(half %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.tbuffer.store.f16(half %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}tbuffer_store_d16_xy:			; GCN-LABEL: {{^}}tbuffer_store_d16_xy:
	; GCN: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10			; GCN: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10
	Show All 40 Lines

test/CodeGen/AMDGPU/lshr.v2i16.ll

	Show All 12 Lines
	; VI: s_load_dword [[RHS:s[0-9]+]]			; VI: s_load_dword [[RHS:s[0-9]+]]
	; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16			; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16			; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}			; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; VI-DAG: v_bfe_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, 16			; VI-DAG: v_bfe_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, 16
	; VI-DAG: s_lshl_b32			; VI-DAG: s_lshl_b32
	; VI: v_or_b32_e32			; VI: v_or_b32_e32

	; CI: v_lshrrev_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: s_load_dword s
	; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; CI-NEXT: s_load_dword s
	; CI-DAG: v_bfe_u32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, 16			; CI-NOT: {{buffer\|flat}}
	; CI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: s_mov_b32 [[MASK:s[0-9]+]], 0xffff{{$}}
				; CI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
				; CI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
				; CI: s_and_b32
				; CI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
				; CI: s_and_b32
				; CI: v_bfe_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, 16
				; CI: s_lshl_b32
				; CI: v_or_b32_e32
	define amdgpu_kernel void @s_lshr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {			define amdgpu_kernel void @s_lshr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {
	%result = lshr <2 x i16> %lhs, %rhs			%result = lshr <2 x i16> %lhs, %rhs
	store <2 x i16> %result, <2 x i16> addrspace(1)* %out			store <2 x i16> %result, <2 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_lshr_v2i16:			; GCN-LABEL: {{^}}v_lshr_v2i16:
	; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]			; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]
	▲ Show 20 Lines • Show All 126 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/min.ll

Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @s_test_imin_sle_i8(i8 addrspace(1)* %out, i8 %a, i8 %b) #0 {
store i8 %val, i8 addrspace(1)* %out		store i8 %val, i8 addrspace(1)* %out
ret void		ret void
}		}

; XXX - should be able to use s_min if we stop unnecessarily doing		; XXX - should be able to use s_min if we stop unnecessarily doing
; extloads with mubuf instructions.		; extloads with mubuf instructions.

; FUNC-LABEL: {{^}}s_test_imin_sle_v4i8:		; FUNC-LABEL: {{^}}s_test_imin_sle_v4i8:
; GCN: buffer_load_sbyte		; GCN: s_load_dword s
; GCN: buffer_load_sbyte		; GCN: s_load_dword s
; GCN: buffer_load_sbyte		; GCN-NOT: _load_
; GCN: buffer_load_sbyte
; GCN: buffer_load_sbyte		; SI: s_min_i32
; GCN: buffer_load_sbyte		; SI: s_min_i32
; GCN: buffer_load_sbyte		; SI: s_min_i32
; GCN: buffer_load_sbyte		; SI: s_min_i32

; SI: v_min_i32		; VI: s_min_i32
; SI: v_min_i32		; VI: s_min_i32
; SI: v_min_i32		; VI: s_min_i32
; SI: v_min_i32		; VI: s_min_i32

; VI: v_min_i32
; VI: v_min_i32
; VI: v_min_i32
; VI: v_min_i32

; GFX9: v_min_i16		; GFX9: v_min_i16
; GFX9: v_min_i16		; GFX9: v_min_i16
; GFX9: v_min_i16		; GFX9: v_min_i16
; GFX9: v_min_i16		; GFX9: v_min_i16

; GCN: s_endpgm

; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
define amdgpu_kernel void @s_test_imin_sle_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, <4 x i8> %b) #0 {		define amdgpu_kernel void @s_test_imin_sle_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, <4 x i8> %b) #0 {
%cmp = icmp sle <4 x i8> %a, %b		%cmp = icmp sle <4 x i8> %a, %b
%val = select <4 x i1> %cmp, <4 x i8> %a, <4 x i8> %b		%val = select <4 x i1> %cmp, <4 x i8> %a, <4 x i8> %b
store <4 x i8> %val, <4 x i8> addrspace(1)* %out		store <4 x i8> %val, <4 x i8> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_test_imin_sle_v2i16:		; FUNC-LABEL: {{^}}s_test_imin_sle_v2i16:
; SI: v_min_i32		; GCN: s_load_dword s
; SI: v_min_i32		; GCN: s_load_dword s

		; SI: s_ashr_i32
		; SI: s_ashr_i32
		; SI: s_sext_i32_i16
		; SI: s_sext_i32_i16
		; SI: s_min_i32
		; SI: s_min_i32

; VI: s_sext_i32_i16		; VI: s_sext_i32_i16
; VI: s_sext_i32_i16		; VI: s_sext_i32_i16
; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32

; GFX9: v_pk_min_i16		; GFX9: v_pk_min_i16

; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
define amdgpu_kernel void @s_test_imin_sle_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #0 {		define amdgpu_kernel void @s_test_imin_sle_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #0 {
%cmp = icmp sle <2 x i16> %a, %b		%cmp = icmp sle <2 x i16> %a, %b
%val = select <2 x i1> %cmp, <2 x i16> %a, <2 x i16> %b		%val = select <2 x i1> %cmp, <2 x i16> %a, <2 x i16> %b
store <2 x i16> %val, <2 x i16> addrspace(1)* %out		store <2 x i16> %val, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_test_imin_sle_v4i16:		; FUNC-LABEL: {{^}}s_test_imin_sle_v4i16:
; SI: v_min_i32		; SI-NOT: buffer_load
; SI: v_min_i32		; SI: s_min_i32
; SI: v_min_i32		; SI: s_min_i32
; SI: v_min_i32		; SI: s_min_i32
		; SI: s_min_i32

; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32

; GFX9: v_pk_min_i16		; GFX9: v_pk_min_i16
; GFX9: v_pk_min_i16		; GFX9: v_pk_min_i16
▲ Show 20 Lines • Show All 299 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @s_test_umin_ult_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> %a, <8 x i32> %b) #0 {		define amdgpu_kernel void @s_test_umin_ult_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> %a, <8 x i32> %b) #0 {
%cmp = icmp ult <8 x i32> %a, %b		%cmp = icmp ult <8 x i32> %a, %b
%val = select <8 x i1> %cmp, <8 x i32> %a, <8 x i32> %b		%val = select <8 x i1> %cmp, <8 x i32> %a, <8 x i32> %b
store <8 x i32> %val, <8 x i32> addrspace(1)* %out		store <8 x i32> %val, <8 x i32> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_test_umin_ult_v8i16:		; FUNC-LABEL: {{^}}s_test_umin_ult_v8i16:
; SI: v_min_u32		; GCN-NOT: {{buffer\|flat\|global}}_load
; SI: v_min_u32		; SI: s_min_u32
; SI: v_min_u32		; SI: s_min_u32
; SI: v_min_u32		; SI: s_min_u32
; SI: v_min_u32		; SI: s_min_u32
; SI: v_min_u32		; SI: s_min_u32
; SI: v_min_u32		; SI: s_min_u32
; SI: v_min_u32		; SI: s_min_u32
		; SI: s_min_u32

; VI: s_min_u32		; VI: s_min_u32
; VI: s_min_u32		; VI: s_min_u32
; VI: s_min_u32		; VI: s_min_u32
; VI: s_min_u32		; VI: s_min_u32
; VI: s_min_u32		; VI: s_min_u32
; VI: s_min_u32		; VI: s_min_u32
; VI: s_min_u32		; VI: s_min_u32
▲ Show 20 Lines • Show All 170 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/reduce-store-width-alignment.ll

	Show All 34 Lines
	define amdgpu_kernel void @store_v4i32_as_v2i64_align_4(<2 x i64> addrspace(3)* align 4 %out, <4 x i32> %x) #0 {			define amdgpu_kernel void @store_v4i32_as_v2i64_align_4(<2 x i64> addrspace(3)* align 4 %out, <4 x i32> %x) #0 {
	%x.bc = bitcast <4 x i32> %x to <2 x i64>			%x.bc = bitcast <4 x i32> %x to <2 x i64>
	store <2 x i64> %x.bc, <2 x i64> addrspace(3)* %out, align 4			store <2 x i64> %x.bc, <2 x i64> addrspace(3)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}store_v4i16_as_v2i32_align_4:			; GCN-LABEL: {{^}}store_v4i16_as_v2i32_align_4:
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN: s_load_dwordx2 s			; GCN-NEXT: s_load_dword s
				; GCN-NEXT: s_load_dword s
				; GCN-NOT: {{buffer\|flat\|global}}

	; GCN: ds_write2_b32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} offset1:1{{$}}			; GCN: ds_write2_b32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} offset1:1{{$}}
	define amdgpu_kernel void @store_v4i16_as_v2i32_align_4(<2 x i32> addrspace(3)* align 4 %out, <4 x i16> %x) #0 {			define amdgpu_kernel void @store_v4i16_as_v2i32_align_4(<2 x i32> addrspace(3)* align 4 %out, <4 x i16> %x) #0 {
	%x.bc = bitcast <4 x i16> %x to <2 x i32>			%x.bc = bitcast <4 x i16> %x to <2 x i32>
	store <2 x i32> %x.bc, <2 x i32> addrspace(3)* %out, align 4			store <2 x i32> %x.bc, <2 x i32> addrspace(3)* %out, align 4
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

test/CodeGen/AMDGPU/select-i1.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s

	; FIXME: This should go in existing select.ll test, except the current testcase there is broken on SI			; FIXME: This should go in existing select.ll test, except the current testcase there is broken on GCN

	; FUNC-LABEL: {{^}}select_i1:			; GCN-LABEL: {{^}}select_i1:
	; SI: v_cndmask_b32			; GCN: v_cndmask_b32
	; SI-NOT: v_cndmask_b32			; GCN-NOT: v_cndmask_b32
	define amdgpu_kernel void @select_i1(i1 addrspace(1)* %out, i32 %cond, i1 %a, i1 %b) nounwind {			define amdgpu_kernel void @select_i1(i1 addrspace(1)* %out, i32 %cond, i1 %a, i1 %b) nounwind {
	%cmp = icmp ugt i32 %cond, 5			%cmp = icmp ugt i32 %cond, 5
	%sel = select i1 %cmp, i1 %a, i1 %b			%sel = select i1 %cmp, i1 %a, i1 %b
	store i1 %sel, i1 addrspace(1)* %out, align 4			store i1 %sel, i1 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}s_minmax_i1:			; GCN-LABEL: {{^}}s_minmax_i1:
	; SI-DAG: buffer_load_ubyte [[COND:v[0-9]+]], off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:44			; GCN: s_load_dword [[LOAD:s[0-9]+]],
	; SI-DAG: buffer_load_ubyte [[A:v[0-9]+]], off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:45			; GCN-DAG: s_lshr_b32 [[A:s[0-9]+]], [[LOAD]], 8
	; SI-DAG: buffer_load_ubyte [[B:v[0-9]+]], off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:46			; GCN-DAG: s_lshr_b32 [[B:s[0-9]+]], [[LOAD]], 16
	; SI: v_cmp_eq_u32_e32 vcc, 1, [[COND]]			; GCN-DAG: s_and_b32 [[COND:s[0-9]+]], 1, [[LOAD]]
	; SI: v_cndmask_b32_e32 v{{[0-9]+}}, [[B]], [[A]]			; GCN-DAG: v_mov_b32_e32 [[V_A:v[0-9]+]], [[A]]
				; GCN-DAG: v_mov_b32_e32 [[V_B:v[0-9]+]], [[B]]
				; GCN: v_cmp_eq_u32_e64 vcc, [[COND]], 1
				; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], [[V_B]], [[V_A]]
				; GCN: v_and_b32_e32 v{{[0-9]+}}, 1, [[SEL]]
	define amdgpu_kernel void @s_minmax_i1(i1 addrspace(1)* %out, i1 zeroext %cond, i1 zeroext %a, i1 zeroext %b) nounwind {			define amdgpu_kernel void @s_minmax_i1(i1 addrspace(1)* %out, i1 zeroext %cond, i1 zeroext %a, i1 zeroext %b) nounwind {
	%cmp = icmp slt i1 %cond, false			%cmp = icmp slt i1 %cond, false
	%sel = select i1 %cmp, i1 %a, i1 %b			%sel = select i1 %cmp, i1 %a, i1 %b
	store i1 %sel, i1 addrspace(1)* %out, align 4			store i1 %sel, i1 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/sext-in-reg.ll

Show First 20 Lines • Show All 657 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @sext_in_reg_v2i1_to_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #0 {
%shl = shl <2 x i16> %c, <i16 15, i16 15>		%shl = shl <2 x i16> %c, <i16 15, i16 15>
%ashr = ashr <2 x i16> %shl, <i16 15, i16 15>		%ashr = ashr <2 x i16> %shl, <i16 15, i16 15>
store <2 x i16> %ashr, <2 x i16> addrspace(1)* %out		store <2 x i16> %ashr, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}sext_in_reg_v3i1_to_v3i16:		; FUNC-LABEL: {{^}}sext_in_reg_v3i1_to_v3i16:
; GFX9: v_pk_add_u16		; GFX9: v_pk_add_u16
; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 15, v{{[0-9]+}}
; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 15, v{{[0-9]+}}
; GFX9: v_pk_add_u16		; GFX9: v_pk_add_u16
; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 15, v{{[0-9]+}}		; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 15, v{{[0-9]+}}
		; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 15, v{{[0-9]+}}
		; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 15, v{{[0-9]+}}
; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 15, v{{[0-9]+}}		; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 15, v{{[0-9]+}}
define amdgpu_kernel void @sext_in_reg_v3i1_to_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, <3 x i16> %b) #0 {		define amdgpu_kernel void @sext_in_reg_v3i1_to_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, <3 x i16> %b) #0 {
%c = add <3 x i16> %a, %b ; add to prevent folding into extload		%c = add <3 x i16> %a, %b ; add to prevent folding into extload
%shl = shl <3 x i16> %c, <i16 15, i16 15, i16 15>		%shl = shl <3 x i16> %c, <i16 15, i16 15, i16 15>
%ashr = ashr <3 x i16> %shl, <i16 15, i16 15, i16 15>		%ashr = ashr <3 x i16> %shl, <i16 15, i16 15, i16 15>
store <3 x i16> %ashr, <3 x i16> addrspace(1)* %out		store <3 x i16> %ashr, <3 x i16> addrspace(1)* %out
ret void		ret void
}		}
Show All 19 Lines	define amdgpu_kernel void @sext_in_reg_v2i8_to_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #0 {
%shl = shl <2 x i16> %c, <i16 8, i16 8>		%shl = shl <2 x i16> %c, <i16 8, i16 8>
%ashr = ashr <2 x i16> %shl, <i16 8, i16 8>		%ashr = ashr <2 x i16> %shl, <i16 8, i16 8>
store <2 x i16> %ashr, <2 x i16> addrspace(1)* %out		store <2 x i16> %ashr, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}sext_in_reg_v3i8_to_v3i16:		; FUNC-LABEL: {{^}}sext_in_reg_v3i8_to_v3i16:
; GFX9: v_pk_add_u16		; GFX9: v_pk_add_u16
; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 8, v{{[0-9]+}}
; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 8, v{{[0-9]+}}

; GFX9: v_pk_add_u16		; GFX9: v_pk_add_u16
; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 8, v{{[0-9]+}}		; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 8, v{{[0-9]+}}
		; GFX9: v_pk_lshlrev_b16 v{{[0-9]+}}, 8, v{{[0-9]+}}
		; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 8, v{{[0-9]+}}
; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 8, v{{[0-9]+}}		; GFX9: v_pk_ashrrev_i16 v{{[0-9]+}}, 8, v{{[0-9]+}}
define amdgpu_kernel void @sext_in_reg_v3i8_to_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, <3 x i16> %b) #0 {		define amdgpu_kernel void @sext_in_reg_v3i8_to_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, <3 x i16> %b) #0 {
%c = add <3 x i16> %a, %b ; add to prevent folding into extload		%c = add <3 x i16> %a, %b ; add to prevent folding into extload
%shl = shl <3 x i16> %c, <i16 8, i16 8, i16 8>		%shl = shl <3 x i16> %c, <i16 8, i16 8, i16 8>
%ashr = ashr <3 x i16> %shl, <i16 8, i16 8, i16 8>		%ashr = ashr <3 x i16> %shl, <i16 8, i16 8, i16 8>
store <3 x i16> %ashr, <3 x i16> addrspace(1)* %out		store <3 x i16> %ashr, <3 x i16> addrspace(1)* %out
ret void		ret void
}		}

declare i32 @llvm.r600.read.tidig.x() #1		declare i32 @llvm.r600.read.tidig.x() #1

attributes #0 = { nounwind }		attributes #0 = { nounwind }
attributes #1 = { nounwind readnone }		attributes #1 = { nounwind readnone }

test/CodeGen/AMDGPU/shl.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,CIVI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,CIVI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,CIVI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,CIVI %s

	; GCN-LABEL: {{^}}s_shl_v2i16:			; GCN-LABEL: {{^}}s_shl_v2i16:
	; GFX9: s_load_dword [[LHS:s[0-9]+]]			; GFX9: s_load_dword [[LHS:s[0-9]+]]
	; GFX9: s_load_dword [[RHS:s[0-9]+]]			; GFX9: s_load_dword [[RHS:s[0-9]+]]
	; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]			; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]
	; GFX9: v_pk_lshlrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]			; GFX9: v_pk_lshlrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]

	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_lshr_b32			; VI: s_lshr_b32
	; VI: s_lshr_b32			; VI: s_lshr_b32
	; VI: s_and_b32			; VI: s_and_b32
	; VI: s_and_b32			; VI: s_and_b32
	; SI: s_and_B32			; VI: s_and_b32
	; SI: s_or_b32			; VI: s_or_b32


	; CI-DAG: v_lshlrev_b32_e32			; CI: s_load_dword s
	; CI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}			; CI: s_load_dword s
	; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: s_lshr_b32
	; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; CI: s_and_b32
	; CI: v_or_b32_e32			; CI: s_lshr_b32
				; CI: s_lshl_b32
				; CI: s_lshl_b32
				; CI: s_lshl_b32
				; CI: s_and_b32
				; CI: s_or_b32
				; CI: _store_dword
	define amdgpu_kernel void @s_shl_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {			define amdgpu_kernel void @s_shl_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {
	%result = shl <2 x i16> %lhs, %rhs			%result = shl <2 x i16> %lhs, %rhs
	store <2 x i16> %result, <2 x i16> addrspace(1)* %out			store <2 x i16> %result, <2 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_shl_v2i16:			; GCN-LABEL: {{^}}v_shl_v2i16:
	; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]			; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]
	▲ Show 20 Lines • Show All 125 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sminmax.v2i16.ll

	Show All 12 Lines
	; VI: s_sub_i32			; VI: s_sub_i32
	; VI: s_max_i32			; VI: s_max_i32
	; VI: s_max_i32			; VI: s_max_i32
	; SI: s_add_i32			; SI: s_add_i32
	; SI: s_add_i32			; SI: s_add_i32
	; SI: s_and_b32			; SI: s_and_b32
	; SI: s_or_b32			; SI: s_or_b32

	; CI: v_sub_i32_e32			; CI-NOT: {{buffer\|flat}}_load
	; CI-DAG: v_sub_i32_e32			; CI: s_load_dword s
	; CI: v_bfe_i32			; CI-NOT: {{buffer\|flat}}_load
	; CI-DAG: v_bfe_i32			; CI: s_lshr_b32
	; CI-DAG: v_add_i32_e32			; CI: s_ashr_i32
	; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16			; CI: s_sext_i32_i16
	; CI: v_add_i32_e32			; CI: s_sub_i32
	; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff,			; CI: s_sub_i32
	; CI: v_or_b32_e32			; CI: s_sext_i32_i16
				; CI: s_sext_i32_i16
				; CI: s_max_i32
				; CI: s_max_i32
				; CI: s_lshl_b32
				; CI: s_add_i32
				; CI: s_add_i32
				; CI: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0xffff
				; CI: s_or_b32

	define amdgpu_kernel void @s_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %val) #0 {			define amdgpu_kernel void @s_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %val) #0 {
	%neg = sub <2 x i16> zeroinitializer, %val			%neg = sub <2 x i16> zeroinitializer, %val
	%cond = icmp sgt <2 x i16> %val, %neg			%cond = icmp sgt <2 x i16> %val, %neg
	%res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg			%res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg
	%res2 = add <2 x i16> %res, <i16 2, i16 2>			%res2 = add <2 x i16> %res, <i16 2, i16 2>
	store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4			store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 198 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/widen-smrd-loads.ll

This file was added.

				; RUN: llc -amdgpu-codegenprepare-widen-constant-loads=0 -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
				; RUN: llc -amdgpu-codegenprepare-widen-constant-loads=0 -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s

				; GCN-LABEL: {{^}}widen_i16_constant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_addk_i32 [[VAL]], 0x3e7
				; GCN: s_or_b32 [[OR:s[0-9]+]], [[VAL]], 4
				define amdgpu_kernel void @widen_i16_constant_load(i16 addrspace(4)* %arg) {
				%load = load i16, i16 addrspace(4)* %arg, align 4
				%add = add i16 %load, 999
				%or = or i16 %add, 4
				store i16 %or, i16 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i16_constant_load_zext_i32:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_and_b32 [[TRUNC:s[0-9]+]], [[VAL]], 0xffff{{$}}
				; GCN: s_addk_i32 [[TRUNC]], 0x3e7
				; GCN: s_or_b32 [[OR:s[0-9]+]], [[TRUNC]], 4
				define amdgpu_kernel void @widen_i16_constant_load_zext_i32(i16 addrspace(4)* %arg) {
				%load = load i16, i16 addrspace(4)* %arg, align 4
				%ext = zext i16 %load to i32
				%add = add i32 %ext, 999
				%or = or i32 %add, 4
				store i32 %or, i32 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i16_constant_load_sext_i32:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_sext_i32_i16 [[EXT:s[0-9]+]], [[VAL]]
				; GCN: s_addk_i32 [[EXT]], 0x3e7
				; GCN: s_or_b32 [[OR:s[0-9]+]], [[EXT]], 4
				define amdgpu_kernel void @widen_i16_constant_load_sext_i32(i16 addrspace(4)* %arg) {
				%load = load i16, i16 addrspace(4)* %arg, align 4
				%ext = sext i16 %load to i32
				%add = add i32 %ext, 999
				%or = or i32 %add, 4
				store i32 %or, i32 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i17_constant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_add_i32 [[ADD:s[0-9]+]], [[VAL]], 34
				; GCN: s_or_b32 [[OR:s[0-9]+]], [[ADD]], 4
				; GCN: s_bfe_u32 s{{[0-9]+}}, [[OR]], 0x10010
				define amdgpu_kernel void @widen_i17_constant_load(i17 addrspace(4)* %arg) {
				%load = load i17, i17 addrspace(4)* %arg, align 4
				%add = add i17 %load, 34
				%or = or i17 %add, 4
				store i17 %or, i17 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_f16_constant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; SI: v_cvt_f32_f16_e32 [[CVT:v[0-9]+]], [[VAL]]
				; SI: v_add_f32_e32 [[ADD:v[0-9]+]], 4.0, [[CVT]]

				; VI: v_add_f16_e64 [[ADD:v[0-9]+]], [[VAL]], 4.0
				define amdgpu_kernel void @widen_f16_constant_load(half addrspace(4)* %arg) {
				%load = load half, half addrspace(4)* %arg, align 4
				%add = fadd half %load, 4.0
				store half %add, half addrspace(1)* null
				ret void
				}

				; FIXME: valu usage on VI
				; GCN-LABEL: {{^}}widen_v2i8_constant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]

				; SI: s_add_i32
				; SI: s_or_b32
				; SI: s_addk_i32
				; SI: s_and_b32
				; SI: s_or_b32
				; SI: s_or_b32

				; VI: s_add_i32
				; VI: v_add_u32_sdwa
				; VI: v_or_b32_sdwa
				; VI: v_or_b32_e32
				define amdgpu_kernel void @widen_v2i8_constant_load(<2 x i8> addrspace(4)* %arg) {
				%load = load <2 x i8>, <2 x i8> addrspace(4)* %arg, align 4
				%add = add <2 x i8> %load, <i8 12, i8 44>
				%or = or <2 x i8> %add, <i8 4, i8 3>
				store <2 x i8> %or, <2 x i8> addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}no_widen_i16_constant_divergent_load:
				; GCN: {{buffer\|flat}}_load_ushort
				define amdgpu_kernel void @no_widen_i16_constant_divergent_load(i16 addrspace(4)* %arg) {
				%tid = call i32 @llvm.amdgcn.workitem.id.x()
				%tid.ext = zext i32 %tid to i64
				%gep.arg = getelementptr inbounds i16, i16 addrspace(4)* %arg, i64 %tid.ext
				%load = load i16, i16 addrspace(4)* %gep.arg, align 4
				%add = add i16 %load, 999
				%or = or i16 %add, 4
				store i16 %or, i16 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i1_constant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_and_b32 {{s[0-9]+}}, [[VAL]], 1{{$}}
				define amdgpu_kernel void @widen_i1_constant_load(i1 addrspace(4)* %arg) {
				%load = load i1, i1 addrspace(4)* %arg, align 4
				%and = and i1 %load, true
				store i1 %and, i1 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i16_zextload_i64_constant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_and_b32 [[TRUNC:s[0-9]+]], [[VAL]], 0xffff{{$}}
				; GCN: s_addk_i32 [[TRUNC]], 0x3e7
				; GCN: s_or_b32 [[OR:s[0-9]+]], [[TRUNC]], 4
				define amdgpu_kernel void @widen_i16_zextload_i64_constant_load(i16 addrspace(4)* %arg) {
				%load = load i16, i16 addrspace(4)* %arg, align 4
				%zext = zext i16 %load to i32
				%add = add i32 %zext, 999
				%or = or i32 %add, 4
				store i32 %or, i32 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i1_zext_to_i64_constant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_and_b32 [[AND:s[0-9]+]], [[VAL]], 1
				; GCN: s_add_u32 [[ADD:s[0-9]+]], [[AND]], 0x3e7
				; GCN: s_addc_u32 s{{[0-9]+}}, 0, 0
				define amdgpu_kernel void @widen_i1_zext_to_i64_constant_load(i1 addrspace(4)* %arg) {
				%load = load i1, i1 addrspace(4)* %arg, align 4
				%zext = zext i1 %load to i64
				%add = add i64 %zext, 999
				store i64 %add, i64 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i16_constant32_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_addk_i32 [[VAL]], 0x3e7
				; GCN: s_or_b32 [[OR:s[0-9]+]], [[VAL]], 4
				define amdgpu_kernel void @widen_i16_constant32_load(i16 addrspace(6)* %arg) {
				%load = load i16, i16 addrspace(6)* %arg, align 4
				%add = add i16 %load, 999
				%or = or i16 %add, 4
				store i16 %or, i16 addrspace(1)* null
				ret void
				}

				; GCN-LABEL: {{^}}widen_i16_global_invariant_load:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
				; GCN: s_addk_i32 [[VAL]], 0x3e7
				; GCN: s_or_b32 [[OR:s[0-9]+]], [[VAL]], 1
				define amdgpu_kernel void @widen_i16_global_invariant_load(i16 addrspace(1)* %arg) {
				%load = load i16, i16 addrspace(1)* %arg, align 4, !invariant.load !0
				%add = add i16 %load, 999
				%or = or i16 %add, 1
				store i16 %or, i16 addrspace(1)* null
				ret void
				}

				declare i32 @llvm.amdgcn.workitem.id.x()

				!0 = !{}

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Try a lot harder to emit scalar loadsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 150259

lib/Target/AMDGPU/AMDGPUCodeGenPrepare.cpp

lib/Target/AMDGPU/SIISelLowering.h

lib/Target/AMDGPU/SIISelLowering.cpp

test/CodeGen/AMDGPU/and.ll

test/CodeGen/AMDGPU/ashr.v2i16.ll

test/CodeGen/AMDGPU/basic-branch.ll

test/CodeGen/AMDGPU/cf-loop-on-constant.ll

test/CodeGen/AMDGPU/extract_vector_elt-f16.ll

test/CodeGen/AMDGPU/extract_vector_elt-i16.ll

test/CodeGen/AMDGPU/extract_vector_elt-i8.ll

test/CodeGen/AMDGPU/fabs.f16.ll

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

test/CodeGen/AMDGPU/fneg.f16.ll

test/CodeGen/AMDGPU/half.ll

test/CodeGen/AMDGPU/imm16.ll

test/CodeGen/AMDGPU/insert_vector_elt.ll

test/CodeGen/AMDGPU/kernel-args.ll

test/CodeGen/AMDGPU/llvm.amdgcn.buffer.store.format.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.class.f16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.image.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.d16.ll

test/CodeGen/AMDGPU/lshr.v2i16.ll

test/CodeGen/AMDGPU/min.ll

test/CodeGen/AMDGPU/reduce-store-width-alignment.ll

test/CodeGen/AMDGPU/select-i1.ll

test/CodeGen/AMDGPU/sext-in-reg.ll

test/CodeGen/AMDGPU/shl.v2i16.ll

test/CodeGen/AMDGPU/sminmax.v2i16.ll

test/CodeGen/AMDGPU/widen-smrd-loads.ll

AMDGPU: Try a lot harder to emit scalar loads
ClosedPublic