This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
AMDGPU.h
2
AMDGPULowerKernelArguments.cpp
-
AMDGPUTargetMachine.cpp
-
CMakeLists.txt
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
smrd.ll
-
add_i64.ll
-
amdhsa-trap-num-sgprs.ll
-
and.ll
-
ashr.v2i16.ll
-
atomic_cmp_swap_local.ll
-
attr-amdgpu-num-sgpr-spill-to-smem.ll
-
attr-amdgpu-num-sgpr.ll
-
basic-branch.ll
-
bfe-patterns.ll
-
bfi_int.ll
-
br_cc.f16.ll
-
branch-relaxation.ll
-
code-object-v3.ll
-
ctlz.ll
-
ctlz_zero_undef.ll
-
ctpop.ll
-
ctpop16.ll
-
ctpop64.ll
-
extract_vector_elt-f16.ll
2
extract_vector_elt-i16.ll
-
extract_vector_elt-i8.ll
-
fabs.f16.ll
-
fabs.f64.ll
-
fabs.ll
-
fadd.f16.ll
-
fcmp.f16.ll
-
fcopysign.f16.ll
-
fcopysign.f32.ll
-
fcopysign.f64.ll
-
fma.ll
-
fmin_legacy.ll
-
fmul-2-combine-multi-use.ll
-
fmul.f16.ll
-
fneg-fabs.f16.ll
-
fneg-fabs.f64.ll
-
fneg-fabs.ll
-
fneg.f64.ll
-
frame-index-amdgiz.ll
-
fsub.f16.ll
-
global_smrd.ll
-
half.ll
-
hsa-metadata-kernel-code-props.ll
-
imm.ll
-
immv216.ll
-
insert_vector_elt.ll
-
insert_vector_elt.v2i16.ll
-
kernel-args.ll
-
llvm.amdgcn.buffer.store.format.d16.ll
-
llvm.amdgcn.class.f16.ll
-
llvm.amdgcn.class.ll
-
llvm.amdgcn.cvt.pk.i16.ll
-
llvm.amdgcn.cvt.pk.u16.ll
-
llvm.amdgcn.cvt.pknorm.i16.ll
-
llvm.amdgcn.cvt.pknorm.u16.ll
-
llvm.amdgcn.cvt.pkrtz.ll
-
llvm.amdgcn.div.fixup.f16.ll
-
llvm.amdgcn.div.fixup.ll
-
llvm.amdgcn.div.fmas.ll
-
llvm.amdgcn.div.scale.ll
-
llvm.amdgcn.tbuffer.store.d16.ll
-
llvm.ceil.f16.ll
-
llvm.cos.f16.ll
-
llvm.dbg.value.ll
-
llvm.floor.f16.ll
-
llvm.fma.f16.ll
-
llvm.fmuladd.f16.ll
-
llvm.maxnum.f16.ll
-
llvm.minnum.f16.ll
-
llvm.rint.f16.ll
-
llvm.sin.f16.ll
-
llvm.trunc.f16.ll
-
load-select-ptr.ll
-
lower-kernargs.ll
-
lshr.v2i16.ll
-
madak.ll
-
madmk.ll
-
max.ll
-
min.ll
-
missing-store.ll
-
move-addr64-rsrc-dead-subreg-writes.ll
-
mul.i16.ll
-
mul.ll
-
mul_int24.ll
-
mul_uint24-amdgcn.ll
-
multi-divergent-exit-region.ll
-
no-shrink-extloads.ll
-
not-scalarize-volatile-load.ll
-
operand-spacing.ll
-
or.ll
-
partial-sgpr-to-vgpr-spills.ll
-
reduce-store-width-alignment.ll
-
sad.ll
-
schedule-kernel-arg-loads.ll
-
schedule-regpressure-limit2.ll
-
select-i1.ll
-
select-opt.ll
-
select.f16.ll
-
setcc-opt.ll
-
sgpr-control-flow.ll
-
shl.ll
-
shl.v2i16.ll
-
shl_add_constant.ll
-
sign_extend.ll
-
smed3.ll
-
sminmax.ll
-
sminmax.v2i16.ll
-
smrd.ll
-
sra.ll
-
srl.ll
-
store-weird-sizes.ll
-
sub.ll
-
subreg-coalescer-undef-use.ll
-
trunc-store-i1.ll
-
trunc.ll
-
udivrem.ll
-
umed3.ll
-
unaligned-load-store.ll
-
uniform-cfg.ll
-
use-sgpr-multiple-times.ll
-
v_cndmask.ll
-
v_mac_f16.ll
-
v_madak_f16.ll
-
xor.ll
-
zero_extend.ll

Differential D48537

AMDGPU: Add pass to lower kernel arguments to loads
ClosedPublic

Authored by arsenm on Jun 25 2018, 2:16 AM.

Download Raw Diff

Details

Reviewers

tstellar
rampitec
javed.absar

Summary

This replaces most argument uses with loads, but for
now not all.

The code in SelectionDAG for calling convention lowering
is actively harmful for amdgpu_kernel. It attempts to
split the argument types into register legal types, which
results in low quality code for arbitary types. Since
all kernel arguments are passed in memory, we just want the
raw types.

I've tried a couple of methods of mitigating this in SelectionDAG,
but it's easier to just bypass this problem alltogether. It's
possible to hack around the problem in the initial lowering,
but the real problem is the DAG then expects to be able to use
CopyToReg/CopyFromReg for uses of the arguments outside the block.

Exposing the argument loads in the IR also has the advantage
that the LoadStoreVectorizer can merge them.

I'm not sure the best approach to dealing with the IR
argument list is. The patch as-is just leaves the IR arguments
in place, so all the existing code will still compute the same
kernarg size and pointlessly lowers the arguments.

Arguably the frontend should emit kernels with an empty argument
list in the first place. Alternatively a dummy array could be
inserted as a single argument just to reserve space.

This does have some disadvantages. Local pointer kernel arguments can
no longer have AssertZext placed on them as the equivalent !range
metadata is not valid on pointer typed loads. This is mostly bad
for SI which needs to know about the known bits in order to use the
DS instruction offset, so in this case this is not done.

More importantly, this skips noalias arguments since this pass
does not yet convert this to the equivalent !alias.scope and !noalias
metadata. Producing this metadata correctly seems to be tricky,
although this logically is the same as inlining into a function which
doesn't exist. Additionally, exposing these loads to the vectorizer
may result in degraded aliasing information if a pointer load is
merged with another argument load.

I'm also not entirely sure this is preserving the current clover
ABI, although I would greatly prefer if it would stop widening
arguments and match the HSA ABI. As-is I think it is extending
< 4-byte arguments to 4-bytes but doesn't align them to 4-bytes.

Diff Detail

Event Timeline

arsenm created this revision.Jun 25 2018, 2:16 AM

Herald added a reviewer: javed.absar. · View Herald TranscriptJun 25 2018, 2:16 AM

Herald added subscribers: kristof.beyls, t-tye, tpr and 8 others. · View Herald Transcript

In general I believe having distinct loads for kernel arguments is a right thing to do. Of course that would be preferable to keep only one mechanism and have no dual support like for noalis and SI LDS.
Couple notes though:

I think we need to have a distinct addresspace for kernarg, not just constant.
This would be handy to set names on the argument loads derived from either original argument names if present, or from an argument number. This patch introduces geps with immediate offsets which would render IR unreadable.

test/CodeGen/AMDGPU/extract_vector_elt-i16.ll
117	Why do you need all of that explicit padding in many tests?

In D48537#1142536, @rampitec wrote:

In general I believe having distinct loads for kernel arguments is a right thing to do. Of course that would be preferable to keep only one mechanism and have no dual support like for noalis and SI LDS.
Couple notes though:

I think we need to have a distinct addresspace for kernarg, not just constant.

This would be handy to set names on the argument loads derived from either original argument names if present, or from an argument number. This patch introduces geps with immediate offsets which would render IR unreadable.

I think there's no need for a distinct address space, and would just add unnecessary complexity for all the places that would now need to consider yet another address space. Ideally I would like to eventually eliminate even constant address space. We were already using just constant for the intrinsic
I'm not sure what you mean. For debugging purposes the replaced value does use a derived name

Most of the benefit of noalias is probably attainable with the existing metadata, except for the vectorization problem (in which case something is probably needed to annotate inttoptr). The range problem also requires some kind of new metadata mechanism for marking the pointer ranges that may or may not be worth the effort.

Also, if this were to split argument loads into 4-byte pieces it could workaround the limitation of the vectorizer where it can't merge different sized types

test/CodeGen/AMDGPU/extract_vector_elt-i16.ll
117	It's enough that they can't be merged with unused gaps if the vectorizer supported that. Most tests are looking for loads of specific values, and it's harder / impossible to easily check the correct value with the merged load.

rampitec added inline comments.Jun 25 2018, 1:14 PM

lib/Target/AMDGPU/AMDGPULowerKernelArguments.cpp
165	I mean to give a name derived from the argument to this gep.
169	.. also this GEP.

Add more value names

LGTM.

This revision is now accepted and ready to land.Jun 26 2018, 7:52 AM

r335650

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPU.h

4 lines

AMDGPULowerKernelArguments.cpp

267 lines

AMDGPUTargetMachine.cpp

11 lines

CMakeLists.txt

1 line

test/

CodeGen/

AMDGPU/

GlobalISel/

smrd.ll

24 lines

add_i64.ll

2 lines

amdhsa-trap-num-sgprs.ll

2 lines

and.ll

6 lines

ashr.v2i16.ll

30 lines

atomic_cmp_swap_local.ll

16 lines

attr-amdgpu-num-sgpr-spill-to-smem.ll

33 lines

attr-amdgpu-num-sgpr.ll

38 lines

3 lines

36 lines

22 lines

30 lines

2 lines

4 lines

4 lines

4 lines

6 lines

4 lines

6 lines

extract_vector_elt-f16.ll

15 lines

extract_vector_elt-i16.ll

31 lines

extract_vector_elt-i8.ll

99 lines

7 lines

8 lines

14 lines

38 lines

60 lines

4 lines

11 lines

16 lines

2 lines

10 lines

fmul-2-combine-multi-use.ll

8 lines

66 lines

5 lines

7 lines

4 lines

6 lines

frame-index-amdgiz.ll

21 lines

fsub.f16.ll

60 lines

global_smrd.ll

27 lines

half.ll

109 lines

hsa-metadata-kernel-code-props.ll

32 lines

imm.ll

98 lines

immv216.ll

4 lines

insert_vector_elt.ll

142 lines

insert_vector_elt.v2i16.ll

95 lines

kernel-args.ll

130 lines

llvm.amdgcn.buffer.store.format.d16.ll

2 lines

llvm.amdgcn.class.f16.ll

10 lines

llvm.amdgcn.class.ll

54 lines

llvm.amdgcn.cvt.pk.i16.ll

9 lines

llvm.amdgcn.cvt.pk.u16.ll

9 lines

llvm.amdgcn.cvt.pknorm.i16.ll

9 lines

llvm.amdgcn.cvt.pknorm.u16.ll

9 lines

llvm.amdgcn.cvt.pkrtz.ll

9 lines

llvm.amdgcn.div.fixup.f16.ll

20 lines

llvm.amdgcn.div.fixup.ll

16 lines

llvm.amdgcn.div.fmas.ll

77 lines

llvm.amdgcn.div.scale.ll

24 lines

llvm.amdgcn.tbuffer.store.d16.ll

3 lines

16 lines

29 lines

8 lines

14 lines

64 lines

70 lines

55 lines

74 lines

14 lines

33 lines

14 lines

4 lines

1286 lines

30 lines

4 lines

2 lines

14 lines

41 lines

2 lines

move-addr64-rsrc-dead-subreg-writes.ll

2 lines

3 lines

19 lines

2 lines

18 lines

multi-divergent-exit-region.ll

4 lines

no-shrink-extloads.ll

8 lines

not-scalarize-volatile-load.ll

2 lines

operand-spacing.ll

18 lines

or.ll

18 lines

partial-sgpr-to-vgpr-spills.ll

261 lines

reduce-store-width-alignment.ll

3 lines

sad.ll

36 lines

schedule-kernel-arg-loads.ll

15 lines

schedule-regpressure-limit2.ll

15 lines

10 lines

5 lines

46 lines

14 lines

24 lines

4 lines

4 lines

18 lines

1 line

4 lines

2 lines

50 lines

4 lines

8 lines

4 lines

6 lines

6 lines

subreg-coalescer-undef-use.ll

25 lines

31 lines

16 lines

2 lines

4 lines

unaligned-load-store.ll

2 lines

uniform-cfg.ll

17 lines

use-sgpr-multiple-times.ll

79 lines

25 lines

14 lines

6 lines

40 lines

44 lines

Diff 152847

lib/Target/AMDGPU/AMDGPU.h

	Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	Pass *createAMDGPUAnnotateKernelFeaturesPass();			Pass *createAMDGPUAnnotateKernelFeaturesPass();
	void initializeAMDGPUAnnotateKernelFeaturesPass(PassRegistry &);			void initializeAMDGPUAnnotateKernelFeaturesPass(PassRegistry &);
	extern char &AMDGPUAnnotateKernelFeaturesID;			extern char &AMDGPUAnnotateKernelFeaturesID;

	ModulePass *createAMDGPULowerIntrinsicsPass();			ModulePass *createAMDGPULowerIntrinsicsPass();
	void initializeAMDGPULowerIntrinsicsPass(PassRegistry &);			void initializeAMDGPULowerIntrinsicsPass(PassRegistry &);
	extern char &AMDGPULowerIntrinsicsID;			extern char &AMDGPULowerIntrinsicsID;

				FunctionPass *createAMDGPULowerKernelArgumentsPass();
				void initializeAMDGPULowerKernelArgumentsPass(PassRegistry &);
				extern char &AMDGPULowerKernelArgumentsID;

	ModulePass *createAMDGPULowerKernelAttributesPass();			ModulePass *createAMDGPULowerKernelAttributesPass();
	void initializeAMDGPULowerKernelAttributesPass(PassRegistry &);			void initializeAMDGPULowerKernelAttributesPass(PassRegistry &);
	extern char &AMDGPULowerKernelAttributesID;			extern char &AMDGPULowerKernelAttributesID;

	void initializeAMDGPURewriteOutArgumentsPass(PassRegistry &);			void initializeAMDGPURewriteOutArgumentsPass(PassRegistry &);
	extern char &AMDGPURewriteOutArgumentsID;			extern char &AMDGPURewriteOutArgumentsID;

	void initializeR600ClauseMergePassPass(PassRegistry &);			void initializeR600ClauseMergePassPass(PassRegistry &);
	▲ Show 20 Lines • Show All 194 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPULowerKernelArguments.cpp

This file was added.

				//===-- AMDGPULowerKernelArguments.cpp ------------------------------------------===//
				//
				// The LLVM Compiler Infrastructure
				//
				// This file is distributed under the University of Illinois Open Source
				// License. See LICENSE.TXT for details.
				//
				//===----------------------------------------------------------------------===//
				//
				/// \file This pass replaces accesses to kernel arguments with loads from
				/// offsets from the kernarg base pointer.
				//
				//===----------------------------------------------------------------------===//

				#include "AMDGPU.h"
				#include "AMDGPUSubtarget.h"
				#include "AMDGPUTargetMachine.h"
				#include "llvm/ADT/StringRef.h"
				#include "llvm/Analysis/DivergenceAnalysis.h"
				#include "llvm/Analysis/Loads.h"
				#include "llvm/CodeGen/Passes.h"
				#include "llvm/CodeGen/TargetPassConfig.h"
				#include "llvm/IR/Attributes.h"
				#include "llvm/IR/BasicBlock.h"
				#include "llvm/IR/Constants.h"
				#include "llvm/IR/DerivedTypes.h"
				#include "llvm/IR/Function.h"
				#include "llvm/IR/IRBuilder.h"
				#include "llvm/IR/InstrTypes.h"
				#include "llvm/IR/Instruction.h"
				#include "llvm/IR/Instructions.h"
				#include "llvm/IR/LLVMContext.h"
				#include "llvm/IR/MDBuilder.h"
				#include "llvm/IR/Metadata.h"
				#include "llvm/IR/Operator.h"
				#include "llvm/IR/Type.h"
				#include "llvm/IR/Value.h"
				#include "llvm/Pass.h"
				#include "llvm/Support/Casting.h"

				#define DEBUG_TYPE "amdgpu-lower-kernel-arguments"

				using namespace llvm;

				namespace {

				class AMDGPULowerKernelArguments : public FunctionPass{
				public:
				static char ID;

				AMDGPULowerKernelArguments() : FunctionPass(ID) {}

				bool runOnFunction(Function &F) override;

				void getAnalysisUsage(AnalysisUsage &AU) const override {
				AU.addRequired<TargetPassConfig>();
				AU.setPreservesAll();
				}
				};

				} // end anonymous namespace

				bool AMDGPULowerKernelArguments::runOnFunction(Function &F) {
				CallingConv::ID CC = F.getCallingConv();
				if (CC != CallingConv::AMDGPU_KERNEL \|\| F.arg_empty())
				return false;

				auto &TPC = getAnalysis<TargetPassConfig>();

				const TargetMachine &TM = TPC.getTM<TargetMachine>();
				const SISubtarget &ST = TM.getSubtarget<SISubtarget>(F);
				LLVMContext &Ctx = F.getParent()->getContext();
				const DataLayout &DL = F.getParent()->getDataLayout();
				BasicBlock &EntryBlock = *F.begin();
				IRBuilder<> Builder(&*EntryBlock.begin());

				SmallVector<Type *, 16> ArgTypes;
				for (Argument &Arg : F.args()) {
				Type *ArgTy = Arg.getType();
				unsigned Size = DL.getTypeStoreSizeInBits(ArgTy);
				bool IsExtArg = Size < 32 && (Arg.hasZExtAttr() \|\| Arg.hasSExtAttr()) &&
				!ST.isAmdHsaOS();

				// Clover seems to always pad i8/i16 to i32, but doesn't properly align
				// them?
				// Make sure the struct elements have correct size and alignment for ext
				// args. These seem to be padded up to 4-bytes but not correctly aligned.
				ArgTypes.push_back(
				IsExtArg ? ArrayType::get(ArgTy, 32 / Size) : Arg.getType());
				}

				StructType *ArgStructTy = StructType::create(Ctx, ArgTypes, F.getName());
				const StructLayout *Layout = DL.getStructLayout(ArgStructTy);

				// Minimum alignment for kern segment is 16.
				unsigned KernArgBaseAlign = std::max(16u, DL.getABITypeAlignment(ArgStructTy));
				const uint64_t BaseOffset = ST.getExplicitKernelArgOffset(F);

				// FIXME: Alignment is broken broken with explicit arg offset.;
				const uint64_t TotalKernArgSize = BaseOffset +
				ST.getKernArgSegmentSize(F, DL.getTypeAllocSize(ArgStructTy));

				CallInst *KernArgSegment =
				Builder.CreateIntrinsic(Intrinsic::amdgcn_kernarg_segment_ptr, nullptr,
				F.getName() + ".kernarg.segment");

				KernArgSegment->addAttribute(AttributeList::ReturnIndex, Attribute::NonNull);
				KernArgSegment->addAttribute(AttributeList::ReturnIndex,
				Attribute::getWithDereferenceableBytes(Ctx, TotalKernArgSize));
				KernArgSegment->addAttribute(AttributeList::ReturnIndex,
				Attribute::getWithAlignment(Ctx, KernArgBaseAlign));

				Value *KernArgBase = KernArgSegment;
				if (BaseOffset != 0) {
				KernArgBase = Builder.CreateConstInBoundsGEP1_64(KernArgBase, BaseOffset);
				KernArgBaseAlign = MinAlign(KernArgBaseAlign, BaseOffset);
				}

				unsigned AS = KernArgSegment->getType()->getPointerAddressSpace();
				Value *CastStruct = Builder.CreateBitCast(KernArgBase,
				ArgStructTy->getPointerTo(AS));
				for (Argument &Arg : F.args()) {
				if (Arg.use_empty())
				continue;

				Type *ArgTy = Arg.getType();
				if (PointerType *PT = dyn_cast<PointerType>(ArgTy)) {
				// FIXME: Hack. We rely on AssertZext to be able to fold DS addressing
				// modes on SI to know the high bits are 0 so pointer adds don't wrap. We
				// can't represent this with range metadata because it's only allowed for
				// integer types.
				if (PT->getAddressSpace() == AMDGPUAS::LOCAL_ADDRESS &&
				ST.getGeneration() == AMDGPUSubtarget::SOUTHERN_ISLANDS)
				continue;

				// FIXME: We can replace this with equivalent alias.scope/noalias
				// metadata, but this appears to be a lot of work.
				if (Arg.hasNoAliasAttr())
				continue;
				}

				VectorType *VT = dyn_cast<VectorType>(ArgTy);
				bool IsV3 = VT && VT->getNumElements() == 3;
				VectorType *V4Ty = nullptr;

				unsigned Size = DL.getTypeSizeInBits(ArgTy);
				bool IsExtArg = Size < 32 && (Arg.hasZExtAttr() \|\| Arg.hasSExtAttr()) &&
				!ST.isAmdHsaOS();
				int64_t EltOffset = Layout->getElementOffset(Arg.getArgNo());
				int64_t AlignDownOffset = alignDown(EltOffset, 4);
				int64_t OffsetDiff = EltOffset - AlignDownOffset;
				unsigned AdjustedAlign = MinAlign(KernArgBaseAlign, AlignDownOffset);

				Value *ArgPtr;
				if (Size < 32) {
				// Since we don't have sub-dword scalar loads, avoid doing an extload by
				// loading earlier than the argument address, and extracting the relevant
				// bits.
				//
				// Additionally widen any sub-dword load to i32 even if suitably aligned,
				// so that CSE between different argument loads works easily.

				ArgPtr = Builder.CreateConstGEP1_64(KernArgBase, AlignDownOffset);
				ArgPtr = Builder.CreateBitCast(
				ArgPtr,
				rampitecUnsubmitted Not Done Reply Inline Actions I mean to give a name derived from the argument to this gep. rampitec: I mean to give a name derived from the argument to this gep.
				Builder.getInt32Ty()->getPointerTo(AS),
				Arg.getName() + ".kernarg.offset.align.down");
				} else {
				ArgPtr = Builder.CreateStructGEP(CastStruct, Arg.getArgNo(),
				rampitecUnsubmitted Not Done Reply Inline Actions .. also this GEP. rampitec: .. also this GEP.
				Arg.getName() + ".kernarg.offset");
				}

				assert((!IsExtArg \|\| !IsV3) && "incompatible situation");


				if (IsV3 && Size >= 32) {
				V4Ty = VectorType::get(VT->getVectorElementType(), 4);
				// Use the hack that clang uses to avoid SelectionDAG ruining v3 loads
				ArgPtr = Builder.CreateBitCast(ArgPtr, V4Ty->getPointerTo(AS));
				}

				LoadInst *Load = Builder.CreateAlignedLoad(ArgPtr, AdjustedAlign);
				Load->setMetadata(LLVMContext::MD_invariant_load, MDNode::get(Ctx, {}));

				MDBuilder MDB(Ctx);

				if (isa<PointerType>(ArgTy)) {
				if (Arg.hasNonNullAttr())
				Load->setMetadata(LLVMContext::MD_nonnull, MDNode::get(Ctx, {}));

				uint64_t DerefBytes = Arg.getDereferenceableBytes();
				if (DerefBytes != 0) {
				Load->setMetadata(
				LLVMContext::MD_dereferenceable,
				MDNode::get(Ctx,
				MDB.createConstant(
				ConstantInt::get(Builder.getInt64Ty(), DerefBytes))));
				}

				uint64_t DerefOrNullBytes = Arg.getDereferenceableOrNullBytes();
				if (DerefOrNullBytes != 0) {
				Load->setMetadata(
				LLVMContext::MD_dereferenceable_or_null,
				MDNode::get(Ctx,
				MDB.createConstant(ConstantInt::get(Builder.getInt64Ty(),
				DerefOrNullBytes))));
				}

				unsigned ParamAlign = Arg.getParamAlignment();
				if (ParamAlign != 0) {
				Load->setMetadata(
				LLVMContext::MD_align,
				MDNode::get(Ctx,
				MDB.createConstant(ConstantInt::get(Builder.getInt64Ty(),
				ParamAlign))));
				}
				}

				// TODO: Convert noalias arg to !noalias

				if (Size < 32) {
				if (IsExtArg && OffsetDiff == 0) {
				Type *I32Ty = Builder.getInt32Ty();
				bool IsSext = Arg.hasSExtAttr();
				Metadata *LowAndHigh[] = {
				ConstantAsMetadata::get(
				ConstantInt::get(I32Ty, IsSext ? minIntN(Size) : 0)),
				ConstantAsMetadata::get(
				ConstantInt::get(I32Ty,
				IsSext ? maxIntN(Size) + 1 : maxUIntN(Size) + 1))
				};

				Load->setMetadata(LLVMContext::MD_range, MDNode::get(Ctx, LowAndHigh));
				}

				Value *ExtractBits = OffsetDiff == 0 ?
				Load : Builder.CreateLShr(Load, OffsetDiff * 8);

				IntegerType *ArgIntTy = Builder.getIntNTy(Size);
				Value *Trunc = Builder.CreateTrunc(ExtractBits, ArgIntTy);
				Value *NewVal = Builder.CreateBitCast(Trunc, ArgTy,
				Arg.getName() + ".load");
				Arg.replaceAllUsesWith(NewVal);
				} else if (IsV3) {
				Value *Shuf = Builder.CreateShuffleVector(Load, UndefValue::get(V4Ty),
				{0, 1, 2},
				Arg.getName() + ".load");
				Arg.replaceAllUsesWith(Shuf);
				} else {
				Load->setName(Arg.getName() + ".load");
				Arg.replaceAllUsesWith(Load);
				}
				}

				return true;
				}

				INITIALIZE_PASS_BEGIN(AMDGPULowerKernelArguments, DEBUG_TYPE,
				"AMDGPU Lower Kernel Arguments", false, false)
				INITIALIZE_PASS_END(AMDGPULowerKernelArguments, DEBUG_TYPE, "AMDGPU Lower Kernel Arguments",
				false, false)

				char AMDGPULowerKernelArguments::ID = 0;

				FunctionPass *llvm::createAMDGPULowerKernelArgumentsPass() {
				return new AMDGPULowerKernelArguments();
				}

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines

// Enable lib calls simplifications		// Enable lib calls simplifications
static cl::opt<bool> EnableLibCallSimplify(		static cl::opt<bool> EnableLibCallSimplify(
"amdgpu-simplify-libcall",		"amdgpu-simplify-libcall",
cl::desc("Enable amdgpu library simplifications"),		cl::desc("Enable amdgpu library simplifications"),
cl::init(true),		cl::init(true),
cl::Hidden);		cl::Hidden);

		static cl::opt<bool> EnableLowerKernelArguments(
		"amdgpu-ir-lower-kernel-arguments",
		cl::desc("Lower kernel argument loads in IR pass"),
		cl::init(true),
		cl::Hidden);

extern "C" void LLVMInitializeAMDGPUTarget() {		extern "C" void LLVMInitializeAMDGPUTarget() {
// Register the target		// Register the target
RegisterTargetMachine<R600TargetMachine> X(getTheAMDGPUTarget());		RegisterTargetMachine<R600TargetMachine> X(getTheAMDGPUTarget());
RegisterTargetMachine<GCNTargetMachine> Y(getTheGCNTarget());		RegisterTargetMachine<GCNTargetMachine> Y(getTheGCNTarget());

PassRegistry *PR = PassRegistry::getPassRegistry();		PassRegistry *PR = PassRegistry::getPassRegistry();
initializeR600ClauseMergePassPass(*PR);		initializeR600ClauseMergePassPass(*PR);
initializeR600ControlFlowFinalizerPass(*PR);		initializeR600ControlFlowFinalizerPass(*PR);
Show All 9 Lines	extern "C" void LLVMInitializeAMDGPUTarget() {
initializeSIPeepholeSDWAPass(*PR);		initializeSIPeepholeSDWAPass(*PR);
initializeSIShrinkInstructionsPass(*PR);		initializeSIShrinkInstructionsPass(*PR);
initializeSIOptimizeExecMaskingPreRAPass(*PR);		initializeSIOptimizeExecMaskingPreRAPass(*PR);
initializeSILoadStoreOptimizerPass(*PR);		initializeSILoadStoreOptimizerPass(*PR);
initializeAMDGPUAlwaysInlinePass(*PR);		initializeAMDGPUAlwaysInlinePass(*PR);
initializeAMDGPUAnnotateKernelFeaturesPass(*PR);		initializeAMDGPUAnnotateKernelFeaturesPass(*PR);
initializeAMDGPUAnnotateUniformValuesPass(*PR);		initializeAMDGPUAnnotateUniformValuesPass(*PR);
initializeAMDGPUArgumentUsageInfoPass(*PR);		initializeAMDGPUArgumentUsageInfoPass(*PR);
		initializeAMDGPULowerKernelArgumentsPass(*PR);
initializeAMDGPULowerKernelAttributesPass(*PR);		initializeAMDGPULowerKernelAttributesPass(*PR);
initializeAMDGPULowerIntrinsicsPass(*PR);		initializeAMDGPULowerIntrinsicsPass(*PR);
initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(*PR);		initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(*PR);
initializeAMDGPUPromoteAllocaPass(*PR);		initializeAMDGPUPromoteAllocaPass(*PR);
initializeAMDGPUCodeGenPreparePass(*PR);		initializeAMDGPUCodeGenPreparePass(*PR);
initializeAMDGPURewriteOutArgumentsPass(*PR);		initializeAMDGPURewriteOutArgumentsPass(*PR);
initializeAMDGPUUnifyMetadataPass(*PR);		initializeAMDGPUUnifyMetadataPass(*PR);
initializeSIAnnotateControlFlowPass(*PR);		initializeSIAnnotateControlFlowPass(*PR);
▲ Show 20 Lines • Show All 498 Lines • ▼ Show 20 Lines	void AMDGPUPassConfig::addIRPasses() {
// %1 = shl %a, 2		// %1 = shl %a, 2
//		//
// but EarlyCSE can do neither of them.		// but EarlyCSE can do neither of them.
if (getOptLevel() != CodeGenOpt::None)		if (getOptLevel() != CodeGenOpt::None)
addEarlyCSEOrGVNPass();		addEarlyCSEOrGVNPass();
}		}

void AMDGPUPassConfig::addCodeGenPrepare() {		void AMDGPUPassConfig::addCodeGenPrepare() {
		if (TM->getTargetTriple().getArch() == Triple::amdgcn &&
		EnableLowerKernelArguments)
		addPass(createAMDGPULowerKernelArgumentsPass());

TargetPassConfig::addCodeGenPrepare();		TargetPassConfig::addCodeGenPrepare();

if (EnableLoadStoreVectorizer)		if (EnableLoadStoreVectorizer)
addPass(createLoadStoreVectorizerPass());		addPass(createLoadStoreVectorizerPass());
}		}

bool AMDGPUPassConfig::addPreISel() {		bool AMDGPUPassConfig::addPreISel() {
addPass(createFlattenCFGPass());		addPass(createFlattenCFGPass());
▲ Show 20 Lines • Show All 216 Lines • Show Last 20 Lines

lib/Target/AMDGPU/CMakeLists.txt

Show All 34 Lines	add_llvm_target(AMDGPUCodeGen
AMDGPUInstructionSelector.cpp		AMDGPUInstructionSelector.cpp
AMDGPUIntrinsicInfo.cpp		AMDGPUIntrinsicInfo.cpp
AMDGPUISelDAGToDAG.cpp		AMDGPUISelDAGToDAG.cpp
AMDGPUISelLowering.cpp		AMDGPUISelLowering.cpp
AMDGPULegalizerInfo.cpp		AMDGPULegalizerInfo.cpp
AMDGPULibCalls.cpp		AMDGPULibCalls.cpp
AMDGPULibFunc.cpp		AMDGPULibFunc.cpp
AMDGPULowerIntrinsics.cpp		AMDGPULowerIntrinsics.cpp
		AMDGPULowerKernelArguments.cpp
AMDGPULowerKernelAttributes.cpp		AMDGPULowerKernelAttributes.cpp
AMDGPUMachineCFGStructurizer.cpp		AMDGPUMachineCFGStructurizer.cpp
AMDGPUMachineFunction.cpp		AMDGPUMachineFunction.cpp
AMDGPUMachineModuleInfo.cpp		AMDGPUMachineModuleInfo.cpp
AMDGPUMacroFusion.cpp		AMDGPUMacroFusion.cpp
AMDGPUMCInstLower.cpp		AMDGPUMCInstLower.cpp
AMDGPUOpenCLEnqueuedBlockLowering.cpp		AMDGPUOpenCLEnqueuedBlockLowering.cpp
AMDGPUPromoteAlloca.cpp		AMDGPUPromoteAlloca.cpp
▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/GlobalISel/smrd.ll

	; FIXME: Need to add support for mubuf stores to enable this on SI.			; FIXME: Need to add support for mubuf stores to enable this on SI.
	; XUN: llc < %s -march=amdgcn -mcpu=tahiti -show-mc-encoding -verify-machineinstrs -global-isel \| FileCheck --check-prefix=SI --check-prefix=GCN --check-prefix=SIVI %s			; XUN: llc < %s -march=amdgcn -mcpu=tahiti -show-mc-encoding -verify-machineinstrs -global-isel \| FileCheck --check-prefix=SI --check-prefix=GCN --check-prefix=SIVI %s
	; RUN: llc < %s -march=amdgcn -mcpu=bonaire -show-mc-encoding -verify-machineinstrs -global-isel \| FileCheck --check-prefix=CI --check-prefix=GCN %s			; RUN: llc < %s -march=amdgcn -mcpu=bonaire -show-mc-encoding -verify-machineinstrs -global-isel \| FileCheck --check-prefix=CI --check-prefix=GCN %s
	; RUN: llc < %s -march=amdgcn -mcpu=tonga -show-mc-encoding -verify-machineinstrs -global-isel \| FileCheck --check-prefix=VI --check-prefix=GCN --check-prefix=SIVI %s			; RUN: llc < %s -march=amdgcn -mcpu=tonga -show-mc-encoding -verify-machineinstrs -global-isel \| FileCheck --check-prefix=VI --check-prefix=GCN --check-prefix=SIVI %s

	; REQUIRES: global-isel			; REQUIRES: global-isel

	; SMRD load with an immediate offset.			; SMRD load with an immediate offset.
	; GCN-LABEL: {{^}}smrd0:			; GCN-LABEL: {{^}}smrd0:
	; SICI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x1 ; encoding: [0x01			; SICI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x1 ; encoding: [0x01
	; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x4			; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x4
	define amdgpu_kernel void @smrd0(i32 addrspace(1)* %out, i32 addrspace(4)* %ptr) {			define amdgpu_kernel void @smrd0(i32 addrspace(4)* %ptr) {
	entry:			entry:
	%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 1			%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 1
	%1 = load i32, i32 addrspace(4)* %0			%1 = load i32, i32 addrspace(4)* %0
	store i32 %1, i32 addrspace(1)* %out			store i32 %1, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; SMRD load with the largest possible immediate offset.			; SMRD load with the largest possible immediate offset.
	; GCN-LABEL: {{^}}smrd1:			; GCN-LABEL: {{^}}smrd1:
	; SICI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0xff ; encoding: [0xff,0x{{[0-9]+[137]}}			; SICI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0xff ; encoding: [0xff,0x{{[0-9]+[137]}}
	; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x3fc			; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x3fc
	define amdgpu_kernel void @smrd1(i32 addrspace(1)* %out, i32 addrspace(4)* %ptr) {			define amdgpu_kernel void @smrd1(i32 addrspace(4)* %ptr) {
	entry:			entry:
	%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 255			%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 255
	%1 = load i32, i32 addrspace(4)* %0			%1 = load i32, i32 addrspace(4)* %0
	store i32 %1, i32 addrspace(1)* %out			store i32 %1, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; SMRD load with an offset greater than the largest possible immediate.			; SMRD load with an offset greater than the largest possible immediate.
	; GCN-LABEL: {{^}}smrd2:			; GCN-LABEL: {{^}}smrd2:
	; SI: s_movk_i32 s[[OFFSET:[0-9]]], 0x400			; SI: s_movk_i32 s[[OFFSET:[0-9]]], 0x400
	; SI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], s[[OFFSET]] ; encoding: [0x0[[OFFSET]]			; SI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], s[[OFFSET]] ; encoding: [0x0[[OFFSET]]
	; CI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x100			; CI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x100
	; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x400			; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x400
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @smrd2(i32 addrspace(1)* %out, i32 addrspace(4)* %ptr) {			define amdgpu_kernel void @smrd2(i32 addrspace(4)* %ptr) {
	entry:			entry:
	%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 256			%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 256
	%1 = load i32, i32 addrspace(4)* %0			%1 = load i32, i32 addrspace(4)* %0
	store i32 %1, i32 addrspace(1)* %out			store i32 %1, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; SMRD load with a 64-bit offset			; SMRD load with a 64-bit offset
	; GCN-LABEL: {{^}}smrd3:			; GCN-LABEL: {{^}}smrd3:
	; FIXME: There are too many copies here because we don't fold immediates			; FIXME: There are too many copies here because we don't fold immediates
	; through REG_SEQUENCE			; through REG_SEQUENCE
	; XSI: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[{{[0-9]:[0-9]}}], 0xb ; encoding: [0x0b			; XSI: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[{{[0-9]:[0-9]}}], 0xb ; encoding: [0x0b
	; TODO: Add VI checks			; TODO: Add VI checks
	; XGCN: s_endpgm			; XGCN: s_endpgm
	define amdgpu_kernel void @smrd3(i32 addrspace(1)* %out, i32 addrspace(4)* %ptr) {			define amdgpu_kernel void @smrd3(i32 addrspace(4)* %ptr) {
	entry:			entry:
	%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 4294967296 ; 2 ^ 32			%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 4294967296 ; 2 ^ 32
	%1 = load i32, i32 addrspace(4)* %0			%1 = load i32, i32 addrspace(4)* %0
	store i32 %1, i32 addrspace(1)* %out			store i32 %1, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; SMRD load with the largest possible immediate offset on VI			; SMRD load with the largest possible immediate offset on VI
	; GCN-LABEL: {{^}}smrd4:			; GCN-LABEL: {{^}}smrd4:
	; SI: s_mov_b32 [[OFFSET:s[0-9]+]], 0xffffc			; SI: s_mov_b32 [[OFFSET:s[0-9]+]], 0xffffc
	; SI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], [[OFFSET]]			; SI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], [[OFFSET]]
	; CI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x3ffff			; CI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x3ffff
	; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0xffffc			; VI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0xffffc
	define amdgpu_kernel void @smrd4(i32 addrspace(1)* %out, i32 addrspace(4)* %ptr) {			define amdgpu_kernel void @smrd4(i32 addrspace(4)* %ptr) {
	entry:			entry:
	%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 262143			%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 262143
	%1 = load i32, i32 addrspace(4)* %0			%1 = load i32, i32 addrspace(4)* %0
	store i32 %1, i32 addrspace(1)* %out			store i32 %1, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; SMRD load with an offset greater than the largest possible immediate on VI			; SMRD load with an offset greater than the largest possible immediate on VI
	; GCN-LABEL: {{^}}smrd5:			; GCN-LABEL: {{^}}smrd5:
	; SIVI: s_mov_b32 [[OFFSET:s[0-9]+]], 0x100000			; SIVI: s_mov_b32 [[OFFSET:s[0-9]+]], 0x100000
	; SIVI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], [[OFFSET]]			; SIVI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], [[OFFSET]]
	; CI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x40000			; CI: s_load_dword s{{[0-9]}}, s[{{[0-9]:[0-9]}}], 0x40000
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @smrd5(i32 addrspace(1)* %out, i32 addrspace(4)* %ptr) {			define amdgpu_kernel void @smrd5(i32 addrspace(4)* %ptr) {
	entry:			entry:
	%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 262144			%0 = getelementptr i32, i32 addrspace(4)* %ptr, i64 262144
	%1 = load i32, i32 addrspace(4)* %0			%1 = load i32, i32 addrspace(4)* %0
	store i32 %1, i32 addrspace(1)* %out			store i32 %1, i32 addrspace(1)* undef
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/add_i64.ll

	Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines

	; SI-LABEL: {{^}}trunc_i64_add_to_i32:			; SI-LABEL: {{^}}trunc_i64_add_to_i32:
	; SI: s_load_dword s[[SREG0:[0-9]+]]			; SI: s_load_dword s[[SREG0:[0-9]+]]
	; SI: s_load_dword s[[SREG1:[0-9]+]]			; SI: s_load_dword s[[SREG1:[0-9]+]]
	; SI: s_add_i32 [[SRESULT:s[0-9]+]], s[[SREG1]], s[[SREG0]]			; SI: s_add_i32 [[SRESULT:s[0-9]+]], s[[SREG1]], s[[SREG0]]
	; SI-NOT: addc			; SI-NOT: addc
	; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[SRESULT]]			; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[SRESULT]]
	; SI: buffer_store_dword [[VRESULT]],			; SI: buffer_store_dword [[VRESULT]],
	define amdgpu_kernel void @trunc_i64_add_to_i32(i32 addrspace(1)* %out, i64 %a, i64 %b) {			define amdgpu_kernel void @trunc_i64_add_to_i32(i32 addrspace(1)* %out, i32, i64 %a, i32, i64 %b) {
	%add = add i64 %b, %a			%add = add i64 %b, %a
	%trunc = trunc i64 %add to i32			%trunc = trunc i64 %add to i32
	store i32 %trunc, i32 addrspace(1)* %out, align 8			store i32 %trunc, i32 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/amdhsa-trap-num-sgprs.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=+trap-handler < %s \| FileCheck %s --check-prefixes=GCN,TRAP-HANDLER-ENABLE			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=+trap-handler < %s \| FileCheck %s --check-prefixes=GCN,TRAP-HANDLER-ENABLE
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=-trap-handler < %s \| FileCheck %s --check-prefixes=GCN,TRAP-HANDLER-DISABLE			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=-trap-handler < %s \| FileCheck %s --check-prefixes=GCN,TRAP-HANDLER-DISABLE

	; GCN-LABEL: {{^}}amdhsa_trap_num_sgprs			; GCN-LABEL: {{^}}amdhsa_trap_num_sgprs
	; TRAP-HANDLER-ENABLE: NumSgprs: 60			; TRAP-HANDLER-ENABLE: NumSgprs: 60
	; TRAP-HANDLER-DISABLE: NumSgprs: 76			; TRAP-HANDLER-DISABLE: NumSgprs: 78
	define amdgpu_kernel void @amdhsa_trap_num_sgprs(			define amdgpu_kernel void @amdhsa_trap_num_sgprs(
	i32 addrspace(1)* %out0, i32 %in0,			i32 addrspace(1)* %out0, i32 %in0,
	i32 addrspace(1)* %out1, i32 %in1,			i32 addrspace(1)* %out1, i32 %in1,
	i32 addrspace(1)* %out2, i32 %in2,			i32 addrspace(1)* %out2, i32 %in2,
	i32 addrspace(1)* %out3, i32 %in3,			i32 addrspace(1)* %out3, i32 %in3,
	i32 addrspace(1)* %out4, i32 %in4,			i32 addrspace(1)* %out4, i32 %in4,
	i32 addrspace(1)* %out5, i32 %in5,			i32 addrspace(1)* %out5, i32 %in5,
	i32 addrspace(1)* %out6, i32 %in6,			i32 addrspace(1)* %out6, i32 %in6,
	▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/and.ll

	Show First 20 Lines • Show All 211 Lines • ▼ Show 20 Lines
	}			}

	; FUNC-LABEL: {{^}}s_and_32_bit_constant_i64:			; FUNC-LABEL: {{^}}s_and_32_bit_constant_i64:
	; SI: s_load_dwordx2			; SI: s_load_dwordx2
	; SI-NOT: and			; SI-NOT: and
	; SI: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x12d687{{$}}			; SI: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x12d687{{$}}
	; SI-NOT: and			; SI-NOT: and
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	define amdgpu_kernel void @s_and_32_bit_constant_i64(i64 addrspace(1)* %out, i64 %a) {			define amdgpu_kernel void @s_and_32_bit_constant_i64(i64 addrspace(1)* %out, i32, i64 %a) {
	%and = and i64 %a, 1234567			%and = and i64 %a, 1234567
	store i64 %and, i64 addrspace(1)* %out, align 8			store i64 %and, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}s_and_multi_use_inline_imm_i64:			; FUNC-LABEL: {{^}}s_and_multi_use_inline_imm_i64:
	; SI: s_load_dwordx2			; SI: s_load_dwordx2
	; SI: s_load_dword [[A:s[0-9]+]]			; SI: s_load_dword [[A:s[0-9]+]]
	; SI: s_load_dword [[B:s[0-9]+]]			; SI: s_load_dword [[B:s[0-9]+]]
	; SI: s_load_dwordx2			; SI: s_load_dwordx2
	; SI-NOT: and			; SI-NOT: and
	; SI: s_lshl_b32 [[A]], [[A]], 1			; SI: s_lshl_b32 [[A]], [[A]], 1
	; SI: s_lshl_b32 [[B]], [[B]], 1			; SI: s_lshl_b32 [[B]], [[B]], 1
	; SI: s_and_b32 s{{[0-9]+}}, [[A]], 62			; SI: s_and_b32 s{{[0-9]+}}, [[A]], 62
	; SI: s_and_b32 s{{[0-9]+}}, [[B]], 62			; SI: s_and_b32 s{{[0-9]+}}, [[B]], 62
	; SI-NOT: and			; SI-NOT: and
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	define amdgpu_kernel void @s_and_multi_use_inline_imm_i64(i64 addrspace(1)* %out, i64 %a, i64 %b, i64 %c) {			define amdgpu_kernel void @s_and_multi_use_inline_imm_i64(i64 addrspace(1)* %out, i32, i64 %a, i32, i64 %b, i32, i64 %c) {
	%shl.a = shl i64 %a, 1			%shl.a = shl i64 %a, 1
	%shl.b = shl i64 %b, 1			%shl.b = shl i64 %b, 1
	%and0 = and i64 %shl.a, 62			%and0 = and i64 %shl.a, 62
	%and1 = and i64 %shl.b, 62			%and1 = and i64 %shl.b, 62
	%add0 = add i64 %and0, %c			%add0 = add i64 %and0, %c
	%add1 = add i64 %and1, %c			%add1 = add i64 %and1, %c
	store volatile i64 %add0, i64 addrspace(1)* %out			store volatile i64 %add0, i64 addrspace(1)* %out
	store volatile i64 %add1, i64 addrspace(1)* %out			store volatile i64 %add1, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; FUNC-LABEL: {{^}}s_and_inline_imm_64_i64_noshrink:			; FUNC-LABEL: {{^}}s_and_inline_imm_64_i64_noshrink:
	; SI: s_load_dword [[A:s[0-9]+]]			; SI: s_load_dword [[A:s[0-9]+]]
	; SI: s_lshl_b32 [[A]], [[A]], 1{{$}}			; SI: s_lshl_b32 [[A]], [[A]], 1{{$}}
	; SI-NOT: and			; SI-NOT: and
	; SI: s_and_b32 s{{[0-9]+}}, [[A]], 64			; SI: s_and_b32 s{{[0-9]+}}, [[A]], 64
	; SI-NOT: and			; SI-NOT: and
	; SI: s_add_u32			; SI: s_add_u32
	; SI-NEXT: s_addc_u32			; SI-NEXT: s_addc_u32
	define amdgpu_kernel void @s_and_inline_imm_64_i64_noshrink(i64 addrspace(1)* %out, i64 addrspace(1)* %aptr, i64 %a, i64 %b) {			define amdgpu_kernel void @s_and_inline_imm_64_i64_noshrink(i64 addrspace(1)* %out, i64 addrspace(1)* %aptr, i64 %a, i32, i64 %b) {
	%shl = shl i64 %a, 1			%shl = shl i64 %a, 1
	%and = and i64 %shl, 64			%and = and i64 %shl, 64
	%add = add i64 %and, %b			%add = add i64 %and, %b
	store i64 %add, i64 addrspace(1)* %out, align 8			store i64 %add, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}s_and_inline_imm_1_i64			; FUNC-LABEL: {{^}}s_and_inline_imm_1_i64
	▲ Show 20 Lines • Show All 183 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/ashr.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s

	; FIXME: Should be same on CI/VI			; FIXME: Should be same on CI/VI
	; GCN-LABEL: {{^}}s_ashr_v2i16:			; GCN-LABEL: {{^}}s_ashr_v2i16:
	; GFX9: s_load_dword [[LHS:s[0-9]+]]			; GFX9: s_load_dword [[LHS:s[0-9]+]]
	; GFX9: s_load_dword [[RHS:s[0-9]+]]			; GFX9: s_load_dword [[RHS:s[0-9]+]]
	; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]			; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]
	; GFX9: v_pk_ashrrev_i16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]			; GFX9: v_pk_ashrrev_i16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]

	; CIVI: s_load_dword [[LHS:s[0-9]+]]			; CIVI: s_load_dword [[LHS:s[0-9]+]]
	; CIVI: s_load_dword [[RHS:s[0-9]+]]			; CIVI: s_load_dword [[RHS:s[0-9]+]]

	; VI: s_ashr_i32			; CIVI-DAG: s_ashr_i32
	; VI: s_ashr_i32			; CIVI-DAG: s_ashr_i32
	; VI: s_sext_i32_i16			; CIVI-DAG: s_sext_i32_i16
	; VI: s_sext_i32_i16			; CIVI-DAG: s_sext_i32_i16
	; VI: s_ashr_i32			; CIVI-DAG: s_ashr_i32
	; VI: s_ashr_i32			; CIVI-DAG: s_ashr_i32
	; VI: s_lshl_b32			; CIVI-DAG: s_lshl_b32
	; VI: s_and_b32			; CIVI: s_and_b32
	; VI: s_or_b32			; CIVI: s_or_b32

	; CI: s_ashr_i32			define amdgpu_kernel void @s_ashr_v2i16(<2 x i16> addrspace(1)* %out, i32, <2 x i16> %lhs, i32, <2 x i16> %rhs) #0 {
	; CI: s_and_b32
	; CI: s_lshr_b32
	; CI: s_sext_i32_i16
	; CI: s_ashr_i32
	; CI: s_ashr_i32
	; CI: s_lshl_b32
	; CI: s_and_b32
	define amdgpu_kernel void @s_ashr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {
	%result = ashr <2 x i16> %lhs, %rhs			%result = ashr <2 x i16> %lhs, %rhs
	store <2 x i16> %result, <2 x i16> addrspace(1)* %out			store <2 x i16> %result, <2 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_ashr_v2i16:			; GCN-LABEL: {{^}}v_ashr_v2i16:
	; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]			; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]
	; GCN: {{buffer\|flat\|global}}_load_dword [[RHS:v[0-9]+]]			; GCN: {{buffer\|flat\|global}}_load_dword [[RHS:v[0-9]+]]
	▲ Show 20 Lines • Show All 134 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/atomic_cmp_swap_local.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=SI,SICI,SICIVI,GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=SI,SICI,SICIVI,GCN %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=SICI,CIVI,SICIVI,GCN %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=SICI,CIVI,SICIVI,GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=VI,CIVI,SICIVI,GFX89,GCN %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=VI,CIVI,SICIVI,GFX89,GCN %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX9,GFX89,GCN %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX9,GFX89,GCN %s

	; GCN-LABEL: {{^}}lds_atomic_cmpxchg_ret_i32_offset:			; GCN-LABEL: {{^}}lds_atomic_cmpxchg_ret_i32_offset:
	; GFX9-NOT: m0			; GFX9-NOT: m0
	; SICIVI-DAG: s_mov_b32 m0			; SICIVI-DAG: s_mov_b32 m0

	; SICI-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SICI-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; SICI-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SICI-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
	; GFX89-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; GFX89-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; GFX89-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; GFX89-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x70
	; GCN-DAG: v_mov_b32_e32 [[VCMP:v[0-9]+]], 7			; GCN-DAG: v_mov_b32_e32 [[VCMP:v[0-9]+]], 7
	; GCN-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]			; GCN-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; GCN-DAG: v_mov_b32_e32 [[VSWAP:v[0-9]+]], [[SWAP]]			; GCN-DAG: v_mov_b32_e32 [[VSWAP:v[0-9]+]], [[SWAP]]
	; GCN: ds_cmpst_rtn_b32 [[RESULT:v[0-9]+]], [[VPTR]], [[VCMP]], [[VSWAP]] offset:16			; GCN: ds_cmpst_rtn_b32 [[RESULT:v[0-9]+]], [[VPTR]], [[VCMP]], [[VSWAP]] offset:16
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @lds_atomic_cmpxchg_ret_i32_offset(i32 addrspace(1)* %out, i32 addrspace(3)* %ptr, i32 %swap) nounwind {			define amdgpu_kernel void @lds_atomic_cmpxchg_ret_i32_offset(i32 addrspace(1)* %out, [8 x i32], i32 addrspace(3)* %ptr, [8 x i32], i32 %swap) nounwind {
	%gep = getelementptr i32, i32 addrspace(3)* %ptr, i32 4			%gep = getelementptr i32, i32 addrspace(3)* %ptr, i32 4
	%pair = cmpxchg i32 addrspace(3)* %gep, i32 7, i32 %swap seq_cst monotonic			%pair = cmpxchg i32 addrspace(3)* %gep, i32 7, i32 %swap seq_cst monotonic
	%result = extractvalue { i32, i1 } %pair, 0			%result = extractvalue { i32, i1 } %pair, 0
	store i32 %result, i32 addrspace(1)* %out, align 4			store i32 %result, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}lds_atomic_cmpxchg_ret_i64_offset:			; GCN-LABEL: {{^}}lds_atomic_cmpxchg_ret_i64_offset:
	Show All 37 Lines
	}			}

	; GCN-LABEL: {{^}}lds_atomic_cmpxchg_noret_i32_offset:			; GCN-LABEL: {{^}}lds_atomic_cmpxchg_noret_i32_offset:
	; GFX9-NOT: m0			; GFX9-NOT: m0
	; SICIVI-DAG: s_mov_b32 m0			; SICIVI-DAG: s_mov_b32 m0


	; SICI-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x9			; SICI-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x9
	; SICI-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xa			; SICI-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x12
	; GFX89-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x24			; GFX89-DAG: s_load_dword [[PTR:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x24
	; GFX89-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28			; GFX89-DAG: s_load_dword [[SWAP:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x48
	; GCN-DAG: v_mov_b32_e32 [[VCMP:v[0-9]+]], 7			; GCN-DAG: v_mov_b32_e32 [[VCMP:v[0-9]+]], 7
	; GCN-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]			; GCN-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; GCN-DAG: v_mov_b32_e32 [[VSWAP:v[0-9]+]], [[SWAP]]			; GCN-DAG: v_mov_b32_e32 [[VSWAP:v[0-9]+]], [[SWAP]]
	; GCN: ds_cmpst_b32 [[VPTR]], [[VCMP]], [[VSWAP]] offset:16			; GCN: ds_cmpst_b32 [[VPTR]], [[VCMP]], [[VSWAP]] offset:16
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @lds_atomic_cmpxchg_noret_i32_offset(i32 addrspace(3)* %ptr, i32 %swap) nounwind {			define amdgpu_kernel void @lds_atomic_cmpxchg_noret_i32_offset(i32 addrspace(3)* %ptr, [8 x i32], i32 %swap) nounwind {
	%gep = getelementptr i32, i32 addrspace(3)* %ptr, i32 4			%gep = getelementptr i32, i32 addrspace(3)* %ptr, i32 4
	%pair = cmpxchg i32 addrspace(3)* %gep, i32 7, i32 %swap seq_cst monotonic			%pair = cmpxchg i32 addrspace(3)* %gep, i32 7, i32 %swap seq_cst monotonic
	%result = extractvalue { i32, i1 } %pair, 0			%result = extractvalue { i32, i1 } %pair, 0
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}lds_atomic_cmpxchg_noret_i64_offset:			; GCN-LABEL: {{^}}lds_atomic_cmpxchg_noret_i64_offset:
	; GFX9-NOT: m0			; GFX9-NOT: m0
	Show All 19 Lines

test/CodeGen/AMDGPU/attr-amdgpu-num-sgpr-spill-to-smem.ll

This file was added.

				; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=fiji -amdgpu-spill-sgpr-to-smem=1 -verify-machineinstrs < %s \| FileCheck -check-prefix=TOSMEM -check-prefix=ALL %s

				; FIXME: SGPR-to-SMEM requires an additional SGPR always to scavenge m0

				; ALL-LABEL: {{^}}max_9_sgprs:
				; ALL: SGPRBlocks: 1
				; ALL: NumSGPRsForWavesPerEU: 9
				define amdgpu_kernel void @max_9_sgprs() #0 {
				%one = load volatile i32, i32 addrspace(4)* undef
				%two = load volatile i32, i32 addrspace(4)* undef
				%three = load volatile i32, i32 addrspace(4)* undef
				%four = load volatile i32, i32 addrspace(4)* undef
				%five = load volatile i32, i32 addrspace(4)* undef
				%six = load volatile i32, i32 addrspace(4)* undef
				%seven = load volatile i32, i32 addrspace(4)* undef
				%eight = load volatile i32, i32 addrspace(4)* undef
				%nine = load volatile i32, i32 addrspace(4)* undef
				%ten = load volatile i32, i32 addrspace(4)* undef
				call void asm sideeffect "", "s,s,s,s,s,s,s,s"(i32 %one, i32 %two, i32 %three, i32 %four, i32 %five, i32 %six, i32 %seven, i32 %eight)
				store volatile i32 %one, i32 addrspace(1)* undef
				store volatile i32 %two, i32 addrspace(1)* undef
				store volatile i32 %three, i32 addrspace(1)* undef
				store volatile i32 %four, i32 addrspace(1)* undef
				store volatile i32 %five, i32 addrspace(1)* undef
				store volatile i32 %six, i32 addrspace(1)* undef
				store volatile i32 %seven, i32 addrspace(1)* undef
				store volatile i32 %eight, i32 addrspace(1)* undef
				store volatile i32 %nine, i32 addrspace(1)* undef
				store volatile i32 %ten, i32 addrspace(1)* undef
				ret void
				}

				attributes #0 = { nounwind "amdgpu-num-sgpr"="14" }

test/CodeGen/AMDGPU/attr-amdgpu-num-sgpr.ll

	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=fiji -amdgpu-spill-sgpr-to-smem=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=TOSGPR -check-prefix=ALL %s			; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=fiji -amdgpu-spill-sgpr-to-smem=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=TOSGPR -check-prefix=ALL %s
	; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=fiji -amdgpu-spill-sgpr-to-smem=1 -verify-machineinstrs < %s \| FileCheck -check-prefix=TOSMEM -check-prefix=ALL %s

	; If spilling to smem, additional registers are used for the resource			; If spilling to smem, additional registers are used for the resource
	; descriptor.			; descriptor.

				; FIXME: Vectorization can increase required SGPR count beyond limit.
				; FIXME: SGPR-to-SMEM requires an additional SGPR always to scavenge m0

	; ALL-LABEL: {{^}}max_9_sgprs:			; ALL-LABEL: {{^}}max_9_sgprs:

	; ALL: SGPRBlocks: 1			; ALL: SGPRBlocks: 1
	; ALL: NumSGPRsForWavesPerEU: 9			; ALL: NumSGPRsForWavesPerEU: 9
	define amdgpu_kernel void @max_9_sgprs(i32 addrspace(1)* %out1,			define amdgpu_kernel void @max_9_sgprs() #0 {
				%one = load volatile i32, i32 addrspace(4)* undef
	i32 addrspace(1)* %out2,			%two = load volatile i32, i32 addrspace(4)* undef
	i32 addrspace(1)* %out3,			%three = load volatile i32, i32 addrspace(4)* undef
	i32 addrspace(1)* %out4,			%four = load volatile i32, i32 addrspace(4)* undef
	i32 addrspace(1)* %out5,			%five = load volatile i32, i32 addrspace(4)* undef
	i32 %one, i32 %two, i32 %three, i32 %four, i32 %five) #0 {			%six = load volatile i32, i32 addrspace(4)* undef
	store i32 %one, i32 addrspace(1)* %out1			%seven = load volatile i32, i32 addrspace(4)* undef
	store i32 %two, i32 addrspace(1)* %out2			%eight = load volatile i32, i32 addrspace(4)* undef
	store i32 %three, i32 addrspace(1)* %out3			%nine = load volatile i32, i32 addrspace(4)* undef
	store i32 %four, i32 addrspace(1)* %out4			%ten = load volatile i32, i32 addrspace(4)* undef
	store i32 %five, i32 addrspace(1)* %out5			call void asm sideeffect "", "s,s,s,s,s,s,s,s,s"(i32 %one, i32 %two, i32 %three, i32 %four, i32 %five, i32 %six, i32 %seven, i32 %eight, i32 %nine)
				store volatile i32 %one, i32 addrspace(1)* undef
				store volatile i32 %two, i32 addrspace(1)* undef
				store volatile i32 %three, i32 addrspace(1)* undef
				store volatile i32 %four, i32 addrspace(1)* undef
				store volatile i32 %five, i32 addrspace(1)* undef
				store volatile i32 %six, i32 addrspace(1)* undef
				store volatile i32 %seven, i32 addrspace(1)* undef
				store volatile i32 %eight, i32 addrspace(1)* undef
				store volatile i32 %nine, i32 addrspace(1)* undef
				store volatile i32 %ten, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; private resource: 4			; private resource: 4
	; scratch wave offset: 1			; scratch wave offset: 1
	; workgroup ids: 3			; workgroup ids: 3
	; dispatch id: 2			; dispatch id: 2
	; queue ptr: 2			; queue ptr: 2
	▲ Show 20 Lines • Show All 102 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/basic-branch.ll

Show All 23 Lines	store:
ret void		ret void

end:		end:
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_brcc_i1:		; GCN-LABEL: {{^}}test_brcc_i1:
; GCN: s_load_dword [[VAL:s[0-9]+]]		; GCN: s_load_dword [[VAL:s[0-9]+]]
; GCNNOOPT: s_and_b32 s{{[0-9]+}}, 1, [[VAL]]		; GCNNOOPT: s_mov_b32 [[ONE:s[0-9]+]], 1{{$}}
		; GCNNOOPT: s_and_b32 s{{[0-9]+}}, [[VAL]], [[ONE]]
; GCNOPT: s_and_b32 s{{[0-9]+}}, [[VAL]], 1		; GCNOPT: s_and_b32 s{{[0-9]+}}, [[VAL]], 1
; GCN: s_cmp_eq_u32		; GCN: s_cmp_eq_u32
; GCN: s_cbranch_scc1 [[END:BB[0-9]+_[0-9]+]]		; GCN: s_cbranch_scc1 [[END:BB[0-9]+_[0-9]+]]

; GCN: buffer_store_dword		; GCN: buffer_store_dword

; GCN: {{^}}[[END]]:		; GCN: {{^}}[[END]]:
; GCN: s_endpgm		; GCN: s_endpgm
Show All 13 Lines

test/CodeGen/AMDGPU/bfe-patterns.ll

; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI %s		; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s

; GCN-LABEL: {{^}}v_ubfe_sub_i32:		; GCN-LABEL: {{^}}v_ubfe_sub_i32:
; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]
; GCN: v_bfe_u32 v{{[0-9]+}}, [[SRC]], 0, [[WIDTH]]		; GCN: v_bfe_u32 v{{[0-9]+}}, [[SRC]], 0, [[WIDTH]]
define amdgpu_kernel void @v_ubfe_sub_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_ubfe_sub_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x		%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x
Show All 32 Lines	define amdgpu_kernel void @v_ubfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {
%shl = shl i32 %src, %sub		%shl = shl i32 %src, %sub
%bfe = lshr i32 %shl, %sub		%bfe = lshr i32 %shl, %sub
store i32 %bfe, i32 addrspace(1)* %out.gep		store i32 %bfe, i32 addrspace(1)* %out.gep
store volatile i32 %shl, i32 addrspace(1)* undef		store volatile i32 %shl, i32 addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_ubfe_sub_i32:		; GCN-LABEL: {{^}}s_ubfe_sub_i32:
; GCN: s_load_dword [[SRC:s[0-9]+]]		; GCN: s_load_dwordx2 s{{\[}}[[SRC:[0-9]+]]:[[WIDTH:[0-9]+]]{{\]}}, s[0:1], {{0xb\|0x2c}}
; GCN: s_load_dword [[WIDTH:s[0-9]+]]		; GCN: v_mov_b32_e32 [[VWIDTH:v[0-9]+]], s[[WIDTH]]
; GCN: v_mov_b32_e32 [[VWIDTH:v[0-9]+]], [[WIDTH]]		; GCN: v_bfe_u32 v{{[0-9]+}}, s[[SRC]], 0, [[VWIDTH]]
; GCN: v_bfe_u32 v{{[0-9]+}}, [[SRC]], 0, [[VWIDTH]]
define amdgpu_kernel void @s_ubfe_sub_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {		define amdgpu_kernel void @s_ubfe_sub_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x
%sub = sub i32 32, %width		%sub = sub i32 32, %width
%shl = shl i32 %src, %sub		%shl = shl i32 %src, %sub
%bfe = lshr i32 %shl, %sub		%bfe = lshr i32 %shl, %sub
store i32 %bfe, i32 addrspace(1)* %out.gep		store i32 %bfe, i32 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_ubfe_sub_multi_use_shl_i32:		; GCN-LABEL: {{^}}s_ubfe_sub_multi_use_shl_i32:
; GCN: s_load_dword [[SRC:s[0-9]+]]		; GCN: s_load_dwordx2 s{{\[}}[[SRC:[0-9]+]]:[[WIDTH:[0-9]+]]{{\]}}, s[0:1], {{0xb\|0x2c}}
; GCN: s_load_dword [[WIDTH:s[0-9]+]]		; GCN: s_sub_i32 [[SUB:s[0-9]+]], 32, s[[WIDTH]]
; GCN: s_sub_i32 [[SUB:s[0-9]+]], 32, [[WIDTH]]		; GCN: s_lshl_b32 [[SHL:s[0-9]+]], s[[SRC]], [[SUB]]
; GCN-NEXT: s_lshl_b32 [[SHL:s[0-9]+]], [[SRC]], [[SUB]]		; GCN: s_lshr_b32 s{{[0-9]+}}, [[SHL]], [[SUB]]
; GCN-NEXT: s_lshr_b32 s{{[0-9]+}}, [[SHL]], [[SUB]]
define amdgpu_kernel void @s_ubfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {		define amdgpu_kernel void @s_ubfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x
%sub = sub i32 32, %width		%sub = sub i32 32, %width
%shl = shl i32 %src, %sub		%shl = shl i32 %src, %sub
%bfe = lshr i32 %shl, %sub		%bfe = lshr i32 %shl, %sub
store i32 %bfe, i32 addrspace(1)* %out.gep		store i32 %bfe, i32 addrspace(1)* %out.gep
store volatile i32 %shl, i32 addrspace(1)* undef		store volatile i32 %shl, i32 addrspace(1)* undef
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_sbfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {
%shl = shl i32 %src, %sub		%shl = shl i32 %src, %sub
%bfe = ashr i32 %shl, %sub		%bfe = ashr i32 %shl, %sub
store i32 %bfe, i32 addrspace(1)* %out.gep		store i32 %bfe, i32 addrspace(1)* %out.gep
store volatile i32 %shl, i32 addrspace(1)* undef		store volatile i32 %shl, i32 addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_sbfe_sub_i32:		; GCN-LABEL: {{^}}s_sbfe_sub_i32:
; GCN: s_load_dword [[SRC:s[0-9]+]]		; GCN: s_load_dwordx2 s{{\[}}[[SRC:[0-9]+]]:[[WIDTH:[0-9]+]]{{\]}}, s[0:1], {{0xb\|0x2c}}
; GCN: s_load_dword [[WIDTH:s[0-9]+]]		; GCN: v_mov_b32_e32 [[VWIDTH:v[0-9]+]], s[[WIDTH]]
; GCN: v_mov_b32_e32 [[VWIDTH:v[0-9]+]], [[WIDTH]]		; GCN: v_bfe_i32 v{{[0-9]+}}, s[[SRC]], 0, [[VWIDTH]]
; GCN: v_bfe_i32 v{{[0-9]+}}, [[SRC]], 0, [[VWIDTH]]
define amdgpu_kernel void @s_sbfe_sub_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {		define amdgpu_kernel void @s_sbfe_sub_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x
%sub = sub i32 32, %width		%sub = sub i32 32, %width
%shl = shl i32 %src, %sub		%shl = shl i32 %src, %sub
%bfe = ashr i32 %shl, %sub		%bfe = ashr i32 %shl, %sub
store i32 %bfe, i32 addrspace(1)* %out.gep		store i32 %bfe, i32 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_sbfe_sub_multi_use_shl_i32:		; GCN-LABEL: {{^}}s_sbfe_sub_multi_use_shl_i32:
; GCN: s_load_dword [[SRC:s[0-9]+]]		; GCN: s_load_dwordx2 s{{\[}}[[SRC:[0-9]+]]:[[WIDTH:[0-9]+]]{{\]}}, s[0:1], {{0xb\|0x2c}}
; GCN: s_load_dword [[WIDTH:s[0-9]+]]		; GCN: s_sub_i32 [[SUB:s[0-9]+]], 32, s[[WIDTH]]
; GCN: s_sub_i32 [[SUB:s[0-9]+]], 32, [[WIDTH]]		; GCN: s_lshl_b32 [[SHL:s[0-9]+]], s[[SRC]], [[SUB]]
; GCN-NEXT: s_lshl_b32 [[SHL:s[0-9]+]], [[SRC]], [[SUB]]		; GCN: s_ashr_i32 s{{[0-9]+}}, [[SHL]], [[SUB]]
; GCN-NEXT: s_ashr_i32 s{{[0-9]+}}, [[SHL]], [[SUB]]
define amdgpu_kernel void @s_sbfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {		define amdgpu_kernel void @s_sbfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 %src, i32 %width) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x
%sub = sub i32 32, %width		%sub = sub i32 32, %width
%shl = shl i32 %src, %sub		%shl = shl i32 %src, %sub
%bfe = ashr i32 %shl, %sub		%bfe = ashr i32 %shl, %sub
store i32 %bfe, i32 addrspace(1)* %out.gep		store i32 %bfe, i32 addrspace(1)* %out.gep
store volatile i32 %shl, i32 addrspace(1)* undef		store volatile i32 %shl, i32 addrspace(1)* undef
ret void		ret void
}		}

declare i32 @llvm.amdgcn.workitem.id.x() #0		declare i32 @llvm.amdgcn.workitem.id.x() #0

attributes #0 = { nounwind readnone }		attributes #0 = { nounwind readnone }
attributes #1 = { nounwind }		attributes #1 = { nounwind }

test/CodeGen/AMDGPU/bfi_int.ll

; RUN: llc < %s -march=amdgcn -verify-machineinstrs \| FileCheck -check-prefixes=GCN,FUNC %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,FUNC %s
; RUN: llc < %s -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs \| FileCheck -check-prefixes=GCN,FUNC %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,FUNC %s
; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck -check-prefixes=R600,FUNC %s		; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -enable-var-scope -check-prefixes=R600,FUNC %s

; BFI_INT Definition pattern from ISA docs		; BFI_INT Definition pattern from ISA docs
; (y & x) \| (z & ~x)		; (y & x) \| (z & ~x)
;		;
; FUNC-LABEL: {{^}}bfi_def:		; FUNC-LABEL: {{^}}bfi_def:
; R600: BFI_INT		; R600: BFI_INT

; GCN: v_bfi_b32		; GCN: v_bfi_b32
▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines	entry:
%or1 = or i64 %and0, %and1		%or1 = or i64 %and0, %and1
ret i64 %or1		ret i64 %or1
}		}

; FIXME: Should leave as 64-bit SALU ops		; FIXME: Should leave as 64-bit SALU ops
; FUNC-LABEL: {{^}}s_bitselect_i64_pat_0:		; FUNC-LABEL: {{^}}s_bitselect_i64_pat_0:
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_bfi_b32
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_bfi_b32		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s
		; GCN-DAG: v_bfi_b32
		; GCN-DAG: v_bfi_b32
define amdgpu_kernel void @s_bitselect_i64_pat_0(i64 %a, i64 %b, i64 %mask) {		define amdgpu_kernel void @s_bitselect_i64_pat_0(i64 %a, i64 %b, i64 %mask) {
%and0 = and i64 %a, %b		%and0 = and i64 %a, %b
%not.a = xor i64 %a, -1		%not.a = xor i64 %a, -1
%and1 = and i64 %not.a, %mask		%and1 = and i64 %not.a, %mask
%bitselect = or i64 %and0, %and1		%bitselect = or i64 %and0, %and1
%scalar.use = add i64 %bitselect, 10		%scalar.use = add i64 %bitselect, 10
store i64 %scalar.use, i64 addrspace(1)* undef		store i64 %scalar.use, i64 addrspace(1)* undef
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_bitselect_i64_pat_1:		; FUNC-LABEL: {{^}}s_bitselect_i64_pat_1:
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN-DAG: v_bfi_b32
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_bfi_b32		; GCN-DAG: v_bfi_b32
		; GCN-DAG: v_bfi_b32
define amdgpu_kernel void @s_bitselect_i64_pat_1(i64 %a, i64 %b, i64 %mask) {		define amdgpu_kernel void @s_bitselect_i64_pat_1(i64 %a, i64 %b, i64 %mask) {
%xor.0 = xor i64 %a, %mask		%xor.0 = xor i64 %a, %mask
%and = and i64 %xor.0, %b		%and = and i64 %xor.0, %b
%bitselect = xor i64 %and, %mask		%bitselect = xor i64 %and, %mask

%scalar.use = add i64 %bitselect, 10		%scalar.use = add i64 %bitselect, 10
store i64 %scalar.use, i64 addrspace(1)* undef		store i64 %scalar.use, i64 addrspace(1)* undef
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_bitselect_i64_pat_2:		; FUNC-LABEL: {{^}}s_bitselect_i64_pat_2:
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN-DAG: v_bfi_b32		; GCN-DAG: v_bfi_b32
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_mov_b32_e32 v{{[0-9]+}}, s		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s
; GCN: v_bfi_b32		; GCN-DAG: v_bfi_b32
define amdgpu_kernel void @s_bitselect_i64_pat_2(i64 %a, i64 %b, i64 %mask) {		define amdgpu_kernel void @s_bitselect_i64_pat_2(i64 %a, i64 %b, i64 %mask) {
%xor.0 = xor i64 %a, %mask		%xor.0 = xor i64 %a, %mask
%and = and i64 %xor.0, %b		%and = and i64 %xor.0, %b
%bitselect = xor i64 %and, %mask		%bitselect = xor i64 %and, %mask

%scalar.use = add i64 %bitselect, 10		%scalar.use = add i64 %bitselect, 10
store i64 %scalar.use, i64 addrspace(1)* undef		store i64 %scalar.use, i64 addrspace(1)* undef
ret void		ret void
Show All 20 Lines

test/CodeGen/AMDGPU/br_cc.f16.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s

	; GCN-LABEL: {{^}}br_cc_f16:			; GCN-LABEL: {{^}}br_cc_f16:
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]

	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_nlt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_nlt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_nlt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_nlt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: s_cbranch_vccnz			; GCN: s_cbranch_vccnz

	; GCN: one{{$}}			; SI: one{{$}}
	; SI: v_cvt_f16_f32_e32 v[[A_F16:[0-9]+]], v[[A_F32]]			; SI: v_cvt_f16_f32_e32 v[[CVT:[0-9]+]], v[[A_F32]]
	; GCN: buffer_store_short
	; GCN: s_endpgm

	; GCN: two{{$}}			; SI: two{{$}}
	; SI: v_cvt_f16_f32_e32 v[[B_F16:[0-9]+]], v[[B_F32]]			; SI: v_cvt_f16_f32_e32 v[[CVT]], v[[B_F32]]
	; GCN: buffer_store_short v[[B_F16]]
	; GCN: s_endpgm			; SI: one{{$}}
				; SI: buffer_store_short v[[CVT]]
				; SI: s_endpgm



				; VI: one{{$}}
				; VI: buffer_store_short v[[A_F16]]
				; VI: s_endpgm

				; VI: two{{$}}
				; VI: buffer_store_short v[[B_F16]]
				; VI: s_endpgm
	define amdgpu_kernel void @br_cc_f16(			define amdgpu_kernel void @br_cc_f16(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%fcmp = fcmp olt half %a.val, %b.val			%fcmp = fcmp olt half %a.val, %b.val
	br i1 %fcmp, label %one, label %two			br i1 %fcmp, label %one, label %two

	one:			one:
	store half %a.val, half addrspace(1)* %r			store half %a.val, half addrspace(1)* %r
	ret void			ret void

	two:			two:
	▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/branch-relaxation.ll

	Show First 20 Lines • Show All 484 Lines • ▼ Show 20 Lines

	ret:			ret:
	store volatile i32 7, i32 addrspace(1)* undef			store volatile i32 7, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}long_branch_hang:			; GCN-LABEL: {{^}}long_branch_hang:
	; GCN: s_cmp_lt_i32 s{{[0-9]+}}, 6			; GCN: s_cmp_lt_i32 s{{[0-9]+}}, 6
	; GCN-NEXT: s_cbranch_scc1 {{BB[0-9]+_[0-9]+}}			; GCN: s_cbranch_scc1 {{BB[0-9]+_[0-9]+}}
	; GCN-NEXT: s_branch [[LONG_BR_0:BB[0-9]+_[0-9]+]]			; GCN-NEXT: s_branch [[LONG_BR_0:BB[0-9]+_[0-9]+]]
	; GCN-NEXT: BB{{[0-9]+_[0-9]+}}:			; GCN-NEXT: BB{{[0-9]+_[0-9]+}}:

	; GCN: s_add_u32 vcc_lo, vcc_lo, [[LONG_BR_DEST0:BB[0-9]+_[0-9]+]]-(			; GCN: s_add_u32 vcc_lo, vcc_lo, [[LONG_BR_DEST0:BB[0-9]+_[0-9]+]]-(
	; GCN: s_setpc_b64			; GCN: s_setpc_b64

	; GCN-NEXT: [[LONG_BR_0]]:			; GCN-NEXT: [[LONG_BR_0]]:
	; GCN-DAG: v_cmp_lt_i32			; GCN-DAG: v_cmp_lt_i32
	▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/code-object-v3.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=+code-object-v3 < %s \| FileCheck --check-prefixes=ALL-ASM,OSABI-AMDHSA-ASM %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=+code-object-v3 < %s \| FileCheck --check-prefixes=ALL-ASM,OSABI-AMDHSA-ASM %s
	; RUN: llc -filetype=obj -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=+code-object-v3 < %s \| llvm-readobj -elf-output-style=GNU -notes -relocations -sections -symbols \| FileCheck --check-prefixes=ALL-ELF,OSABI-AMDHSA-ELF %s			; RUN: llc -filetype=obj -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=+code-object-v3 < %s \| llvm-readobj -elf-output-style=GNU -notes -relocations -sections -symbols \| FileCheck --check-prefixes=ALL-ELF,OSABI-AMDHSA-ELF %s

	; ALL-ASM-LABEL: {{^}}fadd:			; ALL-ASM-LABEL: {{^}}fadd:
	; OSABI-AMDHSA-ASM: s_endpgm			; OSABI-AMDHSA-ASM: s_endpgm
	; OSABI-AMDHSA-ASM: .section .rodata,#alloc			; OSABI-AMDHSA-ASM: .section .rodata,#alloc
	; OSABI-AMDHSA-ASM: .p2align 6			; OSABI-AMDHSA-ASM: .p2align 6
	; OSABI-AMDHSA-ASM: .amdhsa_kernel fadd			; OSABI-AMDHSA-ASM: .amdhsa_kernel fadd
	; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_private_segment_buffer 1			; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_private_segment_buffer 1
	; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_kernarg_segment_ptr 1			; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_kernarg_segment_ptr 1
	; OSABI-AMDHSA-ASM: .amdhsa_next_free_vgpr 3			; OSABI-AMDHSA-ASM: .amdhsa_next_free_vgpr 3
	; OSABI-AMDHSA-ASM: .amdhsa_next_free_sgpr 6			; OSABI-AMDHSA-ASM: .amdhsa_next_free_sgpr 8
	; OSABI-AMDHSA-ASM: .amdhsa_reserve_vcc 0			; OSABI-AMDHSA-ASM: .amdhsa_reserve_vcc 0
	; OSABI-AMDHSA-ASM: .amdhsa_reserve_flat_scratch 0			; OSABI-AMDHSA-ASM: .amdhsa_reserve_flat_scratch 0
	; OSABI-AMDHSA-ASM: .end_amdhsa_kernel			; OSABI-AMDHSA-ASM: .end_amdhsa_kernel
	; OSABI-AMDHSA-ASM: .text			; OSABI-AMDHSA-ASM: .text

	; ALL-ASM-LABEL: {{^}}fsub:			; ALL-ASM-LABEL: {{^}}fsub:
	; OSABI-AMDHSA-ASM: s_endpgm			; OSABI-AMDHSA-ASM: s_endpgm
	; OSABI-AMDHSA-ASM: .section .rodata,#alloc			; OSABI-AMDHSA-ASM: .section .rodata,#alloc
	; OSABI-AMDHSA-ASM: .p2align 6			; OSABI-AMDHSA-ASM: .p2align 6
	; OSABI-AMDHSA-ASM: .amdhsa_kernel fsub			; OSABI-AMDHSA-ASM: .amdhsa_kernel fsub
	; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_private_segment_buffer 1			; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_private_segment_buffer 1
	; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_kernarg_segment_ptr 1			; OSABI-AMDHSA-ASM: .amdhsa_user_sgpr_kernarg_segment_ptr 1
	; OSABI-AMDHSA-ASM: .amdhsa_next_free_vgpr 3			; OSABI-AMDHSA-ASM: .amdhsa_next_free_vgpr 3
	; OSABI-AMDHSA-ASM: .amdhsa_next_free_sgpr 6			; OSABI-AMDHSA-ASM: .amdhsa_next_free_sgpr 8
	; OSABI-AMDHSA-ASM: .amdhsa_reserve_vcc 0			; OSABI-AMDHSA-ASM: .amdhsa_reserve_vcc 0
	; OSABI-AMDHSA-ASM: .amdhsa_reserve_flat_scratch 0			; OSABI-AMDHSA-ASM: .amdhsa_reserve_flat_scratch 0
	; OSABI-AMDHSA-ASM: .end_amdhsa_kernel			; OSABI-AMDHSA-ASM: .end_amdhsa_kernel
	; OSABI-AMDHSA-ASM: .text			; OSABI-AMDHSA-ASM: .text

	; OSABI-AMDHSA-ASM-NOT: .hsa_code_object_version			; OSABI-AMDHSA-ASM-NOT: .hsa_code_object_version
	; OSABI-AMDHSA-ASM-NOT: .hsa_code_object_isa			; OSABI-AMDHSA-ASM-NOT: .hsa_code_object_isa
	; OSABI-AMDHSA-ASM-NOT: .amd_amdgpu_isa			; OSABI-AMDHSA-ASM-NOT: .amd_amdgpu_isa
	▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/ctlz.ll

	Show First 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @v_ctlz_i8(i8 addrspace(1)* noalias %out, i8 addrspace(1)* noalias %valptr) nounwind {			define amdgpu_kernel void @v_ctlz_i8(i8 addrspace(1)* noalias %out, i8 addrspace(1)* noalias %valptr) nounwind {
	%val = load i8, i8 addrspace(1)* %valptr			%val = load i8, i8 addrspace(1)* %valptr
	%ctlz = call i8 @llvm.ctlz.i8(i8 %val, i1 false) nounwind readnone			%ctlz = call i8 @llvm.ctlz.i8(i8 %val, i1 false) nounwind readnone
	store i8 %ctlz, i8 addrspace(1)* %out			store i8 %ctlz, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}s_ctlz_i64:			; FUNC-LABEL: {{^}}s_ctlz_i64:
	; GCN: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; GCN: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
	; GCN-DAG: v_cmp_eq_u32_e64 vcc, s[[HI]], 0{{$}}			; GCN-DAG: v_cmp_eq_u32_e64 vcc, s[[HI]], 0{{$}}
	; GCN-DAG: s_flbit_i32_b32 [[FFBH_LO:s[0-9]+]], s[[LO]]			; GCN-DAG: s_flbit_i32_b32 [[FFBH_LO:s[0-9]+]], s[[LO]]
	; GCN-DAG: s_add_i32 [[ADD:s[0-9]+]], [[FFBH_LO]], 32			; GCN-DAG: s_add_i32 [[ADD:s[0-9]+]], [[FFBH_LO]], 32
	; GCN-DAG: s_flbit_i32_b32 [[FFBH_HI:s[0-9]+]], s[[HI]]			; GCN-DAG: s_flbit_i32_b32 [[FFBH_HI:s[0-9]+]], s[[HI]]
	; GCN-DAG: v_mov_b32_e32 [[VFFBH_LO:v[0-9]+]], [[ADD]]			; GCN-DAG: v_mov_b32_e32 [[VFFBH_LO:v[0-9]+]], [[ADD]]
	; GCN-DAG: v_mov_b32_e32 [[VFFBH_HI:v[0-9]+]], [[FFBH_HI]]			; GCN-DAG: v_mov_b32_e32 [[VFFBH_HI:v[0-9]+]], [[FFBH_HI]]
	; GCN-DAG: v_cndmask_b32_e32 v[[CTLZ:[0-9]+]], [[VFFBH_HI]], [[VFFBH_LO]]			; GCN-DAG: v_cndmask_b32_e32 v[[CTLZ:[0-9]+]], [[VFFBH_HI]], [[VFFBH_LO]]
	; GCN-DAG: v_mov_b32_e32 v[[CTLZ_HI:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[CTLZ_HI:[0-9]+]], 0{{$}}
	; GCN: {{buffer\|flat}}_store_dwordx2 {{.*}}v{{\[}}[[CTLZ]]:[[CTLZ_HI]]{{\]}}			; GCN: {{buffer\|flat}}_store_dwordx2 {{.*}}v{{\[}}[[CTLZ]]:[[CTLZ_HI]]{{\]}}
	define amdgpu_kernel void @s_ctlz_i64(i64 addrspace(1)* noalias %out, i64 %val) nounwind {			define amdgpu_kernel void @s_ctlz_i64(i64 addrspace(1)* noalias %out, [8 x i32], i64 %val) nounwind {
	%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 false)			%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 false)
	store i64 %ctlz, i64 addrspace(1)* %out			store i64 %ctlz, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}s_ctlz_i64_trunc:			; FUNC-LABEL: {{^}}s_ctlz_i64_trunc:
	define amdgpu_kernel void @s_ctlz_i64_trunc(i32 addrspace(1)* noalias %out, i64 %val) nounwind {			define amdgpu_kernel void @s_ctlz_i64_trunc(i32 addrspace(1)* noalias %out, i64 %val) nounwind {
	%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 false)			%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 false)
	▲ Show 20 Lines • Show All 149 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/ctlz_zero_undef.ll

Show First 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_ctlz_zero_undef_i8(i8 addrspace(1)* noalias %out, i8 addrspace(1)* noalias %valptr) nounwind {
%in.gep = getelementptr i8, i8 addrspace(1)* %valptr, i32 %tid		%in.gep = getelementptr i8, i8 addrspace(1)* %valptr, i32 %tid
%val = load i8, i8 addrspace(1)* %in.gep		%val = load i8, i8 addrspace(1)* %in.gep
%ctlz = call i8 @llvm.ctlz.i8(i8 %val, i1 true) nounwind readnone		%ctlz = call i8 @llvm.ctlz.i8(i8 %val, i1 true) nounwind readnone
store i8 %ctlz, i8 addrspace(1)* %out		store i8 %ctlz, i8 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_ctlz_zero_undef_i64:		; FUNC-LABEL: {{^}}s_ctlz_zero_undef_i64:
; GCN: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; GCN: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; GCN-DAG: v_cmp_eq_u32_e64 vcc, s[[HI]], 0{{$}}		; GCN-DAG: v_cmp_eq_u32_e64 vcc, s[[HI]], 0{{$}}
; GCN-DAG: s_flbit_i32_b32 [[FFBH_LO:s[0-9]+]], s[[LO]]		; GCN-DAG: s_flbit_i32_b32 [[FFBH_LO:s[0-9]+]], s[[LO]]
; GCN-DAG: s_add_i32 [[ADD:s[0-9]+]], [[FFBH_LO]], 32		; GCN-DAG: s_add_i32 [[ADD:s[0-9]+]], [[FFBH_LO]], 32
; GCN-DAG: s_flbit_i32_b32 [[FFBH_HI:s[0-9]+]], s[[HI]]		; GCN-DAG: s_flbit_i32_b32 [[FFBH_HI:s[0-9]+]], s[[HI]]
; GCN-DAG: v_mov_b32_e32 [[VFFBH_LO:v[0-9]+]], [[FFBH_LO]]		; GCN-DAG: v_mov_b32_e32 [[VFFBH_LO:v[0-9]+]], [[FFBH_LO]]
; GCN-DAG: v_mov_b32_e32 [[VFFBH_HI:v[0-9]+]], [[FFBH_HI]]		; GCN-DAG: v_mov_b32_e32 [[VFFBH_HI:v[0-9]+]], [[FFBH_HI]]
; GCN-DAG: v_cndmask_b32_e32 v[[CTLZ:[0-9]+]], [[VFFBH_HI]], [[VFFBH_LO]]		; GCN-DAG: v_cndmask_b32_e32 v[[CTLZ:[0-9]+]], [[VFFBH_HI]], [[VFFBH_LO]]
; GCN-DAG: v_mov_b32_e32 v[[CTLZ_HI:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[CTLZ_HI:[0-9]+]], 0{{$}}
; GCN: {{buffer\|flat}}_store_dwordx2 v{{\[}}[[CTLZ]]:[[CTLZ_HI]]{{\]}}		; GCN: {{buffer\|flat}}_store_dwordx2 v{{\[}}[[CTLZ]]:[[CTLZ_HI]]{{\]}}
define amdgpu_kernel void @s_ctlz_zero_undef_i64(i64 addrspace(1)* noalias %out, i64 %val) nounwind {		define amdgpu_kernel void @s_ctlz_zero_undef_i64(i64 addrspace(1)* noalias %out, [8 x i32], i64 %val) nounwind {
%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 true)		%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 true)
store i64 %ctlz, i64 addrspace(1)* %out		store i64 %ctlz, i64 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_ctlz_zero_undef_i64_trunc:		; FUNC-LABEL: {{^}}s_ctlz_zero_undef_i64_trunc:
define amdgpu_kernel void @s_ctlz_zero_undef_i64_trunc(i32 addrspace(1)* noalias %out, i64 %val) nounwind {		define amdgpu_kernel void @s_ctlz_zero_undef_i64_trunc(i32 addrspace(1)* noalias %out, i64 %val) nounwind {
%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 true)		%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 true)
▲ Show 20 Lines • Show All 171 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/ctpop.ll

Show First 20 Lines • Show All 299 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_ctpop_i32_add_vvar_inv(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in, i32 addrspace(1)* noalias %constptr) nounwind {
store i32 %add, i32 addrspace(1)* %out, align 4		store i32 %add, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FIXME: We currently disallow SALU instructions in all branches,		; FIXME: We currently disallow SALU instructions in all branches,
; but there are some cases when the should be allowed.		; but there are some cases when the should be allowed.

; FUNC-LABEL: {{^}}ctpop_i32_in_br:		; FUNC-LABEL: {{^}}ctpop_i32_in_br:
; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xd		; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x16
; VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x34		; VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x58
; GCN: s_bcnt1_i32_b32 [[SRESULT:s[0-9]+]], [[VAL]]		; GCN: s_bcnt1_i32_b32 [[SRESULT:s[0-9]+]], [[VAL]]
; GCN: v_mov_b32_e32 [[RESULT:v[0-9]+]], [[SRESULT]]		; GCN: v_mov_b32_e32 [[RESULT:v[0-9]+]], [[SRESULT]]
; GCN: buffer_store_dword [[RESULT]],		; GCN: buffer_store_dword [[RESULT]],
; GCN: s_endpgm		; GCN: s_endpgm
; EG: BCNT_INT		; EG: BCNT_INT
define amdgpu_kernel void @ctpop_i32_in_br(i32 addrspace(1)* %out, i32 addrspace(1)* %in, i32 %ctpop_arg, i32 %cond) {		define amdgpu_kernel void @ctpop_i32_in_br(i32 addrspace(1)* %out, i32 addrspace(1)* %in, i32 %ctpop_arg, [8 x i32], i32 %cond) {
entry:		entry:
%tmp0 = icmp eq i32 %cond, 0		%tmp0 = icmp eq i32 %cond, 0
br i1 %tmp0, label %if, label %else		br i1 %tmp0, label %if, label %else

if:		if:
%tmp2 = call i32 @llvm.ctpop.i32(i32 %ctpop_arg)		%tmp2 = call i32 @llvm.ctpop.i32(i32 %ctpop_arg)
br label %endif		br label %endif

Show All 10 Lines

test/CodeGen/AMDGPU/ctpop16.ll

	Show First 20 Lines • Show All 302 Lines • ▼ Show 20 Lines
	}			}

	; FIXME: We currently disallow SALU instructions in all branches,			; FIXME: We currently disallow SALU instructions in all branches,
	; but there are some cases when the should be allowed.			; but there are some cases when the should be allowed.

	; FUNC-LABEL: {{^}}ctpop_i16_in_br:			; FUNC-LABEL: {{^}}ctpop_i16_in_br:
	; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xd			; SI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xd
	; VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x34			; VI: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x34
	; GCN: s_bcnt1_i32_b32 [[SRESULT:s[0-9]+]], [[VAL]]
				; GCN: s_and_b32 [[CTPOP_ARG:s[0-9]+]], [[VAL]], 0xffff
				; GCN: s_bcnt1_i32_b32 [[SRESULT:s[0-9]+]], [[CTPOP_ARG]]
	; GCN: v_mov_b32_e32 [[RESULT:v[0-9]+]], [[SRESULT]]			; GCN: v_mov_b32_e32 [[RESULT:v[0-9]+]], [[SRESULT]]
	; GCN: buffer_store_short [[RESULT]],			; GCN: buffer_store_short [[RESULT]],
	; GCN: s_endpgm			; GCN: s_endpgm
	; EG: BCNT_INT			; EG: BCNT_INT
	define amdgpu_kernel void @ctpop_i16_in_br(i16 addrspace(1)* %out, i16 addrspace(1)* %in, i16 %ctpop_arg, i16 %cond) {			define amdgpu_kernel void @ctpop_i16_in_br(i16 addrspace(1)* %out, i16 addrspace(1)* %in, i16 %ctpop_arg, i16 %cond) {
	entry:			entry:
	%tmp0 = icmp eq i16 %cond, 0			%tmp0 = icmp eq i16 %cond, 0
	br i1 %tmp0, label %if, label %else			br i1 %tmp0, label %if, label %else
	Show All 15 Lines

test/CodeGen/AMDGPU/ctpop64.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN -check-prefix=FUNC %s

	declare i32 @llvm.r600.read.tidig.x() nounwind readnone			declare i32 @llvm.r600.read.tidig.x() nounwind readnone

	declare i64 @llvm.ctpop.i64(i64) nounwind readnone			declare i64 @llvm.ctpop.i64(i64) nounwind readnone
	declare <2 x i64> @llvm.ctpop.v2i64(<2 x i64>) nounwind readnone			declare <2 x i64> @llvm.ctpop.v2i64(<2 x i64>) nounwind readnone
	declare <4 x i64> @llvm.ctpop.v4i64(<4 x i64>) nounwind readnone			declare <4 x i64> @llvm.ctpop.v4i64(<4 x i64>) nounwind readnone
	declare <8 x i64> @llvm.ctpop.v8i64(<8 x i64>) nounwind readnone			declare <8 x i64> @llvm.ctpop.v8i64(<8 x i64>) nounwind readnone
	declare <16 x i64> @llvm.ctpop.v16i64(<16 x i64>) nounwind readnone			declare <16 x i64> @llvm.ctpop.v16i64(<16 x i64>) nounwind readnone

	declare i65 @llvm.ctpop.i65(i65) nounwind readnone			declare i65 @llvm.ctpop.i65(i65) nounwind readnone
	declare i128 @llvm.ctpop.i128(i128) nounwind readnone			declare i128 @llvm.ctpop.i128(i128) nounwind readnone

	; FUNC-LABEL: {{^}}s_ctpop_i64:			; FUNC-LABEL: {{^}}s_ctpop_i64:
	; SI: s_load_dwordx2 [[SVAL:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[SVAL:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[SVAL:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[SVAL:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: s_bcnt1_i32_b64 [[SRESULT:s[0-9]+]], [[SVAL]]			; GCN: s_bcnt1_i32_b64 [[SRESULT:s[0-9]+]], [[SVAL]]
	; GCN: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[SRESULT]]			; GCN: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[SRESULT]]
	; GCN: buffer_store_dword [[VRESULT]],			; GCN: buffer_store_dword [[VRESULT]],
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @s_ctpop_i64(i32 addrspace(1)* noalias %out, i64 %val) nounwind {			define amdgpu_kernel void @s_ctpop_i64(i32 addrspace(1)* noalias %out, [8 x i32], i64 %val) nounwind {
	%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone			%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone
	%truncctpop = trunc i64 %ctpop to i32			%truncctpop = trunc i64 %ctpop to i32
	store i32 %truncctpop, i32 addrspace(1)* %out, align 4			store i32 %truncctpop, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v_ctpop_i64:			; FUNC-LABEL: {{^}}v_ctpop_i64:
	; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[LOVAL:[0-9]+]]:[[HIVAL:[0-9]+]]{{\]}},			; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[LOVAL:[0-9]+]]:[[HIVAL:[0-9]+]]{{\]}},
	▲ Show 20 Lines • Show All 173 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/extract_vector_elt-f16.ll

Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @extract_vector_elt_v2f16_dynamic_vgpr(half addrspace(1)* %out, <2 x half> addrspace(4)* %vec.ptr, i32 addrspace(1)* %idx.ptr) #0 {
%vec = load <2 x half>, <2 x half> addrspace(4)* %vec.ptr		%vec = load <2 x half>, <2 x half> addrspace(4)* %vec.ptr
%idx = load i32, i32 addrspace(1)* %gep		%idx = load i32, i32 addrspace(1)* %gep
%elt = extractelement <2 x half> %vec, i32 %idx		%elt = extractelement <2 x half> %vec, i32 %idx
store half %elt, half addrspace(1)* %out.gep, align 2		store half %elt, half addrspace(1)* %out.gep, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}extract_vector_elt_v3f16:		; GCN-LABEL: {{^}}extract_vector_elt_v3f16:
; SI: s_load_dword s		; GCN: s_load_dwordx2
; SI: s_load_dword s		; GCN: s_load_dwordx2

; GFX89: s_load_dwordx2
; GFX89: s_load_dwordx2

; GCN: buffer_store_short		; GCN: buffer_store_short
; GCN: buffer_store_short		; GCN: buffer_store_short
define amdgpu_kernel void @extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo) #0 {		define amdgpu_kernel void @extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo) #0 {
%p0 = extractelement <3 x half> %foo, i32 0		%p0 = extractelement <3 x half> %foo, i32 0
%p1 = extractelement <3 x half> %foo, i32 2		%p1 = extractelement <3 x half> %foo, i32 2
%out1 = getelementptr half, half addrspace(1)* %out, i32 1		%out1 = getelementptr half, half addrspace(1)* %out, i32 1
store half %p1, half addrspace(1)* %out, align 2		store half %p1, half addrspace(1)* %out, align 2
store half %p0, half addrspace(1)* %out1, align 2		store half %p0, half addrspace(1)* %out1, align 2
ret void		ret void
}		}

; FIXME: Why sometimes vector shift?		; FIXME: Why sometimes vector shift?
; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3f16:		; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3f16:
; SI: s_load_dword s		; SI: s_load_dword s
; SI: s_load_dword s		; SI: s_load_dwordx2 s
; SI: s_load_dword s		; SI: s_load_dwordx2 s

; GFX89: s_load_dwordx2 s		; GFX89: s_load_dwordx2 s
; GFX89: s_load_dwordx2 s		; GFX89: s_load_dwordx2 s
; GFX89: s_load_dword s		; GFX89: s_load_dword s


; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4		; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4
; GFX89: v_lshrrev_b64 v{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}, v		; GCN: s_lshr_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}

; SI: s_lshr_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}

; GCN: {{buffer\|global}}_store_short		; GCN: {{buffer\|global}}_store_short
define amdgpu_kernel void @dynamic_extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo, i32 %idx) #0 {		define amdgpu_kernel void @dynamic_extract_vector_elt_v3f16(half addrspace(1)* %out, <3 x half> %foo, i32 %idx) #0 {
%p0 = extractelement <3 x half> %foo, i32 %idx		%p0 = extractelement <3 x half> %foo, i32 %idx
%out1 = getelementptr half, half addrspace(1)* %out, i32 1		%out1 = getelementptr half, half addrspace(1)* %out, i32 1
store half %p0, half addrspace(1)* %out		store half %p0, half addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/extract_vector_elt-i16.ll

Show All 21 Lines
; GCN-LABEL: {{^}}extract_vector_elt_v2i16_dynamic_sgpr:		; GCN-LABEL: {{^}}extract_vector_elt_v2i16_dynamic_sgpr:
; GCN: s_load_dword [[IDX:s[0-9]+]]		; GCN: s_load_dword [[IDX:s[0-9]+]]
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN: s_load_dword [[VEC:s[0-9]+]]
; GCN: s_lshl_b32 [[IDX_SCALED:s[0-9]+]], [[IDX]], 4		; GCN: s_lshl_b32 [[IDX_SCALED:s[0-9]+]], [[IDX]], 4
; GCN: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], [[IDX_SCALED]]		; GCN: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], [[IDX_SCALED]]
; GCN: v_mov_b32_e32 [[VELT1:v[0-9]+]], [[ELT1]]		; GCN: v_mov_b32_e32 [[VELT1:v[0-9]+]], [[ELT1]]
; GCN: buffer_store_short [[VELT1]]		; GCN: buffer_store_short [[VELT1]]
; GCN: ScratchSize: 0		; GCN: ScratchSize: 0
define amdgpu_kernel void @extract_vector_elt_v2i16_dynamic_sgpr(i16 addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %idx) #0 {		define amdgpu_kernel void @extract_vector_elt_v2i16_dynamic_sgpr(i16 addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i32 %idx) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt = extractelement <2 x i16> %vec, i32 %idx		%elt = extractelement <2 x i16> %vec, i32 %idx
store i16 %elt, i16 addrspace(1)* %out, align 2		store i16 %elt, i16 addrspace(1)* %out, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}extract_vector_elt_v2i16_dynamic_vgpr:		; GCN-LABEL: {{^}}extract_vector_elt_v2i16_dynamic_vgpr:
; GCN-DAG: s_load_dword [[VEC:s[0-9]+]]		; GCN-DAG: s_load_dword [[VEC:s[0-9]+]]
Show All 14 Lines	define amdgpu_kernel void @extract_vector_elt_v2i16_dynamic_vgpr(i16 addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 addrspace(1)* %idx.ptr) #0 {
%idx = load volatile i32, i32 addrspace(1)* %gep		%idx = load volatile i32, i32 addrspace(1)* %gep
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt = extractelement <2 x i16> %vec, i32 %idx		%elt = extractelement <2 x i16> %vec, i32 %idx
store i16 %elt, i16 addrspace(1)* %out.gep, align 2		store i16 %elt, i16 addrspace(1)* %out.gep, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}extract_vector_elt_v3i16:		; GCN-LABEL: {{^}}extract_vector_elt_v3i16:
; SI: s_load_dword s		; GCN: s_load_dwordx2
; SI: s_load_dwordx2 s		; GCN: s_load_dwordx2
; SI: s_load_dword s

; GFX89: s_load_dwordx2
; GFX89: s_load_dwordx2

; GCN-NOT: {{buffer\|flat\|global}}_load		; GCN-NOT: {{buffer\|flat\|global}}_load

; GCN: buffer_store_short		; GCN: buffer_store_short
; GCN: buffer_store_short		; GCN: buffer_store_short
define amdgpu_kernel void @extract_vector_elt_v3i16(i16 addrspace(1)* %out, <3 x i16> %foo) #0 {		define amdgpu_kernel void @extract_vector_elt_v3i16(i16 addrspace(1)* %out, <3 x i16> %foo) #0 {
%p0 = extractelement <3 x i16> %foo, i32 0		%p0 = extractelement <3 x i16> %foo, i32 0
%p1 = extractelement <3 x i16> %foo, i32 2		%p1 = extractelement <3 x i16> %foo, i32 2
%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1		%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1
store i16 %p1, i16 addrspace(1)* %out, align 2		store i16 %p1, i16 addrspace(1)* %out, align 2
store i16 %p0, i16 addrspace(1)* %out1, align 2		store i16 %p0, i16 addrspace(1)* %out1, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}extract_vector_elt_v4i16:		; GCN-LABEL: {{^}}extract_vector_elt_v4i16:
; SI: s_load_dword s		; SI: s_load_dwordx2
; SI: s_load_dword s
; SI: buffer_store_short		; SI: buffer_store_short
; SI: buffer_store_short		; SI: buffer_store_short

; GFX89-DAG: s_load_dwordx2 s{{\[}}[[LOAD0:[0-9]+]]:[[LOAD1:[0-9]+]]{{\]}}, s[0:1], 0x2c		; GFX89-DAG: s_load_dwordx2 s{{\[}}[[LOAD0:[0-9]+]]:[[LOAD1:[0-9]+]]{{\]}}, s[0:1], 0x2c
; GFX89-DAG: v_mov_b32_e32 [[VLOAD0:v[0-9]+]], s[[LOAD0]]		; GFX89-DAG: v_mov_b32_e32 [[VLOAD0:v[0-9]+]], s[[LOAD0]]
; GFX89-DAG: buffer_store_short [[VLOAD0]], off		; GFX89-DAG: buffer_store_short [[VLOAD0]], off
; GFX89-DAG: v_mov_b32_e32 [[VLOAD1:v[0-9]+]], s[[LOAD1]]		; GFX89-DAG: v_mov_b32_e32 [[VLOAD1:v[0-9]+]], s[[LOAD1]]
; GFX89-DAG: buffer_store_short [[VLOAD1]], off		; GFX89-DAG: buffer_store_short [[VLOAD1]], off
define amdgpu_kernel void @extract_vector_elt_v4i16(i16 addrspace(1)* %out, <4 x i16> %foo) #0 {		define amdgpu_kernel void @extract_vector_elt_v4i16(i16 addrspace(1)* %out, <4 x i16> %foo) #0 {
%p0 = extractelement <4 x i16> %foo, i32 0		%p0 = extractelement <4 x i16> %foo, i32 0
%p1 = extractelement <4 x i16> %foo, i32 2		%p1 = extractelement <4 x i16> %foo, i32 2
%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 10		%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 10
store volatile i16 %p1, i16 addrspace(1)* %out, align 2		store volatile i16 %p1, i16 addrspace(1)* %out, align 2
store volatile i16 %p0, i16 addrspace(1)* %out1, align 2		store volatile i16 %p0, i16 addrspace(1)* %out1, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i16:		; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i16:
; SI: s_load_dword s		; SI: s_load_dword s
; SI: s_load_dword s		; SI: s_load_dwordx2 s
; SI: s_load_dword s		; SI: s_load_dwordx2 s

; GFX89-DAG: s_load_dwordx2		; GFX89-DAG: s_load_dwordx2 s{{\[}}[[LOAD0:[0-9]+]]:[[LOAD1:[0-9]+]]{{\]}}, s[0:1], 0x24
; GFX89-DAG: s_load_dwordx2 s{{\[}}[[LOAD0:[0-9]+]]:[[LOAD1:[0-9]+]]{{\]}}, s[0:1], 0x2c		; GFX89-DAG: s_load_dwordx2 s{{\[}}[[LOAD0:[0-9]+]]:[[LOAD1:[0-9]+]]{{\]}}, s[0:1], 0x4c
; GFX89-DAG: s_load_dword s		; GFX89-DAG: s_load_dword s{{[0-9]+}}, s[0:1], 0x54

; GCN-NOT: {{buffer\|flat\|global}}		; GCN-NOT: {{buffer\|flat\|global}}

; SICI: buffer_store_short		; SICI: buffer_store_short
; SICI: buffer_store_short		; SICI: buffer_store_short
; SICI: buffer_store_short		; SICI: buffer_store_short

; SICI: buffer_load_ushort
; SICI: buffer_store_short

; GFX9-NOT: s_pack_ll_b32_b16		; GFX9-NOT: s_pack_ll_b32_b16
; GFX9-NOT: s_pack_lh_b32_b16		; GFX9-NOT: s_pack_lh_b32_b16

; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4		; GCN-DAG: s_lshl_b32 s{{[0-9]+}}, s{{[0-9]+}}, 4
; GFX89: s_lshr_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[LOAD0]]:[[LOAD1]]{{\]}}, s{{[0-9]+}}		; GCN: s_lshr_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s

; GCN: {{buffer\|global}}_store_short		; GCN: {{buffer\|global}}_store_short
define amdgpu_kernel void @dynamic_extract_vector_elt_v3i16(i16 addrspace(1)* %out, <3 x i16> %foo, i32 %idx) #0 {		define amdgpu_kernel void @dynamic_extract_vector_elt_v3i16(i16 addrspace(1)* %out, [8 x i32], <3 x i16> %foo, i32 %idx) #0 {
		rampitecUnsubmitted Not Done Reply Inline Actions Why do you need all of that explicit padding in many tests? rampitec: Why do you need all of that explicit padding in many tests?
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions It's enough that they can't be merged with unused gaps if the vectorizer supported that. Most tests are looking for loads of specific values, and it's harder / impossible to easily check the correct value with the merged load. arsenm: It's enough that they can't be merged with unused gaps if the vectorizer supported that. Most…
%p0 = extractelement <3 x i16> %foo, i32 %idx		%p0 = extractelement <3 x i16> %foo, i32 %idx
%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1		%out1 = getelementptr i16, i16 addrspace(1)* %out, i32 1
store i16 %p0, i16 addrspace(1)* %out		store i16 %p0, i16 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v4i16_dynamic_sgpr:		; GCN-LABEL: {{^}}v_insertelement_v4i16_dynamic_sgpr:
define amdgpu_kernel void @v_insertelement_v4i16_dynamic_sgpr(i16 addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %idx) #0 {		define amdgpu_kernel void @v_insertelement_v4i16_dynamic_sgpr(i16 addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %idx) #0 {
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/extract_vector_elt-i8.ll

	; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s

	; GCN-LABEL: {{^}}extract_vector_elt_v1i8:			; GCN-LABEL: {{^}}extract_vector_elt_v1i8:
	; GCN: s_load_dword [[LOAD:s[0-9]+]]			; GCN: s_load_dword [[LOAD:s[0-9]+]]
	; GCN: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]			; GCN: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]
	; GCN: buffer_store_byte [[V_LOAD]]			; GCN: buffer_store_byte [[V_LOAD]]
	define amdgpu_kernel void @extract_vector_elt_v1i8(i8 addrspace(1)* %out, <1 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v1i8(i8 addrspace(1)* %out, <1 x i8> %foo) #0 {
	%p0 = extractelement <1 x i8> %foo, i32 0			%p0 = extractelement <1 x i8> %foo, i32 0
	store i8 %p0, i8 addrspace(1)* %out			store i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v2i8:			; GCN-LABEL: {{^}}extract_vector_elt_v2i8:
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 8			; SI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 8
				; VI: v_lshrrev_b16_e64 v{{[0-9]+}}, 8, s{{[0-9]+}}
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v2i8(i8 addrspace(1)* %out, <2 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v2i8(i8 addrspace(1)* %out, <2 x i8> %foo) #0 {
	%p0 = extractelement <2 x i8> %foo, i32 0			%p0 = extractelement <2 x i8> %foo, i32 0
	%p1 = extractelement <2 x i8> %foo, i32 1			%p1 = extractelement <2 x i8> %foo, i32 1
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store volatile i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store volatile i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v3i8:			; GCN-LABEL: {{^}}extract_vector_elt_v3i8:
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16			; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v3i8(i8 addrspace(1)* %out, <3 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v3i8(i8 addrspace(1)* %out, <3 x i8> %foo) #0 {
	%p0 = extractelement <3 x i8> %foo, i32 0			%p0 = extractelement <3 x i8> %foo, i32 0
	%p1 = extractelement <3 x i8> %foo, i32 2			%p1 = extractelement <3 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store volatile i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store volatile i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v4i8:			; GCN-LABEL: {{^}}extract_vector_elt_v4i8:
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16			; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> %foo) #0 {
	%p0 = extractelement <4 x i8> %foo, i32 0			%p0 = extractelement <4 x i8> %foo, i32 0
	%p1 = extractelement <4 x i8> %foo, i32 2			%p1 = extractelement <4 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store volatile i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store volatile i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v8i8:			; GCN-LABEL: {{^}}extract_vector_elt_v8i8:
				; GCN-NOT: {{s\|flat\|buffer\|global}}_load
	; GCN: s_load_dword [[VAL:s[0-9]+]]			; GCN: s_load_dword [[VAL:s[0-9]+]]
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{s\|flat\|buffer\|global}}_load
	; GCN: s_lshr_b32 s{{[0-9]+}}, [[VAL]], 16			; GCN: s_lshr_b32 s{{[0-9]+}}, [[VAL]], 16
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{s\|flat\|buffer\|global}}_load
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	; GCN: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @extract_vector_elt_v8i8(i8 addrspace(1)* %out, <8 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v8i8(<8 x i8> %foo) #0 {
	%p0 = extractelement <8 x i8> %foo, i32 0			%p0 = extractelement <8 x i8> %foo, i32 0
	%p1 = extractelement <8 x i8> %foo, i32 2			%p1 = extractelement <8 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			store volatile i8 %p1, i8 addrspace(1)* null
	store i8 %p1, i8 addrspace(1)* %out			store volatile i8 %p0, i8 addrspace(1)* null
	store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v16i8:			; GCN-LABEL: {{^}}extract_vector_elt_v16i8:
	; GCN: s_load_dword [[LOAD0:s[0-9]+]]			; GCN: s_load_dword [[LOAD0:s[0-9]+]]
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16			; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16
	; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]			; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]
	; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]			; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]
	; GCN: buffer_store_byte [[V_ELT2]]			; GCN: buffer_store_byte [[V_ELT2]]
	; GCN: buffer_store_byte [[V_LOAD0]]			; GCN: buffer_store_byte [[V_LOAD0]]
	define amdgpu_kernel void @extract_vector_elt_v16i8(i8 addrspace(1)* %out, <16 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v16i8(i8 addrspace(1)* %out, <16 x i8> %foo) #0 {
	%p0 = extractelement <16 x i8> %foo, i32 0			%p0 = extractelement <16 x i8> %foo, i32 0
	%p1 = extractelement <16 x i8> %foo, i32 2			%p1 = extractelement <16 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store volatile i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store volatile i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v32i8:			; GCN-LABEL: {{^}}extract_vector_elt_v32i8:
	; GCN: s_load_dword [[LOAD0:s[0-9]+]]			; GCN-NOT: {{s\|flat\|buffer\|global}}_load
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN: s_load_dword [[VAL:s[0-9]+]]
	; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16			; GCN-NOT: {{s\|flat\|buffer\|global}}_load
	; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]			; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[VAL]], 16
				; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], s{{[0-9]+}}
	; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]			; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]
	; GCN: buffer_store_byte [[V_ELT2]]			; GCN: buffer_store_byte [[V_ELT2]]
	; GCN: buffer_store_byte [[V_LOAD0]]			; GCN: buffer_store_byte [[V_LOAD0]]
	define amdgpu_kernel void @extract_vector_elt_v32i8(i8 addrspace(1)* %out, <32 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v32i8(<32 x i8> %foo) #0 {
	%p0 = extractelement <32 x i8> %foo, i32 0			%p0 = extractelement <32 x i8> %foo, i32 0
	%p1 = extractelement <32 x i8> %foo, i32 2			%p1 = extractelement <32 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			store volatile i8 %p1, i8 addrspace(1)* null
	store i8 %p1, i8 addrspace(1)* %out			store volatile i8 %p0, i8 addrspace(1)* null
	store i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extract_vector_elt_v64i8:			; GCN-LABEL: {{^}}extract_vector_elt_v64i8:
	; GCN: s_load_dword [[LOAD0:s[0-9]+]]			; GCN: s_load_dword [[LOAD0:s[0-9]+]]
	; GCN-NOT: {{flat\|buffer\|global}}			; GCN-NOT: {{flat\|buffer\|global}}
	; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16			; GCN: s_lshr_b32 [[ELT2:s[0-9]+]], [[LOAD0]], 16
	; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]			; GCN-DAG: v_mov_b32_e32 [[V_LOAD0:v[0-9]+]], [[LOAD0]]
	; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]			; GCN-DAG: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]
	; GCN: buffer_store_byte [[V_ELT2]]			; GCN: buffer_store_byte [[V_ELT2]]
	; GCN: buffer_store_byte [[V_LOAD0]]			; GCN: buffer_store_byte [[V_LOAD0]]
	define amdgpu_kernel void @extract_vector_elt_v64i8(i8 addrspace(1)* %out, <64 x i8> %foo) #0 {			define amdgpu_kernel void @extract_vector_elt_v64i8(i8 addrspace(1)* %out, <64 x i8> %foo) #0 {
	%p0 = extractelement <64 x i8> %foo, i32 0			%p0 = extractelement <64 x i8> %foo, i32 0
	%p1 = extractelement <64 x i8> %foo, i32 2			%p1 = extractelement <64 x i8> %foo, i32 2
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p1, i8 addrspace(1)* %out			store volatile i8 %p1, i8 addrspace(1)* %out
	store i8 %p0, i8 addrspace(1)* %out1			store volatile i8 %p0, i8 addrspace(1)* %out1
	ret void			ret void
	}			}

	; FIXME: SI generates much worse code from that's a pain to match			; FIXME: SI generates much worse code from that's a pain to match

	; FIXME: 16-bit and 32-bit shift not combined after legalize to to			; FIXME: 16-bit and 32-bit shift not combined after legalize to to
	; isTypeDesirableForOp in SimplifyDemandedBits			; isTypeDesirableForOp in SimplifyDemandedBits

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v2i8:			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v2i8:
	; VI: s_load_dword [[LOAD:s[0-9]+]], s[0:1], 0x2c			; VI: s_load_dword [[LOAD:s[0-9]+]], s[4:5], 0x28
	; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x30			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s[4:5], 0x4c
	; VI-NOT: {{flat\|buffer\|global}}			; VI-NOT: {{flat\|buffer\|global}}
	; VI: s_lshr_b32 [[ELT1:s[0-9]+]], [[LOAD]], 8			; VI-DAG: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]
	; VI: v_lshlrev_b16_e64 [[ELT2:v[0-9]+]], 8, [[ELT1]]
	; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
	; VI: v_or_b32_e32 [[BUILD_VEC:v[0-9]+]], [[ELT0]], [[ELT2]]
	; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: v_lshrrev_b16_e32 [[EXTRACT:v[0-9]+]], [[SCALED_IDX]], [[BUILD_VEC]]			; VI: v_lshrrev_b16_e32 [[ELT:v[0-9]+]], [[SCALED_IDX]], [[V_LOAD]]
	; VI: buffer_store_byte [[EXTRACT]]			; VI: buffer_store_byte [[ELT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v2i8(i8 addrspace(1)* %out, <2 x i8> %foo, i32 %idx) #0 {			define amdgpu_kernel void @dynamic_extract_vector_elt_v2i8(i8 addrspace(1)* %out, [8 x i32], <2 x i8> %foo, [8 x i32], i32 %idx) #0 {
	%elt = extractelement <2 x i8> %foo, i32 %idx			%elt = extractelement <2 x i8> %foo, i32 %idx
	store i8 %elt, i8 addrspace(1)* %out			store volatile i8 %elt, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i8:			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v3i8:
	; VI: s_load_dword [[LOAD:s[0-9]+]], s[0:1], 0x2c			; VI: s_load_dword [[LOAD:s[0-9]+]], s[4:5], 0x28
	; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x30			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s[4:5], 0x4c
	; VI-NOT: {{flat\|buffer\|global}}			; VI-NOT: {{flat\|buffer\|global}}
	; VI: s_lshr_b32 [[ELT12:s[0-9]+]], [[LOAD]], 8
	; VI: v_lshlrev_b16_e64 [[ELT1:v[0-9]+]], 8, [[ELT12]]
	; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
	; VI: v_or_b32_e32 [[VEC3:v[0-9]+]], [[ELT0]], [[ELT1]]
	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: v_lshrrev_b32_e32 [[EXTRACT:v[0-9]+]], [[SCALED_IDX]], [[VEC3]]			; VI: s_lshr_b32 [[ELT:s[0-9]+]], [[LOAD]], [[SCALED_IDX]]
	; VI: buffer_store_byte [[EXTRACT]]			; VI: v_mov_b32_e32 [[V_ELT:v[0-9]+]], [[ELT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v3i8(i8 addrspace(1)* %out, <3 x i8> %foo, i32 %idx) #0 {			; VI: buffer_store_byte [[V_ELT]]
				define amdgpu_kernel void @dynamic_extract_vector_elt_v3i8(i8 addrspace(1)* %out, [8 x i32], <3 x i8> %foo, [8 x i32], i32 %idx) #0 {
	%p0 = extractelement <3 x i8> %foo, i32 %idx			%p0 = extractelement <3 x i8> %foo, i32 %idx
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p0, i8 addrspace(1)* %out			store volatile i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v4i8:			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v4i8:
	; VI: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x34			; VI: s_load_dword [[IDX:s[0-9]+]], s[4:5], 0x30
	; VI: s_load_dword [[VEC4:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0			; VI: s_load_dword [[VEC4:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: s_lshr_b32 [[EXTRACT:s[0-9]+]], [[VEC4]], [[SCALED_IDX]]			; VI: s_lshr_b32 [[EXTRACT:s[0-9]+]], [[VEC4]], [[SCALED_IDX]]

	; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], [[EXTRACT]]			; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], [[EXTRACT]]
	; VI: buffer_store_byte [[V_EXTRACT]]			; VI: buffer_store_byte [[V_EXTRACT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> addrspace(4)* %vec.ptr, i32 %idx) #0 {			define amdgpu_kernel void @dynamic_extract_vector_elt_v4i8(i8 addrspace(1)* %out, <4 x i8> addrspace(4)* %vec.ptr, [8 x i32], i32 %idx) #0 {
	%vec = load <4 x i8>, <4 x i8> addrspace(4)* %vec.ptr			%vec = load <4 x i8>, <4 x i8> addrspace(4)* %vec.ptr
	%p0 = extractelement <4 x i8> %vec, i32 %idx			%p0 = extractelement <4 x i8> %vec, i32 %idx
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p0, i8 addrspace(1)* %out			store volatile i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v8i8:			; GCN-LABEL: {{^}}dynamic_extract_vector_elt_v8i8:
	; VI: s_load_dword [[IDX:s[0-9]+]], s[0:1], 0x34			; VI: s_load_dword [[IDX:s[0-9]+]], s[4:5], 0x10
	; VI: s_load_dwordx2 [[VEC8:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0			; VI: s_load_dwordx2 [[VEC8:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: s_lshr_b64 s{{\[}}[[EXTRACT_LO:[0-9]+]]:{{[0-9]+\]}}, [[VEC8]], [[SCALED_IDX]]			; VI: s_lshr_b64 s{{\[}}[[EXTRACT_LO:[0-9]+]]:{{[0-9]+\]}}, [[VEC8]], [[SCALED_IDX]]
	; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], s[[EXTRACT_LO]]			; VI: v_mov_b32_e32 [[V_EXTRACT:v[0-9]+]], s[[EXTRACT_LO]]
	; VI: buffer_store_byte [[V_EXTRACT]]			; VI: buffer_store_byte [[V_EXTRACT]]
	define amdgpu_kernel void @dynamic_extract_vector_elt_v8i8(i8 addrspace(1)* %out, <8 x i8> addrspace(4)* %vec.ptr, i32 %idx) #0 {			define amdgpu_kernel void @dynamic_extract_vector_elt_v8i8(i8 addrspace(1)* %out, <8 x i8> addrspace(4)* %vec.ptr, i32 %idx) #0 {
	%vec = load <8 x i8>, <8 x i8> addrspace(4)* %vec.ptr			%vec = load <8 x i8>, <8 x i8> addrspace(4)* %vec.ptr
	%p0 = extractelement <8 x i8> %vec, i32 %idx			%p0 = extractelement <8 x i8> %vec, i32 %idx
	%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1			%out1 = getelementptr i8, i8 addrspace(1)* %out, i32 1
	store i8 %p0, i8 addrspace(1)* %out			store volatile i8 %p0, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}reduce_load_vector_v8i8_extract_0123:			; GCN-LABEL: {{^}}reduce_load_vector_v8i8_extract_0123:
	; GCN-NOT: {{s\|buffer\|flat\|global}}_load_			; GCN-NOT: {{s\|buffer\|flat\|global}}_load_
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN-NOT: {{s\|buffer\|flat\|global}}_load_			; GCN-NOT: {{s\|buffer\|flat\|global}}_load_
	; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 8			; GCN: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 8
	▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fabs.f16.ll

	Show All 33 Lines
	; GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0x7fff7fff			; GCN: s_and_b32 s{{[0-9]+}}, [[VAL]], 0x7fff7fff
	define amdgpu_kernel void @s_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {			define amdgpu_kernel void @s_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {
	%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)			%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)
	store <2 x half> %fabs, <2 x half> addrspace(1)* %out			store <2 x half> %fabs, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_fabs_v4f16:			; GCN-LABEL: {{^}}s_fabs_v4f16:
	; CI: s_load_dword s[[LO:[0-9]+]]			; CI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2
	; CI: s_load_dword s[[HI:[0-9]+]]
	; GFX89: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x8			; GFX89: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x8

	; GCN: s_mov_b32 [[MASK:s[0-9]+]], 0x7fff7fff			; GCN: s_mov_b32 [[MASK:s[0-9]+]], 0x7fff7fff
	; GCN-DAG: s_and_b32 s{{[0-9]+}}, s[[LO]], [[MASK]]			; GCN-DAG: s_and_b32 s{{[0-9]+}}, s[[LO]], [[MASK]]
	; GCN-DAG: s_and_b32 s{{[0-9]+}}, s[[HI]], [[MASK]]			; GCN-DAG: s_and_b32 s{{[0-9]+}}, s[[HI]], [[MASK]]
	; GCN: {{flat\|global}}_store_dwordx2			; GCN: {{flat\|global}}_store_dwordx2
	define amdgpu_kernel void @s_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {			define amdgpu_kernel void @s_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {
	%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)			%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)
	store <4 x half> %fabs, <4 x half> addrspace(1)* %out			store <4 x half> %fabs, <4 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fabs_fold_f16:			; GCN-LABEL: {{^}}fabs_fold_f16:
	; GCN: s_load_dword [[IN0:s[0-9]+]]			; GCN: s_load_dword [[IN0:s[0-9]+]]
	; GCN: s_lshr_b32 [[IN1:s[0-9]+]], [[IN0]], 16			; GCN-DAG: s_lshr_b32 [[IN1:s[0-9]+]], [[IN0]], 16

	; CI-DAG: v_cvt_f32_f16_e64 [[CVT0:v[0-9]+]], \|[[IN0]]\|			; CI-DAG: v_cvt_f32_f16_e64 [[CVT0:v[0-9]+]], \|[[IN0]]\|
	; CI-DAG: v_cvt_f32_f16_e32 [[ABS_CVT1:v[0-9]+]], [[IN1]]			; CI-DAG: v_cvt_f32_f16_e32 [[ABS_CVT1:v[0-9]+]], [[IN1]]
	; CI-DAG: v_mul_f32_e32 [[RESULT:v[0-9]+]], [[CVT0]], [[ABS_CVT1]]			; CI-DAG: v_mul_f32_e32 [[RESULT:v[0-9]+]], [[CVT0]], [[ABS_CVT1]]
	; CI-DAG: v_cvt_f16_f32_e32 [[CVTRESULT:v[0-9]+]], [[RESULT]]			; CI-DAG: v_cvt_f16_f32_e32 [[CVTRESULT:v[0-9]+]], [[RESULT]]
	; CI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[CVTRESULT]]			; CI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[CVTRESULT]]

				; GFX89-NOT: and
	; GFX89: v_mov_b32_e32 [[V_IN1:v[0-9]+]], [[IN1]]			; GFX89: v_mov_b32_e32 [[V_IN1:v[0-9]+]], [[IN1]]
	; GFX89: v_mul_f16_e64 [[RESULT:v[0-9]+]], \|[[IN0]]\|, [[V_IN1]]			; GFX89: v_mul_f16_e64 [[RESULT:v[0-9]+]], \|[[IN0]]\|, [[V_IN1]]
	; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
	define amdgpu_kernel void @fabs_fold_f16(half addrspace(1)* %out, half %in0, half %in1) {			define amdgpu_kernel void @fabs_fold_f16(half addrspace(1)* %out, half %in0, half %in1) {
	%fabs = call half @llvm.fabs.f16(half %in0)			%fabs = call half @llvm.fabs.f16(half %in0)
	%fmul = fmul half %fabs, %in1			%fmul = fmul half %fabs, %in1
	store half %fmul, half addrspace(1)* %out			store half %fmul, half addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 134 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fabs.f64.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @fabs_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) {			define amdgpu_kernel void @fabs_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) {
	%fabs = call <4 x double> @llvm.fabs.v4f64(<4 x double> %in)			%fabs = call <4 x double> @llvm.fabs.v4f64(<4 x double> %in)
	store <4 x double> %fabs, <4 x double> addrspace(1)* %out			store <4 x double> %fabs, <4 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}fabs_fold_f64:			; SI-LABEL: {{^}}fabs_fold_f64:
	; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; SI-NOT: and			; SI-NOT: and
	; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|, {{v\[[0-9]+:[0-9]+\]}}			; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|, {{v\[[0-9]+:[0-9]+\]}}
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @fabs_fold_f64(double addrspace(1)* %out, double %in0, double %in1) {			define amdgpu_kernel void @fabs_fold_f64(double addrspace(1)* %out, [8 x i32], double %in0, [8 x i32], double %in1) {
	%fabs = call double @llvm.fabs.f64(double %in0)			%fabs = call double @llvm.fabs.f64(double %in0)
	%fmul = fmul double %fabs, %in1			%fmul = fmul double %fabs, %in1
	store double %fmul, double addrspace(1)* %out			store double %fmul, double addrspace(1)* %out
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}fabs_fn_fold_f64:			; SI-LABEL: {{^}}fabs_fn_fold_f64:
	; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; SI-NOT: and			; SI-NOT: and
	; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|, {{v\[[0-9]+:[0-9]+\]}}			; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|, {{v\[[0-9]+:[0-9]+\]}}
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @fabs_fn_fold_f64(double addrspace(1)* %out, double %in0, double %in1) {			define amdgpu_kernel void @fabs_fn_fold_f64(double addrspace(1)* %out, [8 x i32], double %in0, [8 x i32], double %in1) {
	%fabs = call double @fabs(double %in0)			%fabs = call double @fabs(double %in0)
	%fmul = fmul double %fabs, %in1			%fmul = fmul double %fabs, %in1
	store double %fmul, double addrspace(1)* %out			store double %fmul, double addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fabs_free_f64:			; FUNC-LABEL: {{^}}fabs_free_f64:
	; SI: v_and_b32			; SI: v_and_b32
	Show All 17 Lines

test/CodeGen/AMDGPU/fabs.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GCN: v_and_b32			; GCN: v_and_b32
	define amdgpu_kernel void @fabs_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %in) {			define amdgpu_kernel void @fabs_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %in) {
	%fabs = call <4 x float> @llvm.fabs.v4f32(<4 x float> %in)			%fabs = call <4 x float> @llvm.fabs.v4f32(<4 x float> %in)
	store <4 x float> %fabs, <4 x float> addrspace(1)* %out			store <4 x float> %fabs, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fabs_fn_fold:			; GCN-LABEL: {{^}}fabs_fn_fold:
	; SI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb			; SI: s_load_dwordx2 s{{\[}}[[ABS_VALUE:[0-9]+]]:[[MUL_VAL:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0xb
	; VI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c			; VI: s_load_dwordx2 s{{\[}}[[ABS_VALUE:[0-9]+]]:[[MUL_VAL:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0x2c
	; GCN-NOT: and			; GCN-NOT: and
	; GCN: v_mul_f32_e64 v{{[0-9]+}}, \|[[ABS_VALUE]]\|, v{{[0-9]+}}			; GCN: v_mov_b32_e32 [[V_MUL_VI:v[0-9]+]], s[[MUL_VAL]]
				; GCN: v_mul_f32_e64 v{{[0-9]+}}, \|s[[ABS_VALUE]]\|, [[V_MUL_VI]]
	define amdgpu_kernel void @fabs_fn_fold(float addrspace(1)* %out, float %in0, float %in1) {			define amdgpu_kernel void @fabs_fn_fold(float addrspace(1)* %out, float %in0, float %in1) {
	%fabs = call float @fabs(float %in0)			%fabs = call float @fabs(float %in0)
	%fmul = fmul float %fabs, %in1			%fmul = fmul float %fabs, %in1
	store float %fmul, float addrspace(1)* %out			store float %fmul, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fabs_fold:			; FUNC-LABEL: {{^}}fabs_fold:
	; SI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb			; SI: s_load_dwordx2 s{{\[}}[[ABS_VALUE:[0-9]+]]:[[MUL_VAL:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0xb
	; VI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c			; VI: s_load_dwordx2 s{{\[}}[[ABS_VALUE:[0-9]+]]:[[MUL_VAL:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0x2c
	; GCN-NOT: and			; GCN-NOT: and
	; GCN: v_mul_f32_e64 v{{[0-9]+}}, \|[[ABS_VALUE]]\|, v{{[0-9]+}}			; GCN: v_mov_b32_e32 [[V_MUL_VI:v[0-9]+]], s[[MUL_VAL]]
				; GCN: v_mul_f32_e64 v{{[0-9]+}}, \|s[[ABS_VALUE]]\|, [[V_MUL_VI]]
	define amdgpu_kernel void @fabs_fold(float addrspace(1)* %out, float %in0, float %in1) {			define amdgpu_kernel void @fabs_fold(float addrspace(1)* %out, float %in0, float %in1) {
	%fabs = call float @llvm.fabs.f32(float %in0)			%fabs = call float @llvm.fabs.f32(float %in0)
	%fmul = fmul float %fabs, %in1			%fmul = fmul float %fabs, %in1
	store float %fmul, float addrspace(1)* %out			store float %fmul, float addrspace(1)* %out
	ret void			ret void
	}			}

	; Make sure we turn some integer operations back into fabs			; Make sure we turn some integer operations back into fabs
	Show All 15 Lines

test/CodeGen/AMDGPU/fadd.f16.ll

Show All 10 Lines
; VI: v_add_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]		; VI: v_add_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fadd_f16(		define amdgpu_kernel void @fadd_f16(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a,		half addrspace(1)* %a,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load volatile half, half addrspace(1)* %a
%b.val = load half, half addrspace(1)* %b		%b.val = load volatile half, half addrspace(1)* %b
%r.val = fadd half %a.val, %b.val		%r.val = fadd half %a.val, %b.val
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fadd_f16_imm_a		; GCN-LABEL: {{^}}fadd_f16_imm_a
; GCN: {{buffer\|flat}}_load_ushort v[[B_F16:[0-9]+]]		; GCN: {{buffer\|flat}}_load_ushort v[[B_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
Show All 31 Lines
}		}

; GCN-LABEL: {{^}}fadd_v2f16:		; GCN-LABEL: {{^}}fadd_v2f16:
; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; VI: flat_load_dword v[[B_V2_F16:[0-9]+]]		; VI: flat_load_dword v[[B_V2_F16:[0-9]+]]
; VI: flat_load_dword v[[A_V2_F16:[0-9]+]]		; VI: flat_load_dword v[[A_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]

; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI-DAG: v_add_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]		; SI-DAG: v_add_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]
; SI-DAG: v_add_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]		; SI-DAG: v_add_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
Show All 17 Lines	entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %gep.b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %gep.b
%r.val = fadd <2 x half> %a.val, %b.val		%r.val = fadd <2 x half> %a.val, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fadd_v2f16_imm_a:		; GCN-LABEL: {{^}}fadd_v2f16_imm_a:
; GCN-DAG: {{buffer\|flat}}_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword v[[B_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]		; SI-DAG: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]		; SI-DAG: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_mov_b32_e32 v[[CONST2:[0-9]+]], 0x4000		; VI-DAG: v_mov_b32_e32 v[[CONST2:[0-9]+]], 0x4000
; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[CONST2]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[CONST2]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]		; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fadd_v2f16_imm_a(		define amdgpu_kernel void @fadd_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.b = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %b, i32 %tid		%gep.b = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %b, i32 %tid
%b.val = load <2 x half>, <2 x half> addrspace(1)* %gep.b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %gep.b
%r.val = fadd <2 x half> <half 1.0, half 2.0>, %b.val		%r.val = fadd <2 x half> <half 1.0, half 2.0>, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fadd_v2f16_imm_b:		; GCN-LABEL: {{^}}fadd_v2f16_imm_b:
; GCN-DAG: {{buffer\|flat}}_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 2.0, v[[A_F32_0]]		; SI-DAG: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 2.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 1.0, v[[A_F32_1]]		; SI-DAG: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 1.0, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00		; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
; VI-DAG: v_add_f16_sdwa v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[CONST1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_add_f16_sdwa v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[CONST1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[A_V2_F16]]		; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[A_V2_F16]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]

Show All 18 Lines

test/CodeGen/AMDGPU/fcmp.f16.ll

	Show All 10 Lines
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_lt(			define amdgpu_kernel void @fcmp_f16_lt(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp olt half %a.val, %b.val			%r.val = fcmp olt half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_lt_abs:			; GCN-LABEL: {{^}}fcmp_f16_lt_abs:
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]

	; SI: v_cvt_f32_f16_e64 v[[A_F32:[0-9]+]], \|v[[A_F16]]\|			; SI: v_cvt_f32_f16_e64 v[[A_F32:[0-9]+]], \|v[[A_F16]]\|
	; SI: v_cvt_f32_f16_e64 v[[B_F32:[0-9]+]], \|v[[B_F16]]\|			; SI: v_cvt_f32_f16_e64 v[[B_F32:[0-9]+]], \|v[[B_F16]]\|

	; SI: v_cmp_lt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_lt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_lt_f16_e64 s{{\[[0-9]+:[0-9]+\]}}, \|v[[A_F16]]\|, \|v[[B_F16]]\|			; VI: v_cmp_lt_f16_e64 s{{\[[0-9]+:[0-9]+\]}}, \|v[[A_F16]]\|, \|v[[B_F16]]\|

	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_lt_abs(			define amdgpu_kernel void @fcmp_f16_lt_abs(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%a.abs = call half @llvm.fabs.f16(half %a.val)			%a.abs = call half @llvm.fabs.f16(half %a.val)
	%b.abs = call half @llvm.fabs.f16(half %b.val)			%b.abs = call half @llvm.fabs.f16(half %b.val)
	%r.val = fcmp olt half %a.abs, %b.abs			%r.val = fcmp olt half %a.abs, %b.abs
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_eq			; GCN-LABEL: {{^}}fcmp_f16_eq
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_eq_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_eq_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_eq_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_eq_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_eq(			define amdgpu_kernel void @fcmp_f16_eq(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp oeq half %a.val, %b.val			%r.val = fcmp oeq half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_le			; GCN-LABEL: {{^}}fcmp_f16_le
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_le_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_le_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_le_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_le_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_le(			define amdgpu_kernel void @fcmp_f16_le(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp ole half %a.val, %b.val			%r.val = fcmp ole half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_gt			; GCN-LABEL: {{^}}fcmp_f16_gt
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_gt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_gt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_gt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_gt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_gt(			define amdgpu_kernel void @fcmp_f16_gt(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp ogt half %a.val, %b.val			%r.val = fcmp ogt half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_lg			; GCN-LABEL: {{^}}fcmp_f16_lg
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_lg_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_lg_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_lg_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_lg_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_lg(			define amdgpu_kernel void @fcmp_f16_lg(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp one half %a.val, %b.val			%r.val = fcmp one half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_ge			; GCN-LABEL: {{^}}fcmp_f16_ge
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_ge_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_ge_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_ge_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_ge_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_ge(			define amdgpu_kernel void @fcmp_f16_ge(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp oge half %a.val, %b.val			%r.val = fcmp oge half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_o			; GCN-LABEL: {{^}}fcmp_f16_o
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_o_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_o_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_o_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_o_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_o(			define amdgpu_kernel void @fcmp_f16_o(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp ord half %a.val, %b.val			%r.val = fcmp ord half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_u			; GCN-LABEL: {{^}}fcmp_f16_u
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_u_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_u_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_u_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_u_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_u(			define amdgpu_kernel void @fcmp_f16_u(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp uno half %a.val, %b.val			%r.val = fcmp uno half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_nge			; GCN-LABEL: {{^}}fcmp_f16_nge
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_nge_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_nge_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_nge_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_nge_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_nge(			define amdgpu_kernel void @fcmp_f16_nge(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp ult half %a.val, %b.val			%r.val = fcmp ult half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_nlg			; GCN-LABEL: {{^}}fcmp_f16_nlg
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_nlg_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_nlg_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_nlg_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_nlg_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_nlg(			define amdgpu_kernel void @fcmp_f16_nlg(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp ueq half %a.val, %b.val			%r.val = fcmp ueq half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_ngt			; GCN-LABEL: {{^}}fcmp_f16_ngt
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_ngt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_ngt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_ngt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_ngt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_ngt(			define amdgpu_kernel void @fcmp_f16_ngt(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp ule half %a.val, %b.val			%r.val = fcmp ule half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_nle			; GCN-LABEL: {{^}}fcmp_f16_nle
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_nle_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_nle_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_nle_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_nle_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_nle(			define amdgpu_kernel void @fcmp_f16_nle(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp ugt half %a.val, %b.val			%r.val = fcmp ugt half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_neq			; GCN-LABEL: {{^}}fcmp_f16_neq
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_neq_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_neq_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_neq_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_neq_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_neq(			define amdgpu_kernel void @fcmp_f16_neq(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp une half %a.val, %b.val			%r.val = fcmp une half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_f16_nlt			; GCN-LABEL: {{^}}fcmp_f16_nlt
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cmp_nlt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]			; SI: v_cmp_nlt_f32_e32 vcc, v[[A_F32]], v[[B_F32]]
	; VI: v_cmp_nlt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]			; VI: v_cmp_nlt_f16_e32 vcc, v[[A_F16]], v[[B_F16]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fcmp_f16_nlt(			define amdgpu_kernel void @fcmp_f16_nlt(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = fcmp uge half %a.val, %b.val			%r.val = fcmp uge half %a.val, %b.val
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fcmp_v2f16_lt:			; GCN-LABEL: {{^}}fcmp_v2f16_lt:
	; SI: v_cmp_lt_f32_e32 vcc,			; SI: v_cmp_lt_f32_e32 vcc,
	▲ Show 20 Lines • Show All 280 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fcopysign.f16.ll

	Show All 24 Lines
	; GFX89: v_bfi_b32 v[[OUT:[0-9]+]], s[[CONST]], v[[MAG]], v[[SIGN]]			; GFX89: v_bfi_b32 v[[OUT:[0-9]+]], s[[CONST]], v[[MAG]], v[[SIGN]]
	; GCN: buffer_store_short v[[OUT]]			; GCN: buffer_store_short v[[OUT]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_copysign_f16(			define amdgpu_kernel void @test_copysign_f16(
	half addrspace(1)* %arg_out,			half addrspace(1)* %arg_out,
	half addrspace(1)* %arg_mag,			half addrspace(1)* %arg_mag,
	half addrspace(1)* %arg_sign) {			half addrspace(1)* %arg_sign) {
	entry:			entry:
	%mag = load half, half addrspace(1)* %arg_mag			%mag = load volatile half, half addrspace(1)* %arg_mag
	%sign = load half, half addrspace(1)* %arg_sign			%sign = load volatile half, half addrspace(1)* %arg_sign
	%out = call half @llvm.copysign.f16(half %mag, half %sign)			%out = call half @llvm.copysign.f16(half %mag, half %sign)
	store half %out, half addrspace(1)* %arg_out			store half %out, half addrspace(1)* %arg_out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_copysign_out_f32_mag_f16_sign_f32:			; GCN-LABEL: {{^}}test_copysign_out_f32_mag_f16_sign_f32:
	; GCN-DAG: {{buffer\|flat\|global}}_load_ushort v[[MAG:[0-9]+]]			; GCN-DAG: {{buffer\|flat\|global}}_load_ushort v[[MAG:[0-9]+]]
	; GCN-DAG: {{buffer\|flat\|global}}_load_dword v[[SIGN:[0-9]+]]			; GCN-DAG: {{buffer\|flat\|global}}_load_dword v[[SIGN:[0-9]+]]
	▲ Show 20 Lines • Show All 245 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fcopysign.f32.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN -check-prefix=FUNC %s
	; RUN: llc -march=r600 -mcpu=cypress -verify-machineinstrs < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s			; RUN: llc -march=r600 -mcpu=cypress -verify-machineinstrs < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s

	declare float @llvm.copysign.f32(float, float) nounwind readnone			declare float @llvm.copysign.f32(float, float) nounwind readnone
	declare <2 x float> @llvm.copysign.v2f32(<2 x float>, <2 x float>) nounwind readnone			declare <2 x float> @llvm.copysign.v2f32(<2 x float>, <2 x float>) nounwind readnone
	declare <4 x float> @llvm.copysign.v4f32(<4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.copysign.v4f32(<4 x float>, <4 x float>) nounwind readnone

	; Try to identify arg based on higher address.			; Try to identify arg based on higher address.
	; FUNC-LABEL: {{^}}test_copysign_f32:			; FUNC-LABEL: {{^}}test_copysign_f32:
	; SI: s_load_dword [[SMAG:s[0-9]+]], {{.*}} 0xb			; SI: s_load_dwordx2 s{{\[}}[[SMAG:[0-9]+]]:[[SSIGN:[0-9]+]]{{\]}}, {{.*}} 0xb
	; SI: s_load_dword [[SSIGN:s[0-9]+]], {{.*}} 0xc			; VI: s_load_dwordx2 s{{\[}}[[SMAG:[0-9]+]]:[[SSIGN:[0-9]+]]{{\]}}, {{.*}} 0x2c
	; VI: s_load_dword [[SMAG:s[0-9]+]], {{.*}} 0x2c
	; VI: s_load_dword [[SSIGN:s[0-9]+]], {{.*}} 0x30			; GCN-DAG: v_mov_b32_e32 [[VSIGN:v[0-9]+]], s[[SSIGN]]
	; GCN-DAG: v_mov_b32_e32 [[VSIGN:v[0-9]+]], [[SSIGN]]			; GCN-DAG: v_mov_b32_e32 [[VMAG:v[0-9]+]], s[[SMAG]]
	; GCN-DAG: v_mov_b32_e32 [[VMAG:v[0-9]+]], [[SMAG]]
	; GCN-DAG: s_brev_b32 [[SCONST:s[0-9]+]], -2			; GCN-DAG: s_brev_b32 [[SCONST:s[0-9]+]], -2
	; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[SCONST]], [[VMAG]], [[VSIGN]]			; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[SCONST]], [[VMAG]], [[VSIGN]]
	; GCN: buffer_store_dword [[RESULT]],			; GCN: buffer_store_dword [[RESULT]],
	; GCN: s_endpgm			; GCN: s_endpgm

	; EG: BFI_INT			; EG: BFI_INT
	define amdgpu_kernel void @test_copysign_f32(float addrspace(1)* %out, float %mag, float %sign) nounwind {			define amdgpu_kernel void @test_copysign_f32(float addrspace(1)* %out, float %mag, float %sign) nounwind {
	%result = call float @llvm.copysign.f32(float %mag, float %sign)			%result = call float @llvm.copysign.f32(float %mag, float %sign)
	Show All 28 Lines

test/CodeGen/AMDGPU/fcopysign.f64.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN -check-prefix=FUNC %s

	declare double @llvm.copysign.f64(double, double) nounwind readnone			declare double @llvm.copysign.f64(double, double) nounwind readnone
	declare <2 x double> @llvm.copysign.v2f64(<2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.copysign.v2f64(<2 x double>, <2 x double>) nounwind readnone
	declare <4 x double> @llvm.copysign.v4f64(<4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.copysign.v4f64(<4 x double>, <4 x double>) nounwind readnone

	; FUNC-LABEL: {{^}}test_copysign_f64:			; FUNC-LABEL: {{^}}test_copysign_f64:
	; SI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; SI-DAG: s_load_dwordx2 s{{\[}}[[SSIGN_LO:[0-9]+]]:[[SSIGN_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xd			; SI-DAG: s_load_dwordx2 s{{\[}}[[SSIGN_LO:[0-9]+]]:[[SSIGN_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x1d
	; VI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; VI-DAG: s_load_dwordx2 s{{\[}}[[SSIGN_LO:[0-9]+]]:[[SSIGN_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x34			; VI-DAG: s_load_dwordx2 s{{\[}}[[SSIGN_LO:[0-9]+]]:[[SSIGN_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x74
	; GCN-DAG: v_mov_b32_e32 v[[VSIGN_HI:[0-9]+]], s[[SSIGN_HI]]			; GCN-DAG: v_mov_b32_e32 v[[VSIGN_HI:[0-9]+]], s[[SSIGN_HI]]
	; GCN-DAG: v_mov_b32_e32 v[[VMAG_HI:[0-9]+]], s[[SMAG_HI]]			; GCN-DAG: v_mov_b32_e32 v[[VMAG_HI:[0-9]+]], s[[SMAG_HI]]
	; GCN-DAG: s_brev_b32 [[SCONST:s[0-9]+]], -2			; GCN-DAG: s_brev_b32 [[SCONST:s[0-9]+]], -2
	; GCN-DAG: v_bfi_b32 v[[VRESULT_HI:[0-9]+]], [[SCONST]], v[[VMAG_HI]], v[[VSIGN_HI]]			; GCN-DAG: v_bfi_b32 v[[VRESULT_HI:[0-9]+]], [[SCONST]], v[[VMAG_HI]], v[[VSIGN_HI]]
	; GCN-DAG: v_mov_b32_e32 v[[VMAG_LO:[0-9]+]], s[[SMAG_LO]]			; GCN-DAG: v_mov_b32_e32 v[[VMAG_LO:[0-9]+]], s[[SMAG_LO]]
	; GCN: buffer_store_dwordx2 v{{\[}}[[VMAG_LO]]:[[VRESULT_HI]]{{\]}}			; GCN: buffer_store_dwordx2 v{{\[}}[[VMAG_LO]]:[[VRESULT_HI]]{{\]}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_copysign_f64(double addrspace(1)* %out, double %mag, double %sign) nounwind {			define amdgpu_kernel void @test_copysign_f64(double addrspace(1)* %out, [8 x i32], double %mag, [8 x i32], double %sign) nounwind {
	%result = call double @llvm.copysign.f64(double %mag, double %sign)			%result = call double @llvm.copysign.f64(double %mag, double %sign)
	store double %result, double addrspace(1)* %out, align 8			store double %result, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_copysign_f64_f32:			; FUNC-LABEL: {{^}}test_copysign_f64_f32:
	; SI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; VI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI-DAG: s_load_dwordx2 s{{\[}}[[SMAG_LO:[0-9]+]]:[[SMAG_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN-DAG: s_load_dword s[[SSIGN:[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}			; GCN-DAG: s_load_dword s[[SSIGN:[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}
	; GCN-DAG: s_brev_b32 [[SCONST:s[0-9]+]], -2{{$}}			; GCN-DAG: s_brev_b32 [[SCONST:s[0-9]+]], -2{{$}}
	; GCN-DAG: v_mov_b32_e32 v[[VMAG_HI:[0-9]+]], s[[SMAG_HI]]			; GCN-DAG: v_mov_b32_e32 v[[VMAG_HI:[0-9]+]], s[[SMAG_HI]]
	; GCN-DAG: v_mov_b32_e32 v[[VSIGN:[0-9]+]], s[[SSIGN]]			; GCN-DAG: v_mov_b32_e32 v[[VSIGN:[0-9]+]], s[[SSIGN]]
	; GCN-DAG: v_bfi_b32 v[[VRESULT_HI:[0-9]+]], [[SCONST]], v[[VMAG_HI]], v[[VSIGN]]			; GCN-DAG: v_bfi_b32 v[[VRESULT_HI:[0-9]+]], [[SCONST]], v[[VMAG_HI]], v[[VSIGN]]
	; GCN-DAG: v_mov_b32_e32 v[[VMAG_LO:[0-9]+]], s[[SMAG_LO]]			; GCN-DAG: v_mov_b32_e32 v[[VMAG_LO:[0-9]+]], s[[SMAG_LO]]
	; GCN: buffer_store_dwordx2 v{{\[}}[[VMAG_LO]]:[[VRESULT_HI]]{{\]}}			; GCN: buffer_store_dwordx2 v{{\[}}[[VMAG_LO]]:[[VRESULT_HI]]{{\]}}
	define amdgpu_kernel void @test_copysign_f64_f32(double addrspace(1)* %out, double %mag, float %sign) nounwind {			define amdgpu_kernel void @test_copysign_f64_f32(double addrspace(1)* %out, [8 x i32], double %mag, float %sign) nounwind {
	%c = fpext float %sign to double			%c = fpext float %sign to double
	%result = call double @llvm.copysign.f64(double %mag, double %c)			%result = call double @llvm.copysign.f64(double %mag, double %c)
	store double %result, double addrspace(1)* %out, align 8			store double %result, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_copysign_v2f64:			; FUNC-LABEL: {{^}}test_copysign_v2f64:
	; GCN: s_endpgm			; GCN: s_endpgm
	Show All 13 Lines

test/CodeGen/AMDGPU/fma.ll

	Show First 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	}			}

	; FUNC-LABEL: {{^}}fma_v4f32:			; FUNC-LABEL: {{^}}fma_v4f32:
	; SI: v_fma_f32			; SI: v_fma_f32
	; SI: v_fma_f32			; SI: v_fma_f32
	; SI: v_fma_f32			; SI: v_fma_f32
	; SI: v_fma_f32			; SI: v_fma_f32
	; GFX906: v_fma_f32 {{v[0-9]+, v[0-9]+, v[0-9]+, v[0-9]+}}			; GFX906: v_fma_f32 {{v[0-9]+, v[0-9]+, v[0-9]+, v[0-9]+}}
	; GFX906: v_fmac_f32_e32 {{v[0-9]+, v[0-9]+, v[0-9]+$}}
	; GFX906: v_fma_f32 {{v[0-9]+, v[0-9]+, v[0-9]+, v[0-9]+}}			; GFX906: v_fma_f32 {{v[0-9]+, v[0-9]+, v[0-9]+, v[0-9]+}}
	; GFX906: v_fma_f32 {{v[0-9]+, v[0-9]+, v[0-9]+, v[0-9]+}}			; GFX906: v_fma_f32 {{v[0-9]+, v[0-9]+, v[0-9]+, v[0-9]+}}
				; GFX906: v_fmac_f32_e32 {{v[0-9]+, v[0-9]+, v[0-9]+$}}

	; EG: MEM_RAT_{{.}} STORE_{{.}} [[RES:T[0-9]]].{{[XYZW][XYZW][XYZW][XYZW]}}, {{T[0-9]\.[XYZW]}},			; EG: MEM_RAT_{{.}} STORE_{{.}} [[RES:T[0-9]]].{{[XYZW][XYZW][XYZW][XYZW]}}, {{T[0-9]\.[XYZW]}},
	; EG-DAG: FMA {{\? }}[[RES]].X			; EG-DAG: FMA {{\? }}[[RES]].X
	; EG-DAG: FMA {{\? }}[[RES]].Y			; EG-DAG: FMA {{\? }}[[RES]].Y
	; EG-DAG: FMA {{\? }}[[RES]].Z			; EG-DAG: FMA {{\? }}[[RES]].Z
	; EG-DAG: FMA {{\? }}[[RES]].W			; EG-DAG: FMA {{\? }}[[RES]].W
	define amdgpu_kernel void @fma_v4f32(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in1,			define amdgpu_kernel void @fma_v4f32(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in1,
	<4 x float> addrspace(1)* %in2, <4 x float> addrspace(1)* %in3) {			<4 x float> addrspace(1)* %in2, <4 x float> addrspace(1)* %in3) {
	▲ Show 20 Lines • Show All 69 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fmin_legacy.ll

Show All 19 Lines	define amdgpu_kernel void @s_test_fmin_legacy_subreg_inputs_f32(<4 x float> addrspace(1)* %out, <4 x float> inreg %reg0) #0 {
%r2 = fcmp uge float %r0, %r1		%r2 = fcmp uge float %r0, %r1
%r3 = select i1 %r2, float %r1, float %r0		%r3 = select i1 %r2, float %r1, float %r0
%vec = insertelement <4 x float> undef, float %r3, i32 0		%vec = insertelement <4 x float> undef, float %r3, i32 0
store <4 x float> %vec, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %vec, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_test_fmin_legacy_ule_f32:		; FUNC-LABEL: {{^}}s_test_fmin_legacy_ule_f32:
; SI-DAG: s_load_dword [[A:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 s{{\[}}[[A:[0-9]+]]:[[B:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
; SI-DAG: s_load_dword [[B:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc

; SI-SAFE-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[A]]		; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], s[[B]]
; SI-NONAN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[B]]

; SI-SAFE: v_min_legacy_f32_e32 {{v[0-9]+}}, [[B]], [[VA]]		; SI-SAFE: v_min_legacy_f32_e64 {{v[0-9]+}}, [[VB]], s[[A]]
; SI-NONAN: v_min_f32_e32 {{v[0-9]+}}, [[A]], [[VB]]		; SI-NONAN: v_min_f32_e32 {{v[0-9]+}}, s[[A]], [[VB]]

define amdgpu_kernel void @s_test_fmin_legacy_ule_f32(float addrspace(1)* %out, float %a, float %b) #0 {		define amdgpu_kernel void @s_test_fmin_legacy_ule_f32(float addrspace(1)* %out, float %a, float %b) #0 {
%cmp = fcmp ule float %a, %b		%cmp = fcmp ule float %a, %b
%val = select i1 %cmp, float %a, float %b		%val = select i1 %cmp, float %a, float %b
store float %val, float addrspace(1)* %out, align 4		store float %val, float addrspace(1)* %out, align 4
ret void		ret void
}		}

▲ Show 20 Lines • Show All 164 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fmul-2-combine-multi-use.ll

	; XUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s			; XUN: llc -mtriple=amdgcn-amd-amdhsa -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=VI-DENORM %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -mattr=+fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=VI-DENORM %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=VI-FLUSH %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -mattr=-fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=VI-FLUSH %s


	; Make sure (fmul (fadd x, x), c) -> (fmul x, (fmul 2.0, c)) doesn't			; Make sure (fmul (fadd x, x), c) -> (fmul x, (fmul 2.0, c)) doesn't
	; make add an instruction if the fadd has more than one use.			; make add an instruction if the fadd has more than one use.

	declare half @llvm.fabs.f16(half) #1			declare half @llvm.fabs.f16(half) #1
	declare float @llvm.fabs.f32(float) #1			declare float @llvm.fabs.f32(float) #1

	Show All 27 Lines
	}			}

	; GCN-LABEL: {{^}}multiple_use_fadd_fmac_f32:			; GCN-LABEL: {{^}}multiple_use_fadd_fmac_f32:
	; GCN-DAG: v_add_f32_e64 [[MUL2:v[0-9]+]], [[X:s[0-9]+]], s{{[0-9]+}}			; GCN-DAG: v_add_f32_e64 [[MUL2:v[0-9]+]], [[X:s[0-9]+]], s{{[0-9]+}}
	; GCN-DAG: v_mac_f32_e64 [[MAD:v[0-9]+]], [[X]], 2.0			; GCN-DAG: v_mac_f32_e64 [[MAD:v[0-9]+]], [[X]], 2.0
	; GCN-DAG: buffer_store_dword [[MUL2]]			; GCN-DAG: buffer_store_dword [[MUL2]]
	; GCN-DAG: buffer_store_dword [[MAD]]			; GCN-DAG: buffer_store_dword [[MAD]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @multiple_use_fadd_fmac_f32(float addrspace(1)* %out, float %x, float %y) #0 {			define amdgpu_kernel void @multiple_use_fadd_fmac_f32(float addrspace(1)* %out, float %x, [8 x i32], float %y) #0 {
	%out.gep.1 = getelementptr float, float addrspace(1)* %out, i32 1			%out.gep.1 = getelementptr float, float addrspace(1)* %out, i32 1
	%mul2 = fmul fast float %x, 2.0			%mul2 = fmul fast float %x, 2.0
	%mad = fadd fast float %mul2, %y			%mad = fadd fast float %mul2, %y
	store volatile float %mul2, float addrspace(1)* %out			store volatile float %mul2, float addrspace(1)* %out
	store volatile float %mad, float addrspace(1)* %out.gep.1			store volatile float %mad, float addrspace(1)* %out.gep.1
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 179 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fmul.f16.ll

Show All 11 Lines
; GFX89: v_mul_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]		; GFX89: v_mul_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fmul_f16(		define amdgpu_kernel void @fmul_f16(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a,		half addrspace(1)* %a,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load volatile half, half addrspace(1)* %a
%b.val = load half, half addrspace(1)* %b		%b.val = load volatile half, half addrspace(1)* %b
%r.val = fmul half %a.val, %b.val		%r.val = fmul half %a.val, %b.val
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_f16_imm_a		; GCN-LABEL: {{^}}fmul_f16_imm_a
; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
; SI: v_mul_f32_e32 v[[R_F32:[0-9]+]], 0x40400000, v[[B_F32]]		; SI: v_mul_f32_e32 v[[R_F32:[0-9]+]], 0x40400000, v[[B_F32]]
; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]		; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]
; GFX89: v_mul_f16_e32 v[[R_F16:[0-9]+]], 0x4200, v[[B_F16]]		; GFX89: v_mul_f16_e32 v[[R_F16:[0-9]+]], 0x4200, v[[B_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fmul_f16_imm_a(		define amdgpu_kernel void @fmul_f16_imm_a(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%b.val = load half, half addrspace(1)* %b		%b.val = load volatile half, half addrspace(1)* %b
%r.val = fmul half 3.0, %b.val		%r.val = fmul half 3.0, %b.val
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_f16_imm_b		; GCN-LABEL: {{^}}fmul_f16_imm_b
; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
; SI: v_mul_f32_e32 v[[R_F32:[0-9]+]], 4.0, v[[A_F32]]		; SI: v_mul_f32_e32 v[[R_F32:[0-9]+]], 4.0, v[[A_F32]]
; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]		; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]

; GFX89: v_mul_f16_e32 v[[R_F16:[0-9]+]], 4.0, v[[A_F16]]		; GFX89: v_mul_f16_e32 v[[R_F16:[0-9]+]], 4.0, v[[A_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fmul_f16_imm_b(		define amdgpu_kernel void @fmul_f16_imm_b(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a) {		half addrspace(1)* %a) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load volatile half, half addrspace(1)* %a
%r.val = fmul half %a.val, 4.0		%r.val = fmul half %a.val, 4.0
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_v2f16:		; GCN-LABEL: {{^}}fmul_v2f16:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; SIVI: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; SIVI: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]		; SI-DAG: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]
; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]		; SI-DAG: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_mul_f16_e32 v[[R_F16_LO:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]		; VI-DAG: v_mul_f16_e32 v[[R_F16_LO:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]
; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_LO]], v[[R_F16_HI]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_LO]], v[[R_F16_HI]]

		; GFX9: buffer_load_dword v[[A_V2_F16:[0-9]+]]
		; GFX9: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; GFX9: v_pk_mul_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]		; GFX9: v_pk_mul_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fmul_v2f16(		define amdgpu_kernel void @fmul_v2f16(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fmul <2 x half> %a.val, %b.val		%r.val = fmul <2 x half> %a.val, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_v2f16_imm_a:		; GCN-LABEL: {{^}}fmul_v2f16_imm_a:
; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]		; SI-DAG: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]		; SI-DAG: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]


; VI-DAG: v_mov_b32_e32 v[[CONST4:[0-9]+]], 0x4400		; VI-DAG: v_mov_b32_e32 v[[CONST4:[0-9]+]], 0x4400
; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]		; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]

; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x44004200		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x44004200
; GFX9: v_pk_mul_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], [[K]]		; GFX9: v_pk_mul_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], [[K]]
Show All 10 Lines	entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fmul <2 x half> <half 3.0, half 4.0>, %b.val		%r.val = fmul <2 x half> <half 3.0, half 4.0>, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_v2f16_imm_b:		; GCN-LABEL: {{^}}fmul_v2f16_imm_b:
; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]		; SI-DAG: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]		; SI-DAG: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

; VI-DAG: v_mov_b32_e32 v[[CONST3:[0-9]+]], 0x4200		; VI-DAG: v_mov_b32_e32 v[[CONST3:[0-9]+]], 0x4200
; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]		; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]

; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x42004400		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x42004400
; GFX9: v_pk_mul_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]		; GFX9: v_pk_mul_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]

; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fmul_v2f16_imm_b(		define amdgpu_kernel void @fmul_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = fmul <2 x half> %a.val, <half 4.0, half 3.0>		%r.val = fmul <2 x half> %a.val, <half 4.0, half 3.0>
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_v4f16:		; GCN-LABEL: {{^}}fmul_v4f16:
; GFX89: buffer_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}		; GFX9: buffer_load_dwordx2 v{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}
; GFX89: buffer_load_dwordx2 v{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}		; GFX9: buffer_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}

; GFX9-DAG: v_pk_mul_f16 v[[MUL_LO:[0-9]+]], v[[A_LO]], v[[B_LO]]		; GFX9-DAG: v_pk_mul_f16 v[[MUL_LO:[0-9]+]], v[[A_LO]], v[[B_LO]]
; GFX9-DAG: v_pk_mul_f16 v[[MUL_HI:[0-9]+]], v[[A_HI]], v[[B_HI]]		; GFX9-DAG: v_pk_mul_f16 v[[MUL_HI:[0-9]+]], v[[A_HI]], v[[B_HI]]
; GFX9: buffer_store_dwordx2 v{{\[}}[[MUL_LO]]:[[MUL_HI]]{{\]}}		; GFX9: buffer_store_dwordx2 v{{\[}}[[MUL_LO]]:[[MUL_HI]]{{\]}}

		; VI: buffer_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}
		; VI: buffer_load_dwordx2 v{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}
; VI: v_mul_f16_sdwa		; VI: v_mul_f16_sdwa
; VI: v_mul_f16_e32		; VI: v_mul_f16_e32
; VI: v_mul_f16_sdwa		; VI: v_mul_f16_sdwa
; VI: v_mul_f16_e32		; VI: v_mul_f16_e32
; VI: v_or_b32		; VI: v_or_b32
; VI: v_or_b32		; VI: v_or_b32
define amdgpu_kernel void @fmul_v4f16(		define amdgpu_kernel void @fmul_v4f16(
<4 x half> addrspace(1)* %r,		<4 x half> addrspace(1)* %r,
Show All 39 Lines

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

	Show First 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @fneg_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {			define amdgpu_kernel void @fneg_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {
	%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)			%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)
	%fsub = fsub <4 x half> <half -0.0, half -0.0, half -0.0, half -0.0>, %fabs			%fsub = fsub <4 x half> <half -0.0, half -0.0, half -0.0, half -0.0>, %fabs
	store <4 x half> %fsub, <4 x half> addrspace(1)* %out			store <4 x half> %fsub, <4 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fold_user_fneg_fabs_v2f16:			; GCN-LABEL: {{^}}fold_user_fneg_fabs_v2f16:
	; CI: s_load_dword s			; CI: s_load_dword [[IN:s[0-9]+]]
	; CI: s_or_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80008000			; CI: s_or_b32 [[FNEG_FABS:s[0-9]+]], [[IN]], 0x80008000
				; CI: s_lshr_b32
	; CI: v_cvt_f32_f16_e32 v{{[0-9]+}}, s{{[0-9]+}}			; CI: v_cvt_f32_f16_e32 v{{[0-9]+}}, s{{[0-9]+}}
	; CI: v_cvt_f32_f16_e32 v{{[0-9]+}}, s{{[0-9]+}}			; CI: v_cvt_f32_f16_e32 v{{[0-9]+}}, s{{[0-9]+}}
	; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}			; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}
	; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}			; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}

	; VI: v_mul_f16_e64 v{{[0-9]+}}, -\|s{{[0-9]+}}\|, 4.0			; VI: v_mul_f16_e64 v{{[0-9]+}}, -\|s{{[0-9]+}}\|, 4.0
	; VI: v_mul_f16_sdwa v{{[0-9]+}}, -\|v{{[0-9]+}}\|, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI: v_mul_f16_sdwa v{{[0-9]+}}, -\|v{{[0-9]+}}\|, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD

	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fneg-fabs.f64.ll

Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @fneg_fabs_fn_free_f64(double addrspace(1)* %out, i64 %in) {
%bc = bitcast i64 %in to double		%bc = bitcast i64 %in to double
%fabs = call double @fabs(double %bc)		%fabs = call double @fabs(double %bc)
%fsub = fsub double -0.000000e+00, %fabs		%fsub = fsub double -0.000000e+00, %fabs
store double %fsub, double addrspace(1)* %out		store double %fsub, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fneg_fabs_f64:		; GCN-LABEL: {{^}}fneg_fabs_f64:
; GCN-DAG: s_load_dwordx2
; GCN-DAG: v_bfrev_b32_e32 [[IMMREG:v[0-9]+]], 1{{$}}		; GCN-DAG: v_bfrev_b32_e32 [[IMMREG:v[0-9]+]], 1{{$}}
; SI-DAG: s_load_dwordx2 s{{\[}}[[LO_X:[0-9]+]]:[[HI_X:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0xb		; SI-DAG: s_load_dwordx2 s{{\[}}[[LO_X:[0-9]+]]:[[HI_X:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0x13
; VI-DAG: s_load_dwordx2 s{{\[}}[[LO_X:[0-9]+]]:[[HI_X:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0x2c		; VI-DAG: s_load_dwordx2 s{{\[}}[[LO_X:[0-9]+]]:[[HI_X:[0-9]+]]{{\]}}, s[{{[0-9]+:[0-9]+}}], 0x4c
; GCN-DAG: v_or_b32_e32 v[[HI_V:[0-9]+]], s[[HI_X]], [[IMMREG]]		; GCN-DAG: v_or_b32_e32 v[[HI_V:[0-9]+]], s[[HI_X]], [[IMMREG]]
; GCN-DAG: v_mov_b32_e32 v[[LO_V:[0-9]+]], s[[LO_X]]		; GCN-DAG: v_mov_b32_e32 v[[LO_V:[0-9]+]], s[[LO_X]]
; GCN: buffer_store_dwordx2 v{{\[}}[[LO_V]]:[[HI_V]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[LO_V]]:[[HI_V]]{{\]}}
define amdgpu_kernel void @fneg_fabs_f64(double addrspace(1)* %out, double %in) {		define amdgpu_kernel void @fneg_fabs_f64(double addrspace(1)* %out, [8 x i32], double %in) {
%fabs = call double @llvm.fabs.f64(double %in)		%fabs = call double @llvm.fabs.f64(double %in)
%fsub = fsub double -0.000000e+00, %fabs		%fsub = fsub double -0.000000e+00, %fabs
store double %fsub, double addrspace(1)* %out, align 8		store double %fsub, double addrspace(1)* %out, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}fneg_fabs_v2f64:		; GCN-LABEL: {{^}}fneg_fabs_v2f64:
; GCN: v_bfrev_b32_e32 [[IMMREG:v[0-9]+]], 1{{$}}		; GCN: v_bfrev_b32_e32 [[IMMREG:v[0-9]+]], 1{{$}}
Show All 28 Lines

test/CodeGen/AMDGPU/fneg-fabs.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s

	; FUNC-LABEL: {{^}}fneg_fabs_fadd_f32:			; FUNC-LABEL: {{^}}fneg_fabs_fadd_f32:
	; SI-NOT: and			; SI-NOT: and
	; SI: v_sub_f32_e64 {{v[0-9]+}}, {{s[0-9]+}}, \|{{v[0-9]+}}\|			; SI: v_sub_f32_e64 {{v[0-9]+}}, {{v[0-9]+}}, \|{{s[0-9]+}}\|
	define amdgpu_kernel void @fneg_fabs_fadd_f32(float addrspace(1)* %out, float %x, float %y) {			define amdgpu_kernel void @fneg_fabs_fadd_f32(float addrspace(1)* %out, float %x, float %y) {
	%fabs = call float @llvm.fabs.f32(float %x)			%fabs = call float @llvm.fabs.f32(float %x)
	%fsub = fsub float -0.000000e+00, %fabs			%fsub = fsub float -0.000000e+00, %fabs
	%fadd = fadd float %y, %fsub			%fadd = fadd float %y, %fsub
	store float %fadd, float addrspace(1)* %out, align 4			store float %fadd, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fneg_fabs_fmul_f32:			; FUNC-LABEL: {{^}}fneg_fabs_fmul_f32:
	; SI-NOT: and			; SI-NOT: and
	; SI: v_mul_f32_e64 {{v[0-9]+}}, {{s[0-9]+}}, -\|{{v[0-9]+}}\|			; SI: v_mul_f32_e64 {{v[0-9]+}}, {{v[0-9]+}}, -\|{{s[0-9]+}}\|
	; SI-NOT: and			; SI-NOT: and
	define amdgpu_kernel void @fneg_fabs_fmul_f32(float addrspace(1)* %out, float %x, float %y) {			define amdgpu_kernel void @fneg_fabs_fmul_f32(float addrspace(1)* %out, float %x, float %y) {
	%fabs = call float @llvm.fabs.f32(float %x)			%fabs = call float @llvm.fabs.f32(float %x)
	%fsub = fsub float -0.000000e+00, %fabs			%fsub = fsub float -0.000000e+00, %fabs
	%fmul = fmul float %y, %fsub			%fmul = fmul float %y, %fsub
	store float %fmul, float addrspace(1)* %out, align 4			store float %fmul, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fneg.f64.ll

	Show First 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @fneg_free_f64(double addrspace(1)* %out, i64 %in) {			define amdgpu_kernel void @fneg_free_f64(double addrspace(1)* %out, i64 %in) {
	%bc = bitcast i64 %in to double			%bc = bitcast i64 %in to double
	%fsub = fsub double 0.0, %bc			%fsub = fsub double 0.0, %bc
	store double %fsub, double addrspace(1)* %out			store double %fsub, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fneg_fold_f64:			; GCN-LABEL: {{^}}fneg_fold_f64:
	; SI: s_load_dwordx2 [[NEG_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[NEG_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[NEG_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[NEG_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN-NOT: xor			; GCN-NOT: xor
	; GCN: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, -[[NEG_VALUE]], [[NEG_VALUE]]			; GCN: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, -[[NEG_VALUE]], [[NEG_VALUE]]
	define amdgpu_kernel void @fneg_fold_f64(double addrspace(1)* %out, double %in) {			define amdgpu_kernel void @fneg_fold_f64(double addrspace(1)* %out, [8 x i32], double %in) {
	%fsub = fsub double -0.0, %in			%fsub = fsub double -0.0, %in
	%fmul = fmul double %fsub, %in			%fmul = fmul double %fsub, %in
	store double %fmul, double addrspace(1)* %out			store double %fmul, double addrspace(1)* %out
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/frame-index-amdgiz.ll

	; RUN: llc -mtriple=amdgcn---amdgiz -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -mtriple=amdgcn---amdgiz -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck %s
	;			;
	; The original OpenCL kernel:			; The original OpenCL kernel:
	; kernel void f(global int *a, int i, int j) {			; kernel void f(global int *a, int i, int j) {
	; int x[100];			; int x[100];
	; x[i] = 7;			; x[i] = 7;
	; a[0] = x[j];			; a[0] = x[j];
	; }			; }
	; clang -cc1 -triple amdgcn---amdgizcl -emit-llvm -o -			; clang -cc1 -triple amdgcn---amdgizcl -emit-llvm -o -

	target datalayout = "e-p:64:64-p1:64:64-p2:64:64-p3:32:32-p4:32:32-p5:32:32-i64:64-v16:16-v24:32-v32:32-v48:64-v96:128-v192:256-v256:256-v512:512-v1024:1024-v2048:2048-n32:64-A5"			target datalayout = "e-p:64:64-p1:64:64-p2:64:64-p3:32:32-p4:32:32-p5:32:32-i64:64-v16:16-v24:32-v32:32-v48:64-v96:128-v192:256-v256:256-v512:512-v1024:1024-v2048:2048-n32:64-A5"

	define amdgpu_kernel void @f(i32 addrspace(1)* nocapture %a, i32 %i, i32 %j) local_unnamed_addr #0 {			define amdgpu_kernel void @f(i32 addrspace(1)* nocapture %a, i32 %i, i32 %j) local_unnamed_addr #0 {
	entry:			entry:
	; CHECK: s_load_dwordx2 s[4:5], s[0:1], 0x9			; CHECK: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; CHECK: s_load_dword s2, s[0:1], 0xb			; CHECK: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; CHECK: s_load_dword s0, s[0:1], 0xc
	; CHECK: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; CHECK: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; CHECK: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; CHECK: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; CHECK: s_mov_b32 s10, -1			; CHECK: s_mov_b32 s10, -1
	; CHECK: s_waitcnt lgkmcnt(0)
	; CHECK: s_lshl_b32 s1, s2, 2
	; CHECK: v_mov_b32_e32 v0, 4			; CHECK: v_mov_b32_e32 v0, 4
				; CHECK: s_waitcnt lgkmcnt(0)
				; CHECK: s_lshl_b32 s0, s0, 2
				; CHECK: v_add_i32_e32 v1, vcc, s0, v0
				; CHECK: s_lshl_b32 s0, s1, 2
	; CHECK: s_mov_b32 s11, 0xe8f000			; CHECK: s_mov_b32 s11, 0xe8f000
	; CHECK: v_add_i32_e32 v1, vcc, s1, v0
	; CHECK: v_mov_b32_e32 v2, 7			; CHECK: v_mov_b32_e32 v2, 7
	; CHECK: s_lshl_b32 s0, s0, 2
	; CHECK: buffer_store_dword v2, v1, s[8:11], s3 offen			; CHECK: buffer_store_dword v2, v1, s[8:11], s3 offen
	; CHECK: v_add_i32_e32 v0, vcc, s0, v0			; CHECK: v_add_i32_e32 v0, vcc, s0, v0
	; CHECK: s_mov_b32 s7, 0xf000			; CHECK: s_mov_b32 s7, 0xf000
	; CHECK: s_mov_b32 s6, -1			; CHECK: s_mov_b32 s6, -1
	; CHECK: buffer_load_dword v0, v0, s[8:11], s3 offen			; CHECK: buffer_load_dword v0, v0, s[8:11], s3 offen
	; CHECK: s_waitcnt vmcnt(0)			; CHECK: s_waitcnt vmcnt(0)
	; CHECK: buffer_store_dword v0, off, s[4:7], 0			; CHECK: buffer_store_dword v0, off, s[4:7], 0
	; CHECK: s_endpgm			; CHECK: s_endpgm

	%x = alloca [100 x i32], align 4, addrspace(5)			%x = alloca [100 x i32], align 4, addrspace(5)
	%0 = bitcast [100 x i32] addrspace(5)* %x to i8 addrspace(5)*			%alloca.bc = bitcast [100 x i32] addrspace(5)* %x to i8 addrspace(5)*
	call void @llvm.lifetime.start.p5i8(i64 400, i8 addrspace(5)* nonnull %0) #0			call void @llvm.lifetime.start.p5i8(i64 400, i8 addrspace(5)* nonnull %alloca.bc) #0
	%arrayidx = getelementptr inbounds [100 x i32], [100 x i32] addrspace(5)* %x, i32 0, i32 %i			%arrayidx = getelementptr inbounds [100 x i32], [100 x i32] addrspace(5)* %x, i32 0, i32 %i
	store i32 7, i32 addrspace(5)* %arrayidx, align 4			store i32 7, i32 addrspace(5)* %arrayidx, align 4
	%arrayidx2 = getelementptr inbounds [100 x i32], [100 x i32] addrspace(5)* %x, i32 0, i32 %j			%arrayidx2 = getelementptr inbounds [100 x i32], [100 x i32] addrspace(5)* %x, i32 0, i32 %j
	%1 = load i32, i32 addrspace(5)* %arrayidx2, align 4			%ld = load i32, i32 addrspace(5)* %arrayidx2, align 4
	store i32 %1, i32 addrspace(1)* %a, align 4			store i32 %ld, i32 addrspace(1)* %a, align 4
	call void @llvm.lifetime.end.p5i8(i64 400, i8 addrspace(5)* nonnull %0) #0			call void @llvm.lifetime.end.p5i8(i64 400, i8 addrspace(5)* nonnull %alloca.bc) #0
	ret void			ret void
	}			}

	declare void @llvm.lifetime.start.p5i8(i64, i8 addrspace(5)* nocapture) #1			declare void @llvm.lifetime.start.p5i8(i64, i8 addrspace(5)* nocapture) #1

	declare void @llvm.lifetime.end.p5i8(i64, i8 addrspace(5)* nocapture) #1			declare void @llvm.lifetime.end.p5i8(i64, i8 addrspace(5)* nocapture) #1

	attributes #0 = { nounwind }			attributes #0 = { nounwind }
	attributes #1 = { argmemonly nounwind }			attributes #1 = { argmemonly nounwind }

test/CodeGen/AMDGPU/fsub.f16.ll

Show All 11 Lines
; GFX89: v_sub_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]		; GFX89: v_sub_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fsub_f16(		define amdgpu_kernel void @fsub_f16(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a,		half addrspace(1)* %a,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load volatile half, half addrspace(1)* %a
%b.val = load half, half addrspace(1)* %b		%b.val = load volatile half, half addrspace(1)* %b
%r.val = fsub half %a.val, %b.val		%r.val = fsub half %a.val, %b.val
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_f16_imm_a:		; GCN-LABEL: {{^}}fsub_f16_imm_a:
; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
; SI: v_sub_f32_e32 v[[R_F32:[0-9]+]], 1.0, v[[B_F32]]		; SI: v_sub_f32_e32 v[[R_F32:[0-9]+]], 1.0, v[[B_F32]]
; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]		; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]
; GFX89: v_sub_f16_e32 v[[R_F16:[0-9]+]], 1.0, v[[B_F16]]		; GFX89: v_sub_f16_e32 v[[R_F16:[0-9]+]], 1.0, v[[B_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fsub_f16_imm_a(		define amdgpu_kernel void @fsub_f16_imm_a(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%b.val = load half, half addrspace(1)* %b		%b.val = load volatile half, half addrspace(1)* %b
%r.val = fsub half 1.0, %b.val		%r.val = fsub half 1.0, %b.val
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_f16_imm_b:		; GCN-LABEL: {{^}}fsub_f16_imm_b:
; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
; SI: v_add_f32_e32 v[[R_F32:[0-9]+]], -2.0, v[[A_F32]]		; SI: v_add_f32_e32 v[[R_F32:[0-9]+]], -2.0, v[[A_F32]]
; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]		; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]
; GFX89: v_add_f16_e32 v[[R_F16:[0-9]+]], -2.0, v[[A_F16]]		; GFX89: v_add_f16_e32 v[[R_F16:[0-9]+]], -2.0, v[[A_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fsub_f16_imm_b(		define amdgpu_kernel void @fsub_f16_imm_b(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a) {		half addrspace(1)* %a) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load volatile half, half addrspace(1)* %a
%r.val = fsub half %a.val, 2.0		%r.val = fsub half %a.val, 2.0
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_v2f16:		; GCN-LABEL: {{^}}fsub_v2f16:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]

; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_sub_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]		; SI-DAG: v_sub_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]
; SI: v_sub_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]		; SI-DAG: v_sub_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

		; VI: buffer_load_dword v[[B_V2_F16:[0-9]+]]
		; VI: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; VI-DAG: v_sub_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]		; VI-DAG: v_sub_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]
; VI-DAG: v_sub_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI-DAG: v_sub_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]


		; GFX9: buffer_load_dword v[[A_V2_F16:[0-9]+]]
		; GFX9: buffer_load_dword v[[B_V2_F16:[0-9]+]]

; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] neg_lo:[0,1] neg_hi:[0,1]		; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] neg_lo:[0,1] neg_hi:[0,1]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm

define amdgpu_kernel void @fsub_v2f16(		define amdgpu_kernel void @fsub_v2f16(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fsub <2 x half> %a.val, %b.val		%r.val = fsub <2 x half> %a.val, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_v2f16_imm_a:		; GCN-LABEL: {{^}}fsub_v2f16_imm_a:
; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_sub_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]		; SI-DAG: v_sub_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_sub_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]		; SI-DAG: v_sub_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 0x4000		; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 0x4000
; VI-DAG: v_sub_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST2]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; VI-DAG: v_sub_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST2]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_sub_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]		; VI-DAG: v_sub_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

Show All 11 Lines	entry:
%r.val = fsub <2 x half> <half 1.0, half 2.0>, %b.val		%r.val = fsub <2 x half> <half 1.0, half 2.0>, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_v2f16_imm_b:		; GCN-LABEL: {{^}}fsub_v2f16_imm_b:
; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], -2.0, v[[A_F32_0]]		; SI-DAG: v_add_f32_e32 v[[R_F32_0:[0-9]+]], -2.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], -1.0, v[[A_F32_1]]		; SI-DAG: v_add_f32_e32 v[[R_F32_1:[0-9]+]], -1.0, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00		; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00
; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], [[CONSTM1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], [[CONSTM1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], -2.0, v[[A_V2_F16]]		; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], -2.0, v[[A_V2_F16]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

Show All 15 Lines

test/CodeGen/AMDGPU/global_smrd.ll

	; RUN: llc -O2 -mtriple amdgcn--amdhsa -mcpu=fiji -amdgpu-scalarize-global-loads=true -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -O2 -mtriple amdgcn--amdhsa -mcpu=fiji -amdgpu-scalarize-global-loads=true -verify-machineinstrs < %s \| FileCheck %s

	; uniform loads			; uniform loads
	; CHECK-LABEL: @uniform_load			; CHECK-LABEL: @uniform_load
	; CHECK: s_load_dwordx4			; CHECK: s_load_dwordx4
	; CHECK-NOT: flat_load_dword			; CHECK-NOT: flat_load_dword

	define amdgpu_kernel void @uniform_load(float addrspace(1)* %arg, float addrspace(1)* %arg1) {			define amdgpu_kernel void @uniform_load(float addrspace(1)* %arg, [8 x i32], float addrspace(1)* %arg1) {
	bb:			bb:
	%tmp2 = load float, float addrspace(1)* %arg, align 4, !tbaa !8			%tmp2 = load float, float addrspace(1)* %arg, align 4, !tbaa !8
	%tmp3 = fadd float %tmp2, 0.000000e+00			%tmp3 = fadd float %tmp2, 0.000000e+00
	%tmp4 = getelementptr inbounds float, float addrspace(1)* %arg, i64 1			%tmp4 = getelementptr inbounds float, float addrspace(1)* %arg, i64 1
	%tmp5 = load float, float addrspace(1)* %tmp4, align 4, !tbaa !8			%tmp5 = load float, float addrspace(1)* %tmp4, align 4, !tbaa !8
	%tmp6 = fadd float %tmp3, %tmp5			%tmp6 = fadd float %tmp3, %tmp5
	%tmp7 = getelementptr inbounds float, float addrspace(1)* %arg, i64 2			%tmp7 = getelementptr inbounds float, float addrspace(1)* %arg, i64 2
	%tmp8 = load float, float addrspace(1)* %tmp7, align 4, !tbaa !8			%tmp8 = load float, float addrspace(1)* %tmp7, align 4, !tbaa !8
	%tmp9 = fadd float %tmp6, %tmp8			%tmp9 = fadd float %tmp6, %tmp8
	%tmp10 = getelementptr inbounds float, float addrspace(1)* %arg, i64 3			%tmp10 = getelementptr inbounds float, float addrspace(1)* %arg, i64 3
	%tmp11 = load float, float addrspace(1)* %tmp10, align 4, !tbaa !8			%tmp11 = load float, float addrspace(1)* %tmp10, align 4, !tbaa !8
	%tmp12 = fadd float %tmp9, %tmp11			%tmp12 = fadd float %tmp9, %tmp11
	%tmp13 = getelementptr inbounds float, float addrspace(1)* %arg1			%tmp13 = getelementptr inbounds float, float addrspace(1)* %arg1
	store float %tmp12, float addrspace(1)* %tmp13, align 4, !tbaa !8			store float %tmp12, float addrspace(1)* %tmp13, align 4, !tbaa !8
	ret void			ret void
	}			}

	; non-uniform loads			; non-uniform loads
	; CHECK-LABEL: @non-uniform_load			; CHECK-LABEL: @non-uniform_load
	; CHECK: flat_load_dword			; CHECK: flat_load_dword
	; CHECK-NOT: s_load_dwordx4			; CHECK-NOT: s_load_dwordx4

	define amdgpu_kernel void @non-uniform_load(float addrspace(1)* %arg, float addrspace(1)* %arg1) #0 {			define amdgpu_kernel void @non-uniform_load(float addrspace(1)* %arg, [8 x i32], float addrspace(1)* %arg1) #0 {
	bb:			bb:
	%tmp = call i32 @llvm.amdgcn.workitem.id.x() #1			%tmp = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tmp2 = getelementptr inbounds float, float addrspace(1)* %arg, i32 %tmp			%tmp2 = getelementptr inbounds float, float addrspace(1)* %arg, i32 %tmp
	%tmp3 = load float, float addrspace(1)* %tmp2, align 4, !tbaa !8			%tmp3 = load float, float addrspace(1)* %tmp2, align 4, !tbaa !8
	%tmp4 = fadd float %tmp3, 0.000000e+00			%tmp4 = fadd float %tmp3, 0.000000e+00
	%tmp5 = add i32 %tmp, 1			%tmp5 = add i32 %tmp, 1
	%tmp6 = getelementptr inbounds float, float addrspace(1)* %arg, i32 %tmp5			%tmp6 = getelementptr inbounds float, float addrspace(1)* %arg, i32 %tmp5
	%tmp7 = load float, float addrspace(1)* %tmp6, align 4, !tbaa !8			%tmp7 = load float, float addrspace(1)* %tmp6, align 4, !tbaa !8
	Show All 14 Lines

	; uniform load dominated by no-alias store - scalarize			; uniform load dominated by no-alias store - scalarize
	; CHECK-LABEL: @no_memdep_alias_arg			; CHECK-LABEL: @no_memdep_alias_arg
	; CHECK: flat_store_dword			; CHECK: flat_store_dword
	; CHECK: s_load_dword [[SVAL:s[0-9]+]]			; CHECK: s_load_dword [[SVAL:s[0-9]+]]
	; CHECK: v_mov_b32_e32 [[VVAL:v[0-9]+]], [[SVAL]]			; CHECK: v_mov_b32_e32 [[VVAL:v[0-9]+]], [[SVAL]]
	; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]			; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]

	define amdgpu_kernel void @no_memdep_alias_arg(i32 addrspace(1)* noalias %in, i32 addrspace(1)* %out0, i32 addrspace(1)* %out1) {			define amdgpu_kernel void @no_memdep_alias_arg(i32 addrspace(1)* noalias %in, [8 x i32], i32 addrspace(1)* %out0, [8 x i32], i32 addrspace(1)* %out1) {
	store i32 0, i32 addrspace(1)* %out0			store i32 0, i32 addrspace(1)* %out0
	%val = load i32, i32 addrspace(1)* %in			%val = load i32, i32 addrspace(1)* %in
	store i32 %val, i32 addrspace(1)* %out1			store i32 %val, i32 addrspace(1)* %out1
	ret void			ret void
	}			}

	; uniform load dominated by alias store - vector			; uniform load dominated by alias store - vector
	; CHECK-LABEL: {{^}}memdep:			; CHECK-LABEL: {{^}}memdep:
	; CHECK: flat_store_dword			; CHECK: flat_store_dword
	; CHECK: flat_load_dword [[VVAL:v[0-9]+]]			; CHECK: flat_load_dword [[VVAL:v[0-9]+]]
	; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]			; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]
	define amdgpu_kernel void @memdep(i32 addrspace(1)* %in, i32 addrspace(1)* %out0, i32 addrspace(1)* %out1) {			define amdgpu_kernel void @memdep(i32 addrspace(1)* %in, [8 x i32], i32 addrspace(1)* %out0, [8 x i32], i32 addrspace(1)* %out1) {
	store i32 0, i32 addrspace(1)* %out0			store i32 0, i32 addrspace(1)* %out0
	%val = load i32, i32 addrspace(1)* %in			%val = load i32, i32 addrspace(1)* %in
	store i32 %val, i32 addrspace(1)* %out1			store i32 %val, i32 addrspace(1)* %out1
	ret void			ret void
	}			}

	; uniform load from global array			; uniform load from global array
	; CHECK-LABEL: @global_array			; CHECK-LABEL: @global_array
	; CHECK: s_load_dwordx2 [[A_ADDR:s\[[0-9]+:[0-9]+\]]]			; CHECK: s_getpc_b64 [[GET_PC:s\[[0-9]+:[0-9]+\]]]
				; CHECK: s_load_dwordx2 [[OUT:s\[[0-9]+:[0-9]+\]]], s[4:5], 0x0
				; CHECK: s_load_dwordx2 [[A_ADDR:s\[[0-9]+:[0-9]+\]]], [[GET_PC]], 0x0
	; CHECK: s_load_dwordx2 [[A_ADDR1:s\[[0-9]+:[0-9]+\]]], [[A_ADDR]], 0x0			; CHECK: s_load_dwordx2 [[A_ADDR1:s\[[0-9]+:[0-9]+\]]], [[A_ADDR]], 0x0
	; CHECK: s_load_dword [[SVAL:s[0-9]+]], [[A_ADDR1]], 0x0			; CHECK: s_load_dword [[SVAL:s[0-9]+]], [[A_ADDR1]], 0x0
	; CHECK: v_mov_b32_e32 [[VVAL:v[0-9]+]], [[SVAL]]			; CHECK: v_mov_b32_e32 [[VVAL:v[0-9]+]], [[SVAL]]
	; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]			; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]

	@A = common local_unnamed_addr addrspace(1) global i32 addrspace(1)* null, align 4			@A = common local_unnamed_addr addrspace(1) global i32 addrspace(1)* null, align 4

	define amdgpu_kernel void @global_array(i32 addrspace(1)* nocapture %out) {			define amdgpu_kernel void @global_array(i32 addrspace(1)* nocapture %out) {
	entry:			entry:
	%0 = load i32 addrspace(1), i32 addrspace(1) addrspace(1)* @A, align 4			%load0 = load i32 addrspace(1), i32 addrspace(1) addrspace(1)* @A, align 4
	%1 = load i32, i32 addrspace(1)* %0, align 4			%load1 = load i32, i32 addrspace(1)* %load0, align 4
	store i32 %1, i32 addrspace(1)* %out, align 4			store i32 %load1, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}


	; uniform load from global array dominated by alias store			; uniform load from global array dominated by alias store
	; CHECK-LABEL: @global_array_alias_store			; CHECK-LABEL: @global_array_alias_store
	; CHECK: flat_store_dword			; CHECK: flat_store_dword
	; CHECK: v_mov_b32_e32 v[[ADDR_LO:[0-9]+]], s{{[0-9]+}}			; CHECK: v_mov_b32_e32 v[[ADDR_LO:[0-9]+]], s{{[0-9]+}}
	; CHECK: v_mov_b32_e32 v[[ADDR_HI:[0-9]+]], s{{[0-9]+}}			; CHECK: v_mov_b32_e32 v[[ADDR_HI:[0-9]+]], s{{[0-9]+}}
	; CHECK: flat_load_dwordx2 [[A_ADDR:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[ADDR_LO]]:[[ADDR_HI]]{{\]}}			; CHECK: flat_load_dwordx2 [[A_ADDR:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[ADDR_LO]]:[[ADDR_HI]]{{\]}}
	; CHECK: flat_load_dword [[VVAL:v[0-9]+]], [[A_ADDR]]			; CHECK: flat_load_dword [[VVAL:v[0-9]+]], [[A_ADDR]]
	; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]			; CHECK: flat_store_dword v[{{[0-9]+:[0-9]+}}], [[VVAL]]
	define amdgpu_kernel void @global_array_alias_store(i32 addrspace(1)* nocapture %out, i32 %n) {			define amdgpu_kernel void @global_array_alias_store(i32 addrspace(1)* nocapture %out, [8 x i32], i32 %n) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1) * %out, i32 %n			%gep = getelementptr i32, i32 addrspace(1) * %out, i32 %n
	store i32 12, i32 addrspace(1) * %gep			store i32 12, i32 addrspace(1) * %gep
	%0 = load i32 addrspace(1), i32 addrspace(1) addrspace(1)* @A, align 4			%load0 = load i32 addrspace(1), i32 addrspace(1) addrspace(1)* @A, align 4
	%1 = load i32, i32 addrspace(1)* %0, align 4			%load1 = load i32, i32 addrspace(1)* %load0, align 4
	store i32 %1, i32 addrspace(1)* %out, align 4			store i32 %load1, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}


	declare i32 @llvm.amdgcn.workitem.id.x() #1			declare i32 @llvm.amdgcn.workitem.id.x() #1

	attributes #1 = { nounwind readnone }			attributes #1 = { nounwind readnone }

	!8 = !{!9, !9, i64 0}			!8 = !{!9, !9, i64 0}
	!9 = !{!"float", !10, i64 0}			!9 = !{!"float", !10, i64 0}
	!10 = !{!"omnipotent char", !11, i64 0}			!10 = !{!"omnipotent char", !11, i64 0}
	!11 = !{!"Simple C/C++ TBAA"}			!11 = !{!"Simple C/C++ TBAA"}

test/CodeGen/AMDGPU/half.ll

Show All 16 Lines
; GCN: v_mov_b32_e32 [[V_ARG:v[0-9]+]], [[ARG]]		; GCN: v_mov_b32_e32 [[V_ARG:v[0-9]+]], [[ARG]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[V_ARG]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[V_ARG]]
define amdgpu_kernel void @load_v2f16_arg(<2 x half> addrspace(1)* %out, <2 x half> %arg) #0 {		define amdgpu_kernel void @load_v2f16_arg(<2 x half> addrspace(1)* %out, <2 x half> %arg) #0 {
store <2 x half> %arg, <2 x half> addrspace(1)* %out		store <2 x half> %arg, <2 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}load_v3f16_arg:		; GCN-LABEL: {{^}}load_v3f16_arg:
; SI: s_load_dwordx2		; GCN: s_load_dwordx2
; SI: s_load_dword s		; GCN: s_load_dwordx2
; SI: s_load_dword s

; VI: s_load_dwordx2
; VI: s_load_dwordx2

; GCN-NOT: {buffer\|flat\|global}}_load_		; GCN-NOT: {buffer\|flat\|global}}_load_


; GCN-NOT: {{flat\|global}}_load		; GCN-NOT: {{flat\|global}}_load
; GCN-DAG: {{flat\|global}}_store_dword		; GCN-DAG: {{flat\|global}}_store_dword
; GCN-DAG: {{flat\|global}}_store_short		; GCN-DAG: {{flat\|global}}_store_short
; GCN-NOT: {{flat\|global}}_store		; GCN-NOT: {{flat\|global}}_store
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @load_v3f16_arg(<3 x half> addrspace(1)* %out, <3 x half> %arg) #0 {		define amdgpu_kernel void @load_v3f16_arg(<3 x half> addrspace(1)* %out, <3 x half> %arg) #0 {
store <3 x half> %arg, <3 x half> addrspace(1)* %out		store <3 x half> %arg, <3 x half> addrspace(1)* %out
ret void		ret void
}		}


; FIXME: Why not one load?		; FIXME: Why not one load?
; GCN-LABEL: {{^}}load_v4f16_arg:		; GCN-LABEL: {{^}}load_v4f16_arg:
; SI-DAG: s_load_dword s[[ARG0_LO:[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2		; GCN-DAG: s_load_dwordx2 s{{\[}}[[ARG0_LO:[0-9]+]]:[[ARG0_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x2\|0x8}}
; SI-DAG: s_load_dword s[[ARG0_HI:[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x3

; VI: s_load_dwordx2 s{{\[}}[[ARG0_LO:[0-9]+]]:[[ARG0_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x8

; GCN-DAG: v_mov_b32_e32 v[[V_ARG0_LO:[0-9]+]], s[[ARG0_LO]]		; GCN-DAG: v_mov_b32_e32 v[[V_ARG0_LO:[0-9]+]], s[[ARG0_LO]]
; GCN-DAG: v_mov_b32_e32 v[[V_ARG0_HI:[0-9]+]], s[[ARG0_HI]]		; GCN-DAG: v_mov_b32_e32 v[[V_ARG0_HI:[0-9]+]], s[[ARG0_HI]]
; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[V_ARG0_LO]]:[[V_ARG0_HI]]{{\]}}		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[V_ARG0_LO]]:[[V_ARG0_HI]]{{\]}}
define amdgpu_kernel void @load_v4f16_arg(<4 x half> addrspace(1)* %out, <4 x half> %arg) #0 {		define amdgpu_kernel void @load_v4f16_arg(<4 x half> addrspace(1)* %out, <4 x half> %arg) #0 {
store <4 x half> %arg, <4 x half> addrspace(1)* %out		store <4 x half> %arg, <4 x half> addrspace(1)* %out
ret void		ret void
}		}

Show All 20 Lines
; GCN-LABEL: {{^}}extload_v2f16_to_v2f32_arg:		; GCN-LABEL: {{^}}extload_v2f16_to_v2f32_arg:
define amdgpu_kernel void @extload_v2f16_to_v2f32_arg(<2 x float> addrspace(1)* %out, <2 x half> %arg) #0 {		define amdgpu_kernel void @extload_v2f16_to_v2f32_arg(<2 x float> addrspace(1)* %out, <2 x half> %arg) #0 {
%ext = fpext <2 x half> %arg to <2 x float>		%ext = fpext <2 x half> %arg to <2 x float>
store <2 x float> %ext, <2 x float> addrspace(1)* %out		store <2 x float> %ext, <2 x float> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}extload_v3f16_to_v3f32_arg:		; GCN-LABEL: {{^}}extload_v3f16_to_v3f32_arg:
; SI: s_load_dwordx2 s		; GCN: s_load_dwordx2 s
; SI: s_load_dword s		; GCN: s_load_dwordx2 s
; SI: s_load_dword s

; VI: s_load_dwordx2
; VI: s_load_dwordx2
; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16

; GCN-NOT: _load		; GCN-NOT: _load
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN-NOT: v_cvt_f32_f16		; GCN-NOT: v_cvt_f32_f16
; GCN-DAG: _store_dword		; GCN-DAG: _store_dword
; GCN-DAG: _store_dwordx2		; GCN-DAG: _store_dwordx2
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @extload_v3f16_to_v3f32_arg(<3 x float> addrspace(1)* %out, <3 x half> %arg) #0 {		define amdgpu_kernel void @extload_v3f16_to_v3f32_arg(<3 x float> addrspace(1)* %out, <3 x half> %arg) #0 {
%ext = fpext <3 x half> %arg to <3 x float>		%ext = fpext <3 x half> %arg to <3 x float>
store <3 x float> %ext, <3 x float> addrspace(1)* %out		store <3 x float> %ext, <3 x float> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:		; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:
define amdgpu_kernel void @extload_v4f16_to_v4f32_arg(<4 x float> addrspace(1)* %out, <4 x half> %arg) #0 {		define amdgpu_kernel void @extload_v4f16_to_v4f32_arg(<4 x float> addrspace(1)* %out, <4 x half> %arg) #0 {
%ext = fpext <4 x half> %arg to <4 x float>		%ext = fpext <4 x half> %arg to <4 x float>
store <4 x float> %ext, <4 x float> addrspace(1)* %out		store <4 x float> %ext, <4 x float> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}extload_v8f16_to_v8f32_arg:		; GCN-LABEL: {{^}}extload_v8f16_to_v8f32_arg:
; SI: s_load_dword s		; GCN: s_load_dwordx4
; SI: s_load_dword s
; SI: s_load_dword s
; SI: s_load_dword s

; VI: s_load_dwordx2 s
; VI: s_load_dwordx2 s
; VI: s_load_dwordx2 s

; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
Show All 14 Lines
; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @extload_f16_to_f64_arg(double addrspace(1)* %out, half %arg) #0 {		define amdgpu_kernel void @extload_f16_to_f64_arg(double addrspace(1)* %out, half %arg) #0 {
%ext = fpext half %arg to double		%ext = fpext half %arg to double
store double %ext, double addrspace(1)* %out		store double %ext, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}extload_v2f16_to_v2f64_arg:		; GCN-LABEL: {{^}}extload_v2f16_to_v2f64_arg:
; GCN: s_load_dword		; GCN-DAG: s_load_dword s
; GCN: s_lshr_b32		; GCN: s_lshr_b32

; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f64_f32_e32		; GCN-DAG: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32		; GCN-DAG: v_cvt_f64_f32_e32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @extload_v2f16_to_v2f64_arg(<2 x double> addrspace(1)* %out, <2 x half> %arg) #0 {		define amdgpu_kernel void @extload_v2f16_to_v2f64_arg(<2 x double> addrspace(1)* %out, <2 x half> %arg) #0 {
%ext = fpext <2 x half> %arg to <2 x double>		%ext = fpext <2 x half> %arg to <2 x double>
store <2 x double> %ext, <2 x double> addrspace(1)* %out		store <2 x double> %ext, <2 x double> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}extload_v3f16_to_v3f64_arg:		; GCN-LABEL: {{^}}extload_v3f16_to_v3f64_arg:
; SI: s_load_dword		; GCN: s_load_dwordx2 s
; SI: s_load_dword		; GCN: s_load_dwordx2 s

; VI: s_load_dwordx2
; VI: s_load_dwordx2

; GCN: s_lshr_b32

; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f64_f32_e32		; GCN-DAG: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32		; GCN-DAG: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32		; GCN-DAG: v_cvt_f64_f32_e32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @extload_v3f16_to_v3f64_arg(<3 x double> addrspace(1)* %out, <3 x half> %arg) #0 {		define amdgpu_kernel void @extload_v3f16_to_v3f64_arg(<3 x double> addrspace(1)* %out, <3 x half> %arg) #0 {
%ext = fpext <3 x half> %arg to <3 x double>		%ext = fpext <3 x half> %arg to <3 x double>
store <3 x double> %ext, <3 x double> addrspace(1)* %out		store <3 x double> %ext, <3 x double> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}extload_v4f16_to_v4f64_arg:		; GCN-LABEL: {{^}}extload_v4f16_to_v4f64_arg:
; SI: s_load_dword s		; GCN: s_load_dwordx2 s
; SI: s_load_dword s		; GCN: s_load_dwordx2 s

; VI: s_load_dwordx2 s		; GCN: v_cvt_f32_f16_e32
		; GCN: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32		; GCN: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32		; GCN: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @extload_v4f16_to_v4f64_arg(<4 x double> addrspace(1)* %out, <4 x half> %arg) #0 {		define amdgpu_kernel void @extload_v4f16_to_v4f64_arg(<4 x double> addrspace(1)* %out, <4 x half> %arg) #0 {
%ext = fpext <4 x half> %arg to <4 x double>		%ext = fpext <4 x half> %arg to <4 x double>
store <4 x double> %ext, <4 x double> addrspace(1)* %out		store <4 x double> %ext, <4 x double> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}extload_v8f16_to_v8f64_arg:		; GCN-LABEL: {{^}}extload_v8f16_to_v8f64_arg:
; SI: s_load_dword s		; GCN: s_load_dwordx2 s
; SI-NEXT: s_load_dword s		; GCN: s_load_dwordx4 s
; SI-NEXT: s_load_dword s
; SI-NEXT: s_load_dword s
; SI-NOT: _load_

; VI: s_load_dwordx2 s
; VI: s_load_dwordx2 s

; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32

; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32		; GCN-DAG: v_cvt_f32_f16_e32
▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @global_extload_f16_to_f32(float addrspace(1)* %out, half addrspace(1)* %in) #0 {
%cvt = fpext half %val to float		%cvt = fpext half %val to float
store float %cvt, float addrspace(1)* %out		store float %cvt, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}global_extload_v2f16_to_v2f32:		; GCN-LABEL: {{^}}global_extload_v2f16_to_v2f32:
; GCN: flat_load_dword [[LOAD:v[0-9]+]],		; GCN: flat_load_dword [[LOAD:v[0-9]+]],

; SI: v_lshrrev_b32_e32 [[HI:v[0-9]+]], 16, [[LOAD]]		; SI-DAG: v_cvt_f32_f16_e32 v[[CVT0:[0-9]+]], [[LOAD]]
; SI: v_cvt_f32_f16_e32 v[[CVT0:[0-9]+]], [[LOAD]]		; SI-DAG: v_lshrrev_b32_e32 [[HI:v[0-9]+]], 16, [[LOAD]]

; SI: v_cvt_f32_f16_e32 v[[CVT1:[0-9]+]], [[HI]]		; SI: v_cvt_f32_f16_e32 v[[CVT1:[0-9]+]], [[HI]]

; VI: v_cvt_f32_f16_sdwa v[[CVT1:[0-9]+]], [[LOAD]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI: v_cvt_f32_f16_e32 v[[CVT0:[0-9]+]], [[LOAD]]		; VI: v_cvt_f32_f16_e32 v[[CVT0:[0-9]+]], [[LOAD]]
		; VI: v_cvt_f32_f16_sdwa v[[CVT1:[0-9]+]], [[LOAD]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1

; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[CVT0]]:[[CVT1]]{{\]}}		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[CVT0]]:[[CVT1]]{{\]}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @global_extload_v2f16_to_v2f32(<2 x float> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @global_extload_v2f16_to_v2f32(<2 x float> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%val = load <2 x half>, <2 x half> addrspace(1)* %in		%val = load <2 x half>, <2 x half> addrspace(1)* %in
%cvt = fpext <2 x half> %val to <2 x float>		%cvt = fpext <2 x half> %val to <2 x float>
store <2 x float> %cvt, <2 x float> addrspace(1)* %out		store <2 x float> %cvt, <2 x float> addrspace(1)* %out
ret void		ret void
Show All 27 Lines
; GCN: flat_load_dwordx4		; GCN: flat_load_dwordx4
; GCN: flat_load_dwordx4		; GCN: flat_load_dwordx4

; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
		; SI: v_cvt_f32_f16_e32

; GCN: flat_store_dwordx4		; GCN: flat_store_dwordx4

; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32		; SI: v_cvt_f32_f16_e32
; SI: v_cvt_f32_f16_e32

; VI: v_cvt_f32_f16_e32		; VI: v_cvt_f32_f16_e32
; VI: v_cvt_f32_f16_sdwa		; VI: v_cvt_f32_f16_sdwa


; GCN: flat_store_dwordx4		; GCN: flat_store_dwordx4
; GCN: flat_store_dwordx4		; GCN: flat_store_dwordx4
; GCN: flat_store_dwordx4		; GCN: flat_store_dwordx4
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines

; XVI: flat_load_dwordx2 [[LOAD:v\[[0-9]+:[0-9]+\]]]		; XVI: flat_load_dwordx2 [[LOAD:v\[[0-9]+:[0-9]+\]]]
; XVI: v_cvt_f32_f16_e32		; XVI: v_cvt_f32_f16_e32
; XVI: v_cvt_f32_f16_e32		; XVI: v_cvt_f32_f16_e32
; XVI: v_cvt_f32_f16_sdwa		; XVI: v_cvt_f32_f16_sdwa
; XVI-NOT: v_cvt_f32_f16		; XVI-NOT: v_cvt_f32_f16

; GCN: flat_load_dwordx2 v{{\[}}[[IN_LO:[0-9]+]]:[[IN_HI:[0-9]+]]		; GCN: flat_load_dwordx2 v{{\[}}[[IN_LO:[0-9]+]]:[[IN_HI:[0-9]+]]
; GCN-DAG: v_cvt_f32_f16_e32 [[Z32:v[0-9]+]], v[[IN_HI]]		; GCN: v_cvt_f32_f16_e32
; GCN-DAG: v_cvt_f32_f16_e32 [[X32:v[0-9]+]], v[[IN_LO]]		; GCN: v_cvt_f32_f16_e32
; SI-DAG: v_lshrrev_b32_e32 [[Y16:v[0-9]+]], 16, v[[IN_LO]]		; SI: v_cvt_f32_f16_e32
; SI-DAG: v_cvt_f32_f16_e32 [[Y32:v[0-9]+]], [[Y16]]		; VI: v_cvt_f32_f16_sdwa
; VI-DAG: v_cvt_f32_f16_sdwa [[Y32:v[0-9]+]], v[[IN_LO]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GCN-NOT: v_cvt_f32_f16

; GCN-DAG: v_cvt_f64_f32_e32 [[Z:v\[[0-9]+:[0-9]+\]]], [[Z32]]		; GCN: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32 v{{\[}}[[XLO:[0-9]+]]:{{[0-9]+}}], [[X32]]		; GCN: v_cvt_f64_f32_e32
; GCN-DAG: v_cvt_f64_f32_e32 v[{{[0-9]+}}:[[YHI:[0-9]+]]{{\]}}, [[Y32]]		; GCN: v_cvt_f64_f32_e32
; GCN-NOT: v_cvt_f64_f32_e32		; GCN-NOT: v_cvt_f64_f32_e32

; GCN-DAG: flat_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[XLO]]:[[YHI]]{{\]}}		; GCN-DAG: flat_store_dwordx4
; GCN-DAG: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[Z]]		; GCN-DAG: flat_store_dwordx2
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @global_extload_v3f16_to_v3f64(<3 x double> addrspace(1)* %out, <3 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @global_extload_v3f16_to_v3f64(<3 x double> addrspace(1)* %out, <3 x half> addrspace(1)* %in) #0 {
%val = load <3 x half>, <3 x half> addrspace(1)* %in		%val = load <3 x half>, <3 x half> addrspace(1)* %in
%cvt = fpext <3 x half> %val to <3 x double>		%cvt = fpext <3 x half> %val to <3 x double>
store <3 x double> %cvt, <3 x double> addrspace(1)* %out		store <3 x double> %cvt, <3 x double> addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 224 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/hsa-metadata-kernel-code-props.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx700 -enable-misched=0 -filetype=obj -o - < %s \| llvm-readobj -elf-output-style=GNU -notes \| FileCheck --check-prefix=CHECK --check-prefix=GFX700 --check-prefix=NOTES %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx700 -enable-misched=0 -filetype=obj -o - < %s \| llvm-readobj -elf-output-style=GNU -notes \| FileCheck --check-prefix=CHECK --check-prefix=GFX700 --check-prefix=NOTES %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -enable-misched=0 -filetype=obj -o - < %s \| llvm-readobj -elf-output-style=GNU -notes \| FileCheck --check-prefix=CHECK --check-prefix=GFX803 --check-prefix=NOTES %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -enable-misched=0 -filetype=obj -o - < %s \| llvm-readobj -elf-output-style=GNU -notes \| FileCheck --check-prefix=CHECK --check-prefix=GFX803 --check-prefix=NOTES %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -enable-misched=0 -filetype=obj -o - < %s \| llvm-readobj -elf-output-style=GNU -notes \| FileCheck --check-prefix=CHECK --check-prefix=GFX900 --check-prefix=NOTES %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -enable-misched=0 -filetype=obj -o - < %s \| llvm-readobj -elf-output-style=GNU -notes \| FileCheck --check-prefix=CHECK --check-prefix=GFX900 --check-prefix=NOTES %s

	@var = addrspace(1) global float 0.0			@var = addrspace(1) global float 0.0

	; CHECK: ---			; CHECK: ---
	; CHECK: Version: [ 1, 0 ]			; CHECK: Version: [ 1, 0 ]
	; CHECK: Kernels:			; CHECK: Kernels:

	; CHECK: - Name: test			; CHECK-LABEL: - Name: test
	; CHECK: SymbolName: 'test@kd'			; CHECK: SymbolName: 'test@kd'
	; CHECK: CodeProps:			; CHECK: CodeProps:
	; CHECK: KernargSegmentSize: 24			; CHECK: KernargSegmentSize: 24
	; CHECK: GroupSegmentFixedSize: 0			; CHECK: GroupSegmentFixedSize: 0
	; CHECK: PrivateSegmentFixedSize: 0			; CHECK: PrivateSegmentFixedSize: 0
	; CHECK: KernargSegmentAlign: 8			; CHECK: KernargSegmentAlign: 8
	; CHECK: WavefrontSize: 64			; CHECK: WavefrontSize: 64
	; CHECK: NumSGPRs: 6			; CHECK: NumSGPRs: 8
	; CHECK: NumVGPRs: 3			; CHECK: NumVGPRs: 6
	; CHECK: MaxFlatWorkGroupSize: 256			; CHECK: MaxFlatWorkGroupSize: 256
	define amdgpu_kernel void @test(			define amdgpu_kernel void @test(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load half, half addrspace(1)* %b
	%r.val = fadd half %a.val, %b.val			%r.val = fadd half %a.val, %b.val
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; CHECK: - Name: num_spilled_sgprs			; CHECK-LABEL: - Name: num_spilled_sgprs
	; CHECK: SymbolName: 'num_spilled_sgprs@kd'			; CHECK: SymbolName: 'num_spilled_sgprs@kd'
	; CHECK: CodeProps:			; CHECK: CodeProps:
	; CHECK: NumSpilledSGPRs: 41			; GFX700: NumSpilledSGPRs: 40
				; GFX803: NumSpilledSGPRs: 24
				; GFX900: NumSpilledSGPRs: 24
	define amdgpu_kernel void @num_spilled_sgprs(			define amdgpu_kernel void @num_spilled_sgprs(
	i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, i32 addrspace(1)* %out2,			i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, [8 x i32],
	i32 addrspace(1)* %out3, i32 addrspace(1)* %out4, i32 addrspace(1)* %out5,			i32 addrspace(1)* %out2, i32 addrspace(1)* %out3, [8 x i32],
	i32 addrspace(1)* %out6, i32 addrspace(1)* %out7, i32 addrspace(1)* %out8,			i32 addrspace(1)* %out4, i32 addrspace(1)* %out5, [8 x i32],
	i32 addrspace(1)* %out9, i32 addrspace(1)* %outa, i32 addrspace(1)* %outb,			i32 addrspace(1)* %out6, i32 addrspace(1)* %out7, [8 x i32],
	i32 addrspace(1)* %outc, i32 addrspace(1)* %outd, i32 addrspace(1)* %oute,			i32 addrspace(1)* %out8, i32 addrspace(1)* %out9, [8 x i32],
	i32 addrspace(1)* %outf, i32 %in0, i32 %in1, i32 %in2, i32 %in3, i32 %in4,			i32 addrspace(1)* %outa, i32 addrspace(1)* %outb, [8 x i32],
	i32 %in5, i32 %in6, i32 %in7, i32 %in8, i32 %in9, i32 %ina, i32 %inb,			i32 addrspace(1)* %outc, i32 addrspace(1)* %outd, [8 x i32],
				i32 addrspace(1)* %oute, i32 addrspace(1)* %outf, [8 x i32],
				i32 %in0, i32 %in1, i32 %in2, i32 %in3, [8 x i32],
				i32 %in4, i32 %in5, i32 %in6, i32 %in7, [8 x i32],
				i32 %in8, i32 %in9, i32 %ina, i32 %inb, [8 x i32],
	i32 %inc, i32 %ind, i32 %ine, i32 %inf) #0 {			i32 %inc, i32 %ind, i32 %ine, i32 %inf) #0 {
	entry:			entry:
	store i32 %in0, i32 addrspace(1)* %out0			store i32 %in0, i32 addrspace(1)* %out0
	store i32 %in1, i32 addrspace(1)* %out1			store i32 %in1, i32 addrspace(1)* %out1
	store i32 %in2, i32 addrspace(1)* %out2			store i32 %in2, i32 addrspace(1)* %out2
	store i32 %in3, i32 addrspace(1)* %out3			store i32 %in3, i32 addrspace(1)* %out3
	store i32 %in4, i32 addrspace(1)* %out4			store i32 %in4, i32 addrspace(1)* %out4
	store i32 %in5, i32 addrspace(1)* %out5			store i32 %in5, i32 addrspace(1)* %out5
	store i32 %in6, i32 addrspace(1)* %out6			store i32 %in6, i32 addrspace(1)* %out6
	store i32 %in7, i32 addrspace(1)* %out7			store i32 %in7, i32 addrspace(1)* %out7
	store i32 %in8, i32 addrspace(1)* %out8			store i32 %in8, i32 addrspace(1)* %out8
	store i32 %in9, i32 addrspace(1)* %out9			store i32 %in9, i32 addrspace(1)* %out9
	store i32 %ina, i32 addrspace(1)* %outa			store i32 %ina, i32 addrspace(1)* %outa
	store i32 %inb, i32 addrspace(1)* %outb			store i32 %inb, i32 addrspace(1)* %outb
	store i32 %inc, i32 addrspace(1)* %outc			store i32 %inc, i32 addrspace(1)* %outc
	store i32 %ind, i32 addrspace(1)* %outd			store i32 %ind, i32 addrspace(1)* %outd
	store i32 %ine, i32 addrspace(1)* %oute			store i32 %ine, i32 addrspace(1)* %oute
	store i32 %inf, i32 addrspace(1)* %outf			store i32 %inf, i32 addrspace(1)* %outf
	ret void			ret void
	}			}

	; CHECK: - Name: num_spilled_vgprs			; CHECK-LABEL: - Name: num_spilled_vgprs
	; CHECK: SymbolName: 'num_spilled_vgprs@kd'			; CHECK: SymbolName: 'num_spilled_vgprs@kd'
	; CHECK: CodeProps:			; CHECK: CodeProps:
	; CHECK: NumSpilledVGPRs: 14			; CHECK: NumSpilledVGPRs: 14
	define amdgpu_kernel void @num_spilled_vgprs() #1 {			define amdgpu_kernel void @num_spilled_vgprs() #1 {
	%val0 = load volatile float, float addrspace(1)* @var			%val0 = load volatile float, float addrspace(1)* @var
	%val1 = load volatile float, float addrspace(1)* @var			%val1 = load volatile float, float addrspace(1)* @var
	%val2 = load volatile float, float addrspace(1)* @var			%val2 = load volatile float, float addrspace(1)* @var
	%val3 = load volatile float, float addrspace(1)* @var			%val3 = load volatile float, float addrspace(1)* @var
	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/imm.ll

	Show First 20 Lines • Show All 338 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @add_inline_imm_64_f32(float addrspace(1)* %out, float %x) {			define amdgpu_kernel void @add_inline_imm_64_f32(float addrspace(1)* %out, float %x) {
	%y = fadd float %x, 0x3700000000000000			%y = fadd float %x, 0x3700000000000000
	store float %y, float addrspace(1)* %out			store float %y, float addrspace(1)* %out
	ret void			ret void
	}			}


	; GCN-LABEL: {{^}}add_inline_imm_0.0_f64:			; GCN-LABEL: {{^}}add_inline_imm_0.0_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 0{{$}}			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 0{{$}}
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_0.0_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_0.0_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0.0			%y = fadd double %x, 0.0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_0.5_f64:			; GCN-LABEL: {{^}}add_inline_imm_0.5_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 0.5			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 0.5
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_0.5_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_0.5_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0.5			%y = fadd double %x, 0.5
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_f64:			; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -0.5			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -0.5
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_0.5_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_neg_0.5_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, -0.5			%y = fadd double %x, -0.5
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1.0_f64:			; GCN-LABEL: {{^}}add_inline_imm_1.0_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 1.0			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 1.0
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_1.0_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_1.0_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 1.0			%y = fadd double %x, 1.0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_f64:			; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -1.0			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -1.0
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_1.0_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_neg_1.0_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, -1.0			%y = fadd double %x, -1.0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2.0_f64:			; GCN-LABEL: {{^}}add_inline_imm_2.0_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 2.0			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 2.0
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_2.0_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_2.0_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 2.0			%y = fadd double %x, 2.0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_f64:			; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -2.0			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -2.0
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_2.0_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_neg_2.0_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, -2.0			%y = fadd double %x, -2.0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_4.0_f64:			; GCN-LABEL: {{^}}add_inline_imm_4.0_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 4.0			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 4.0
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_4.0_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_4.0_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 4.0			%y = fadd double %x, 4.0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_f64:			; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -4.0			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], -4.0
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_neg_4.0_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_neg_4.0_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, -4.0			%y = fadd double %x, -4.0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_inv_2pi_f64:			; GCN-LABEL: {{^}}add_inline_imm_inv_2pi_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; SI-DAG: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], 0x6dc9c882			; SI-DAG: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], 0x6dc9c882
	; SI-DAG: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], 0x3fc45f30			; SI-DAG: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], 0x3fc45f30
	; SI: v_add_f64 v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO_VREG]]:[[HI_VREG]]{{\]}}			; SI: v_add_f64 v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO_VREG]]:[[HI_VREG]]{{\]}}

	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; VI: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 0.15915494{{$}}			; VI: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 0.15915494{{$}}
	; VI: buffer_store_dwordx2 [[REG]]			; VI: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_inv_2pi_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_inv_2pi_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0x3fc45f306dc9c882			%y = fadd double %x, 0x3fc45f306dc9c882
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_m_inv_2pi_f64:			; GCN-LABEL: {{^}}add_m_inv_2pi_f64:
	; GCN-DAG: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], 0x6dc9c882			; GCN-DAG: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], 0x6dc9c882
	; GCN-DAG: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], 0xbfc45f30			; GCN-DAG: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], 0xbfc45f30
	; GCN: v_add_f64 v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO_VREG]]:[[HI_VREG]]{{\]}}			; GCN: v_add_f64 v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO_VREG]]:[[HI_VREG]]{{\]}}
	define amdgpu_kernel void @add_m_inv_2pi_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_m_inv_2pi_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0xbfc45f306dc9c882			%y = fadd double %x, 0xbfc45f306dc9c882
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1_f64:			; GCN-LABEL: {{^}}add_inline_imm_1_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 1{{$}}			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 1{{$}}
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_1_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_1_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0x0000000000000001			%y = fadd double %x, 0x0000000000000001
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2_f64:			; GCN-LABEL: {{^}}add_inline_imm_2_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 2{{$}}			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 2{{$}}
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_2_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_2_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0x0000000000000002			%y = fadd double %x, 0x0000000000000002
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_16_f64:			; GCN-LABEL: {{^}}add_inline_imm_16_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 16			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 16
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_16_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_16_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0x0000000000000010			%y = fadd double %x, 0x0000000000000010
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1_f64:			; GCN-LABEL: {{^}}add_inline_imm_neg_1_f64:
	; GCN: v_mov_b32_e32 v0, -1			; GCN: v_mov_b32_e32 v0, -1
	; GCN: v_mov_b32_e32 v1, v0			; GCN: v_mov_b32_e32 v1, v0
	; GCN: buffer_store_dwordx2 v[0:1]			; GCN: buffer_store_dwordx2 v[0:1]
	define amdgpu_kernel void @add_inline_imm_neg_1_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_neg_1_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0xffffffffffffffff			%y = fadd double %x, 0xffffffffffffffff
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2_f64:			; GCN-LABEL: {{^}}add_inline_imm_neg_2_f64:
	; GCN: v_mov_b32_e32 v0, -2			; GCN: v_mov_b32_e32 v0, -2
	; GCN: v_mov_b32_e32 v1, -1			; GCN: v_mov_b32_e32 v1, -1
	; GCN: buffer_store_dwordx2 v[0:1]			; GCN: buffer_store_dwordx2 v[0:1]
	define amdgpu_kernel void @add_inline_imm_neg_2_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_neg_2_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0xfffffffffffffffe			%y = fadd double %x, 0xfffffffffffffffe
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_16_f64:			; GCN-LABEL: {{^}}add_inline_imm_neg_16_f64:
	; GCN: v_mov_b32_e32 v0, -16			; GCN: v_mov_b32_e32 v0, -16
	; GCN: v_mov_b32_e32 v1, -1			; GCN: v_mov_b32_e32 v1, -1
	; GCN: buffer_store_dwordx2 v[0:1]			; GCN: buffer_store_dwordx2 v[0:1]
	define amdgpu_kernel void @add_inline_imm_neg_16_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_neg_16_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0xfffffffffffffff0			%y = fadd double %x, 0xfffffffffffffff0
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_63_f64:			; GCN-LABEL: {{^}}add_inline_imm_63_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 63			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 63
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_63_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_63_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0x000000000000003F			%y = fadd double %x, 0x000000000000003F
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_64_f64:			; GCN-LABEL: {{^}}add_inline_imm_64_f64:
	; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 64			; GCN: v_add_f64 [[REG:v\[[0-9]+:[0-9]+\]]], [[VAL]], 64
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @add_inline_imm_64_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @add_inline_imm_64_f64(double addrspace(1)* %out, [8 x i32], double %x) {
	%y = fadd double %x, 0x0000000000000040			%y = fadd double %x, 0x0000000000000040
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}


	; GCN-LABEL: {{^}}store_inline_imm_0.0_f64:			; GCN-LABEL: {{^}}store_inline_imm_0.0_f64:
	; GCN: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], 0			; GCN: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], 0
	▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/immv216.ll

Show First 20 Lines • Show All 304 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @add_inline_imm_neg_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
ret void		ret void
}		}

; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_v2f16:		; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_v2f16:
; GFX9: buffer_load_dword [[VAL:v[0-9]+]]		; GFX9: buffer_load_dword [[VAL:v[0-9]+]]
; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5		; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5
; GFX9: buffer_store_dword [[REG]]		; GFX9: buffer_store_dword [[REG]]

; VI: buffer_load_dword		; VI-DAG: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800
		; VI-DAG: buffer_load_dword
; VI-NOT: and		; VI-NOT: and
; VI: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800
; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[CONST05]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[CONST05]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, v{{[0-9]+}}		; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, v{{[0-9]+}}
; VI: v_or_b32		; VI: v_or_b32
; VI: buffer_store_dword		; VI: buffer_store_dword
define amdgpu_kernel void @commute_add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @commute_add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%x = load <2 x half>, <2 x half> addrspace(1)* %in		%x = load <2 x half>, <2 x half> addrspace(1)* %in
%y = fadd <2 x half> %x, <half 0.5, half 0.5>		%y = fadd <2 x half> %x, <half 0.5, half 0.5>
store <2 x half> %y, <2 x half> addrspace(1)* %out		store <2 x half> %y, <2 x half> addrspace(1)* %out
▲ Show 20 Lines • Show All 183 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/insert_vector_elt.ll

; RUN: llc -verify-machineinstrs -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tahiti -mattr=+max-private-element-size-16 < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,GCN-NO-TONGA %s		; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri -mattr=-flat-for-global,+max-private-element-size-16 < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,GCN-NO-TONGA %s
; RUN: llc -verify-machineinstrs -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tonga -mattr=-flat-for-global -mattr=+max-private-element-size-16 < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,GCN-TONGA %s		; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -mattr=-flat-for-global -mattr=+max-private-element-size-16 < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,GCN-TONGA %s

; FIXME: Broken on evergreen		; FIXME: Broken on evergreen
; FIXME: For some reason the 8 and 16 vectors are being stored as		; FIXME: For some reason the 8 and 16 vectors are being stored as
; individual elements instead of 128-bit stores.		; individual elements instead of 128-bit stores.


; FIXME: Why is the constant moved into the intermediate register and		; FIXME: Why is the constant moved into the intermediate register and
; not just directly into the vector component?		; not just directly into the vector component?
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @insertelement_v3f32_3(<3 x float> addrspace(1)* %out, <3 x float> %a) nounwind {		define amdgpu_kernel void @insertelement_v3f32_3(<3 x float> addrspace(1)* %out, <3 x float> %a) nounwind {
%vecins = insertelement <3 x float> %a, float 5.000000e+00, i32 3		%vecins = insertelement <3 x float> %a, float 5.000000e+00, i32 3
store <3 x float> %vecins, <3 x float> addrspace(1)* %out, align 16		store <3 x float> %vecins, <3 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}insertelement_to_sgpr:		; GCN-LABEL: {{^}}insertelement_to_sgpr:
; GCN-NOT: v_readfirstlane		; GCN-NOT: v_readfirstlane
define amdgpu_ps <4 x float> @insertelement_to_sgpr(<4 x i32> inreg %samp) nounwind {		define <4 x float> @insertelement_to_sgpr() nounwind {
%tmp1 = insertelement <4 x i32> %samp, i32 0, i32 0		%tmp = load <4 x i32>, <4 x i32> addrspace(4)* undef
		%tmp1 = insertelement <4 x i32> %tmp, i32 0, i32 0
%tmp2 = call <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f32(i32 1, float undef, float undef, <8 x i32> undef, <4 x i32> %tmp1, i1 0, i32 0, i32 0)		%tmp2 = call <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f32(i32 1, float undef, float undef, <8 x i32> undef, <4 x i32> %tmp1, i1 0, i32 0, i32 0)
ret <4 x float> %tmp2		ret <4 x float> %tmp2
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v2f32:		; GCN-LABEL: {{^}}dynamic_insertelement_v2f32:
; GCN: v_mov_b32_e32 [[CONST:v[0-9]+]], 0x40a00000		; GCN: v_mov_b32_e32 [[CONST:v[0-9]+]], 0x40a00000
; GCN: v_movreld_b32_e32 v[[LOW_RESULT_REG:[0-9]+]], [[CONST]]		; GCN: v_movreld_b32_e32 v[[LOW_RESULT_REG:[0-9]+]], [[CONST]]
; GCN: buffer_store_dwordx2 {{v\[}}[[LOW_RESULT_REG]]:		; GCN: buffer_store_dwordx2 {{v\[}}[[LOW_RESULT_REG]]:
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
; GCN-DAG: buffer_store_dword v		; GCN-DAG: buffer_store_dword v
define amdgpu_kernel void @dynamic_insertelement_v3i32(<3 x i32> addrspace(1)* %out, <3 x i32> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v3i32(<3 x i32> addrspace(1)* %out, <3 x i32> %a, i32 %b) nounwind {
%vecins = insertelement <3 x i32> %a, i32 5, i32 %b		%vecins = insertelement <3 x i32> %a, i32 5, i32 %b
store <3 x i32> %vecins, <3 x i32> addrspace(1)* %out, align 16		store <3 x i32> %vecins, <3 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v4i32:		; GCN-LABEL: {{^}}dynamic_insertelement_v4i32:
; GCN: s_load_dword [[SVAL:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0x12\|0x48}}		; GCN: s_load_dword [[SVAL:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0x11\|0x44}}
; GCN: v_mov_b32_e32 [[VVAL:v[0-9]+]], [[SVAL]]		; GCN: v_mov_b32_e32 [[VVAL:v[0-9]+]], [[SVAL]]
; GCN: v_movreld_b32_e32 v{{[0-9]+}}, [[VVAL]]		; GCN: v_movreld_b32_e32 v{{[0-9]+}}, [[VVAL]]
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define amdgpu_kernel void @dynamic_insertelement_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, i32 %b, i32 %val) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, i32 %b, [8 x i32], i32 %val) nounwind {
%vecins = insertelement <4 x i32> %a, i32 %val, i32 %b		%vecins = insertelement <4 x i32> %a, i32 %val, i32 %b
store <4 x i32> %vecins, <4 x i32> addrspace(1)* %out, align 16		store <4 x i32> %vecins, <4 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v8i32:		; GCN-LABEL: {{^}}dynamic_insertelement_v8i32:
; GCN: v_movreld_b32		; GCN: v_movreld_b32
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
Show All 26 Lines
; GCN-LABEL: {{^}}dynamic_insertelement_v3i16:		; GCN-LABEL: {{^}}dynamic_insertelement_v3i16:
define amdgpu_kernel void @dynamic_insertelement_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %a, i32 %b) nounwind {
%vecins = insertelement <3 x i16> %a, i16 5, i32 %b		%vecins = insertelement <3 x i16> %a, i16 5, i32 %b
store <3 x i16> %vecins, <3 x i16> addrspace(1)* %out, align 8		store <3 x i16> %vecins, <3 x i16> addrspace(1)* %out, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v2i8:		; GCN-LABEL: {{^}}dynamic_insertelement_v2i8:
; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c		; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28
; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30		; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
; VI-NOT: _load		; VI-NOT: _load
; VI: s_lshr_b32 [[ELT1:s[0-9]+]], [[LOAD]], 8
; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3		; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
; VI: v_lshlrev_b16_e64 [[ELT1_SHIFT:v[0-9]+]], 8, [[ELT1]]
; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
; VI: v_lshlrev_b16_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], -1		; VI: v_lshlrev_b16_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], -1
		; VI: v_and_b32_e32 [[INSERT:v[0-9]+]], 5, [[MASK]]
; VI: v_xor_b32_e32 [[NOT:v[0-9]+]], -1, [[MASK]]		; VI: v_xor_b32_e32 [[NOT_MASK:v[0-9]+]], -1, [[MASK]]
; VI: v_or_b32_e32 [[BUILD_VECTOR:v[0-9]+]], [[ELT0]], [[ELT1_SHIFT]]		; VI: v_and_b32_e32 [[AND_NOT_MASK:v[0-9]+]], [[LOAD]], [[NOT_MASK]]
		; VI: v_or_b32_e32 [[OR:v[0-9]+]], [[INSERT]], [[AND_NOT_MASK]]
; VI: v_and_b32_e32 [[AND1:v[0-9]+]], [[NOT]], [[BUILD_VECTOR]]
; VI-DAG: v_and_b32_e32 [[INSERT:v[0-9]+]], 5, [[MASK]]
; VI: v_or_b32_e32 [[OR:v[0-9]+]], [[INSERT]], [[BUILD_VECTOR]]
; VI: buffer_store_short [[OR]]		; VI: buffer_store_short [[OR]]
define amdgpu_kernel void @dynamic_insertelement_v2i8(<2 x i8> addrspace(1)* %out, <2 x i8> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v2i8(<2 x i8> addrspace(1)* %out, [8 x i32], <2 x i8> %a, [8 x i32], i32 %b) nounwind {
%vecins = insertelement <2 x i8> %a, i8 5, i32 %b		%vecins = insertelement <2 x i8> %a, i8 5, i32 %b
store <2 x i8> %vecins, <2 x i8> addrspace(1)* %out, align 8		store <2 x i8> %vecins, <2 x i8> addrspace(1)* %out, align 8
ret void		ret void
}		}

; FIXME: post legalize i16 and i32 shifts aren't merged because of		; FIXME: post legalize i16 and i32 shifts aren't merged because of
; isTypeDesirableForOp in SimplifyDemandedBits		; isTypeDesirableForOp in SimplifyDemandedBits

; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:		; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:
; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c		; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28
; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30		; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
; VI-NOT: _load		; VI-NOT: _load

; VI: s_lshr_b32 [[VEC_HI:s[0-9]+]], [[LOAD]], 8		; VI: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]
; VI: v_lshlrev_b16_e64 [[ELT2:v[0-9]+]], 8, [[VEC_HI]]
; VI: s_and_b32 [[ELT0:s[0-9]+]], [[LOAD]], 0xff{{$}}
; VI: v_or_b32_e32 [[BUILD_VEC:v[0-9]+]], [[VEC_HI]], [[ELT2]]
; VI: s_and_b32 [[ELT2:s[0-9]+]], [[LOAD]], 0xff0000{{$}}

; VI: s_mov_b32 [[MASK16:s[0-9]+]], 0xffff{{$}}
; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3		; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], [[MASK16]], [[SCALED_IDX]]		; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], 0xffff, [[SCALED_IDX]]
		; VI: s_not_b32 [[NOT_MASK:s[0-9]+]], [[SHIFTED_MASK]]
; VI: v_mov_b32_e32 [[V_ELT2:v[0-9]+]], [[ELT2]]		; VI: s_and_b32 [[AND_NOT_MASK:s[0-9]+]], [[NOT_MASK]], [[LOAD]]
; VI: v_or_b32_sdwa [[SDWA:v[0-9]+]], [[BUILD_VEC]], [[V_ELT2]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SHIFTED_MASK]], 5, [[V_LOAD]]
; VI: s_not_b32 [[NOT_SHIFT_MASK:s[0-9]+]], [[SHIFTED_MASK]]		; VI: s_lshr_b32 [[HI2:s[0-9]+]], [[AND_NOT_MASK]], 16
; VI: v_and_b32_e32 [[AND_NOT_MASK:v[0-9]+]], [[NOT_SHIFT_MASK]], [[SDWA]]
; VI: v_lshrrev_b32_e32 [[HI2:v[0-9]+]], 16, [[AND_NOT_MASK]]		; VI-DAG: buffer_store_short [[BFI]]
; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SCALED_IDX]], 5, [[SDWA]]		; VI-DAG: v_mov_b32_e32 [[V_HI2:v[0-9]+]], [[HI2]]
; VI: buffer_store_short [[BFI]]		; VI: buffer_store_byte [[V_HI2]]
; VI: buffer_store_byte [[HI2]]		define amdgpu_kernel void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, [8 x i32], <3 x i8> %a, [8 x i32], i32 %b) nounwind {
define amdgpu_kernel void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, <3 x i8> %a, i32 %b) nounwind {
%vecins = insertelement <3 x i8> %a, i8 5, i32 %b		%vecins = insertelement <3 x i8> %a, i8 5, i32 %b
store <3 x i8> %vecins, <3 x i8> addrspace(1)* %out, align 4		store <3 x i8> %vecins, <3 x i8> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v4i8:		; GCN-LABEL: {{^}}dynamic_insertelement_v4i8:
; VI: s_load_dword [[VEC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c		; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28
; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30		; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
; VI-NOT: _load		; VI-NOT: _load

; VI: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], 8		; VI: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]
; VI: v_lshlrev_b16_e64 [[ELT2:v[0-9]+]], 8, [[ELT1]]
; VI: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0xff{{$}}


; VI: s_lshr_b32 [[ELT3:s[0-9]+]], [[VEC]], 24
; VI: s_lshr_b32 [[ELT2:s[0-9]+]], [[VEC]], 16
; VI: v_lshlrev_b16_e64 v{{[0-9]+}}, 8, [[ELT3]]
; VI: v_or_b32_e32
; VI: v_or_b32_sdwa
; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3		; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
; VI: v_or_b32_sdwa		; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], 0xffff, [[SCALED_IDX]]
; VI: s_lshl_b32		; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SHIFTED_MASK]], 5, [[V_LOAD]]
; VI: v_bfi_b32		; VI: buffer_store_dword [[BFI]]
define amdgpu_kernel void @dynamic_insertelement_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v4i8(<4 x i8> addrspace(1)* %out, [8 x i32], <4 x i8> %a, [8 x i32], i32 %b) nounwind {
%vecins = insertelement <4 x i8> %a, i8 5, i32 %b		%vecins = insertelement <4 x i8> %a, i8 5, i32 %b
store <4 x i8> %vecins, <4 x i8> addrspace(1)* %out, align 4		store <4 x i8> %vecins, <4 x i8> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_dynamic_insertelement_v8i8:		; GCN-LABEL: {{^}}s_dynamic_insertelement_v8i8:
; VI-NOT: {{buffer\|flat\|global}}		; VI-NOT: {{buffer\|flat\|global}}_load
; VI: s_load_dword [[IDX:s[0-9]]]		; VI-DAG: s_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x0
; VI-NOT: {{buffer\|flat\|global}}		; VI-DAG: s_load_dword [[IDX:s[0-9]]], s[4:5], 0x10
; VI: s_load_dwordx2 [[VEC:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0		; VI-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0{{$}}
; VI-NOT: {{buffer\|flat\|global}}		; VI-DAG: s_load_dwordx2 [[VEC:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3		; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
; VI-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0
; VI-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff		; VI-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff
; VI: s_lshl_b64 s{{\[}}[[MASK_SHIFT_LO:[0-9]+]]:[[MASK_SHIFT_HI:[0-9]+]]{{\]}}, s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}, [[SCALED_IDX]]		; VI: s_lshl_b64 s{{\[}}[[MASK_SHIFT_LO:[0-9]+]]:[[MASK_SHIFT_HI:[0-9]+]]{{\]}}, s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}, [[SCALED_IDX]]
; VI: s_not_b64 [[NOT_MASK:s\[[0-9]+:[0-9]+\]]], s{{\[}}[[MASK_SHIFT_LO]]:[[MASK_SHIFT_HI]]{{\]}}		; VI: s_not_b64 [[NOT_MASK:s\[[0-9]+:[0-9]+\]]], s{{\[}}[[MASK_SHIFT_LO]]:[[MASK_SHIFT_HI]]{{\]}}
; VI: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[NOT_MASK]], [[VEC]]		; VI: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[NOT_MASK]], [[VEC]]
; VI: s_and_b32 s[[INS:[0-9]+]], s[[MASK_SHIFT_LO]], 5		; VI: s_and_b32 s[[INS:[0-9]+]], s[[MASK_SHIFT_LO]], 5
; VI: s_or_b64 s{{\[}}[[RESULT0:[0-9]+]]:[[RESULT1:[0-9]+]]{{\]}}, s{{\[}}[[INS]]:[[MASK_HI]]{{\]}}, [[AND]]		; VI: s_or_b64 s{{\[}}[[RESULT0:[0-9]+]]:[[RESULT1:[0-9]+]]{{\]}}, s{{\[}}[[INS]]:[[MASK_HI]]{{\]}}, [[AND]]
; VI: v_mov_b32_e32 v[[V_RESULT0:[0-9]+]], s[[RESULT0]]		; VI: v_mov_b32_e32 v[[V_RESULT0:[0-9]+]], s[[RESULT0]]
; VI: v_mov_b32_e32 v[[V_RESULT1:[0-9]+]], s[[RESULT1]]		; VI: v_mov_b32_e32 v[[V_RESULT1:[0-9]+]], s[[RESULT1]]
; VI: buffer_store_dwordx2 v{{\[}}[[V_RESULT0]]:[[V_RESULT1]]{{\]}}		; VI: buffer_store_dwordx2 v{{\[}}[[V_RESULT0]]:[[V_RESULT1]]{{\]}}
define amdgpu_kernel void @s_dynamic_insertelement_v8i8(<8 x i8> addrspace(1)* %out, <8 x i8> addrspace(4)* %a.ptr, i32 %b) nounwind {		define amdgpu_kernel void @s_dynamic_insertelement_v8i8(<8 x i8> addrspace(1)* %out, <8 x i8> addrspace(4)* %a.ptr, i32 %b) nounwind {
%a = load <8 x i8>, <8 x i8> addrspace(4)* %a.ptr, align 4		%a = load <8 x i8>, <8 x i8> addrspace(4)* %a.ptr, align 4
%vecins = insertelement <8 x i8> %a, i8 5, i32 %b		%vecins = insertelement <8 x i8> %a, i8 5, i32 %b
store <8 x i8> %vecins, <8 x i8> addrspace(1)* %out, align 8		store <8 x i8> %vecins, <8 x i8> addrspace(1)* %out, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v16i8:		; GCN-LABEL: {{^}}dynamic_insertelement_v16i8:
; GCN: s_load_dwordx2		; GCN: s_load_dwordx2
		; GCN: s_load_dwordx4
; GCN: s_load_dword s		; GCN: s_load_dword s
; GCN: s_load_dword s
; GCN: s_load_dword s
; GCN: s_load_dword s
; GCN: s_load_dword s
; GCN-NOT: _load_


; GCN: buffer_store_byte		; GCN: buffer_store_byte
; GCN: buffer_store_byte		; GCN: buffer_store_byte
; GCN: buffer_store_byte		; GCN: buffer_store_byte
; GCN: buffer_store_byte		; GCN: buffer_store_byte
; GCN: buffer_store_byte		; GCN: buffer_store_byte
; GCN: buffer_store_byte		; GCN: buffer_store_byte
; GCN: buffer_store_byte		; GCN: buffer_store_byte
Show All 38 Lines
endif:		endif:
%7 = phi <2 x i32> [%3, %if], [%6, %else]		%7 = phi <2 x i32> [%3, %if], [%6, %else]
store <2 x i32> %7, <2 x i32> addrspace(1)* %out		store <2 x i32> %7, <2 x i32> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v2f64:		; GCN-LABEL: {{^}}dynamic_insertelement_v2f64:
; GCN-DAG: s_load_dwordx4 s{{\[}}[[A_ELT0:[0-9]+]]:[[A_ELT3:[0-9]+]]{{\]}}		; GCN-DAG: s_load_dwordx4 s{{\[}}[[A_ELT0:[0-9]+]]:[[A_ELT3:[0-9]+]]{{\]}}
; GCN-DAG: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0x11\|0x44}}{{$}}		; GCN-DAG: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0x18\|0x60}}{{$}}

; GCN-DAG: s_lshl_b32 [[SCALEDIDX:s[0-9]+]], [[IDX]], 1{{$}}		; GCN-DAG: s_lshl_b32 [[SCALEDIDX:s[0-9]+]], [[IDX]], 1{{$}}

; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}		; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_mov_b32_e32 [[ELT1:v[0-9]+]], 0x40200000		; GCN-DAG: v_mov_b32_e32 [[ELT1:v[0-9]+]], 0x40200000

; GCN-DAG: s_mov_b32 m0, [[SCALEDIDX]]		; GCN-DAG: s_mov_b32 m0, [[SCALEDIDX]]
; GCN: v_movreld_b32_e32 v{{[0-9]+}}, 0		; GCN: v_movreld_b32_e32 v{{[0-9]+}}, 0

; Increment to next element folded into base register, but FileCheck		; Increment to next element folded into base register, but FileCheck
; can't do math expressions		; can't do math expressions

; FIXME: Should be able to manipulate m0 directly instead of s_lshl_b32 + copy to m0		; FIXME: Should be able to manipulate m0 directly instead of s_lshl_b32 + copy to m0

; GCN: v_movreld_b32_e32 v{{[0-9]+}}, [[ELT1]]		; GCN: v_movreld_b32_e32 v{{[0-9]+}}, [[ELT1]]

; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @dynamic_insertelement_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v2f64(<2 x double> addrspace(1)* %out, [8 x i32], <2 x double> %a, [8 x i32], i32 %b) nounwind {
%vecins = insertelement <2 x double> %a, double 8.0, i32 %b		%vecins = insertelement <2 x double> %a, double 8.0, i32 %b
store <2 x double> %vecins, <2 x double> addrspace(1)* %out, align 16		store <2 x double> %vecins, <2 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v2i64:		; GCN-LABEL: {{^}}dynamic_insertelement_v2i64:

; GCN-DAG: v_movreld_b32_e32 v{{[0-9]+}}, 5		; GCN-DAG: v_movreld_b32_e32 v{{[0-9]+}}, 5
Show All 13 Lines	define amdgpu_kernel void @dynamic_insertelement_v3i64(<3 x i64> addrspace(1)* %out, <3 x i64> %a, i32 %b) nounwind {
store <3 x i64> %vecins, <3 x i64> addrspace(1)* %out, align 32		store <3 x i64> %vecins, <3 x i64> addrspace(1)* %out, align 32
ret void		ret void
}		}

; FIXME: Should be able to do without stack access. The used stack		; FIXME: Should be able to do without stack access. The used stack
; space is also 2x what should be required.		; space is also 2x what should be required.

; GCN-LABEL: {{^}}dynamic_insertelement_v4f64:		; GCN-LABEL: {{^}}dynamic_insertelement_v4f64:
; GCN: SCRATCH_RSRC_DWORD

; Stack store		; Stack store

; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:32{{$}}		; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:32{{$}}
; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:48{{$}}		; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:48{{$}}

; Write element		; Write element
; GCN: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offen{{$}}		; GCN: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s[0:3], {{s[0-9]+}} offen{{$}}

; Stack reload		; Stack reload
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:32{{$}}		; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:32{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:48{{$}}		; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:48{{$}}

; Store result		; Store result
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: s_endpgm		; GCN: s_endpgm
; GCN: ScratchSize: 64		; GCN: ScratchSize: 64

define amdgpu_kernel void @dynamic_insertelement_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, i32 %b) nounwind {
%vecins = insertelement <4 x double> %a, double 8.0, i32 %b		%vecins = insertelement <4 x double> %a, double 8.0, i32 %b
store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16		store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v8f64:		; GCN-LABEL: {{^}}dynamic_insertelement_v8f64:
; GCN-DAG: SCRATCH_RSRC_DWORD		; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:64{{$}}
		; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:80{{$}}
; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:64{{$}}		; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:96{{$}}
; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:80{{$}}		; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:112{{$}}
; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:96{{$}}
; GCN-DAG: buffer_store_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:112{{$}}		; GCN: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s[0:3], {{s[0-9]+}} offen{{$}}

; GCN: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offen{{$}}		; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:64{{$}}
		; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:80{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:64{{$}}		; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:96{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:80{{$}}		; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s[0:3], {{s[0-9]+}} offset:112{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:96{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}} offset:112{{$}}

; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: s_endpgm		; GCN: s_endpgm
; GCN: ScratchSize: 128		; GCN: ScratchSize: 128
define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {		define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {
Show All 9 Lines

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

; RUN: llc -verify-machineinstrs -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=gfx900 -enable-amdgpu-aa=0 -mattr=+flat-for-global,-fp64-fp16-denormals < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s		; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -enable-amdgpu-aa=0 -mattr=+flat-for-global,-fp64-fp16-denormals < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s
; RUN: llc -verify-machineinstrs -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=fiji -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,VI,GFX89 %s		; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,VI,GFX89 %s
; RUN: llc -verify-machineinstrs -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=hawaii -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,CI %s		; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,CI %s

; GCN-LABEL: {{^}}s_insertelement_v2i16_0:		; GCN-LABEL: {{^}}s_insertelement_v2i16_0:
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN: s_load_dword [[VEC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

; CIVI: s_and_b32 [[ELT1:s[0-9]+]], [[VEC]], 0xffff0000{{$}}		; CIVI: s_and_b32 [[ELT1:s[0-9]+]], [[VEC]], 0xffff0000{{$}}
; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT1]], 0x3e7{{$}}		; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT1]], 0x3e7{{$}}

; GFX9-NOT: lshr		; GFX9-NOT: lshr
; GFX9: s_pack_lh_b32_b16 s{{[0-9]+}}, 0x3e7, [[VEC]]		; GFX9: s_pack_lh_b32_b16 s{{[0-9]+}}, 0x3e7, [[VEC]]
define amdgpu_kernel void @s_insertelement_v2i16_0(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%vecins = insertelement <2 x i16> %vec, i16 999, i32 0		%vecins = insertelement <2 x i16> %vec, i16 999, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reg:		; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reg:
; GCN: s_load_dword [[ELT0:s[0-9]+]]		; GCN-DAG: s_load_dword [[ELT_LOAD:s[0-9]+]], s[4:5],
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN-DAG: s_load_dword [[VEC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

; CIVI-DAG: s_and_b32 [[ELT0]], [[ELT0]], 0xffff{{$}}		; CIVI-DAG: s_and_b32 [[ELT0:s[0-9]+]], [[ELT_LOAD]], 0xffff{{$}}
; CIVI-DAG: s_and_b32 [[ELT1:s[0-9]+]], [[VEC]], 0xffff0000{{$}}		; CIVI-DAG: s_and_b32 [[ELT1:s[0-9]+]], [[VEC]], 0xffff0000{{$}}
; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT0]], [[ELT1]]		; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT0]], [[ELT1]]

; GFX9-NOT: [[ELT0]]		; GFX9-NOT: [[ELT0]]
; GFX9-NOT: [[VEC]]		; GFX9-NOT: [[VEC]]
; GFX9: s_pack_lh_b32_b16 s{{[0-9]+}}, [[ELT0]], [[VEC]]		; GFX9: s_pack_lh_b32_b16 s{{[0-9]+}}, [[ELT_LOAD]], [[VEC]]
define amdgpu_kernel void @s_insertelement_v2i16_0_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i16 %elt) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_insertelement_v2i16_0_multi_use_hi_reg:		; GCN-LABEL: {{^}}s_insertelement_v2i16_0_multi_use_hi_reg:
; GCN: s_load_dword [[ELT0:s[0-9]+]]		; GCN-DAG: s_load_dword [[ELT_LOAD:s[0-9]+]], s[4:5],
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN-DAG: s_load_dword [[VEC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

; CI-DAG: s_and_b32 [[ELT0]], [[ELT0]], 0xffff{{$}}		; CI-DAG: s_and_b32 [[ELT0_MASKED:s[0-9]+]], [[ELT_LOAD]], 0xffff{{$}}
; CI: s_lshr_b32 [[SHR:s[0-9]+]], [[VEC]], 16		; CI: s_lshr_b32 [[SHR:s[0-9]+]], [[VEC]], 16
; CI: s_lshl_b32 [[ELT1:s[0-9]+]], [[SHR]], 16		; CI: s_lshl_b32 [[ELT1:s[0-9]+]], [[SHR]], 16
; CI-DAG: s_or_b32 s{{[0-9]+}}, [[ELT0]], [[ELT1]]		; CI-DAG: s_or_b32 s{{[0-9]+}}, [[ELT0_MASKED]], [[ELT1]]
; CI-DAG: ; use [[SHR]]		; CI-DAG: ; use [[SHR]]


; FIXME: Should be able to void mask of upper bits		; FIXME: Should be able to void mask of upper bits
; VI-DAG: s_and_b32 [[ELT0]], [[ELT0]], 0xffff{{$}}		; VI-DAG: s_and_b32 [[ELT_MASKED:s[0-9]+]], [[ELT_LOAD]], 0xffff{{$}}
; VI-DAG: s_and_b32 [[VEC_HIMASK:s[0-9]+]], [[VEC]], 0xffff0000{{$}}		; VI-DAG: s_and_b32 [[VEC_HIMASK:s[0-9]+]], [[VEC]], 0xffff0000{{$}}
; VI: s_or_b32 [[OR:s[0-9]+]], [[ELT0]], [[VEC_HIMASK]]		; VI-DAG: s_or_b32 [[OR:s[0-9]+]], [[ELT_MASKED]], [[VEC_HIMASK]]
; VI: s_lshr_b32 [[SHR:s[0-9]+]], [[VEC]], 16		; VI-DAG: s_lshr_b32 [[SHR:s[0-9]+]], [[VEC]], 16

; VI-DAG: ; use [[SHR]]		; VI-DAG: ; use [[SHR]]


; GFX9: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], 16		; GFX9: s_lshr_b32 [[ELT1:s[0-9]+]], [[VEC]], 16
; GFX9-DAG: s_pack_ll_b32_b16 s{{[0-9]+}}, [[ELT0]], [[ELT1]]		; GFX9-DAG: s_pack_ll_b32_b16 s{{[0-9]+}}, [[ELT_LOAD]], [[ELT1]]
; GFX9-DAG: ; use [[ELT1]]		; GFX9-DAG: ; use [[ELT1]]
define amdgpu_kernel void @s_insertelement_v2i16_0_multi_use_hi_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i16 %elt) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_multi_use_hi_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt1 = extractelement <2 x i16> %vec, i32 1		%elt1 = extractelement <2 x i16> %vec, i32 1
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
%use1 = zext i16 %elt1 to i32		%use1 = zext i16 %elt1 to i32
call void asm sideeffect "; use $0", "s"(i32 %use1) #0		call void asm sideeffect "; use $0", "s"(i32 %use1) #0
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reghi:		; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reghi:
; GCN: s_load_dword [[ELT_ARG:s[0-9]+]], s[0:1]		; GCN-DAG: s_load_dword [[ELT_ARG:s[0-9]+]], s[4:5],
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN-DAG: s_load_dword [[VEC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

		; CIVI: s_lshr_b32 [[ELT_HI:s[0-9]+]], [[ELT_ARG]], 16
; CIVI-DAG: s_and_b32 [[ELT1:s[0-9]+]], [[VEC]], 0xffff0000{{$}}		; CIVI-DAG: s_and_b32 [[ELT1:s[0-9]+]], [[VEC]], 0xffff0000{{$}}
; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT_ARG]], [[ELT1]]		; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT_HI]], [[ELT1]]

; GFX9-NOT: [[ELT0]]		; GFX9-NOT: [[ELT0]]
; GFX9-NOT: [[VEC]]		; GFX9-NOT: [[VEC]]
; GFX9: s_pack_hh_b32_b16 s{{[0-9]+}}, [[ELT_ARG]], [[VEC]]		; GFX9: s_pack_hh_b32_b16 s{{[0-9]+}}, [[ELT_ARG]], [[VEC]]
define amdgpu_kernel void @s_insertelement_v2i16_0_reghi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %elt.arg) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_reghi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i32 %elt.arg) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt.hi = lshr i32 %elt.arg, 16		%elt.hi = lshr i32 %elt.arg, 16
%elt = trunc i32 %elt.hi to i16		%elt = trunc i32 %elt.hi to i16
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reghi_multi_use_1:		; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reghi_multi_use_1:
; GCN: s_load_dword [[ELT_ARG:s[0-9]+]], s[0:1]		; GCN: s_load_dword [[ELT_ARG:s[0-9]+]],
; GCN: s_load_dword [[VEC:s[0-9]+]],		; GCN: s_load_dword [[VEC:s[0-9]+]],

; CIVI-DAG: s_lshr_b32 [[ELT1:s[0-9]+]], [[ELT_ARG]], 16		; CIVI-DAG: s_lshr_b32 [[ELT1:s[0-9]+]], [[ELT_ARG]], 16
; CIVI-DAG: s_and_b32 [[ELT0:s[0-9]+]], [[VEC]], 0xffff0000{{$}}		; CIVI-DAG: s_and_b32 [[ELT0:s[0-9]+]], [[VEC]], 0xffff0000{{$}}
; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT1]], [[ELT0]]		; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT1]], [[ELT0]]

; GFX9: s_lshr_b32 [[ELT1:s[0-9]+]], [[ELT_ARG]], 16		; GFX9: s_lshr_b32 [[ELT1:s[0-9]+]], [[ELT_ARG]], 16
; GFX9: s_pack_lh_b32_b16 s{{[0-9]+}}, [[ELT1]], [[VEC]]		; GFX9: s_pack_lh_b32_b16 s{{[0-9]+}}, [[ELT1]], [[VEC]]
; GFX9: ; use [[ELT1]]		; GFX9: ; use [[ELT1]]
define amdgpu_kernel void @s_insertelement_v2i16_0_reghi_multi_use_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %elt.arg) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_reghi_multi_use_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %elt.arg) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt.hi = lshr i32 %elt.arg, 16		%elt.hi = lshr i32 %elt.arg, 16
%elt = trunc i32 %elt.hi to i16		%elt = trunc i32 %elt.hi to i16
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
%use1 = zext i16 %elt to i32		%use1 = zext i16 %elt to i32
call void asm sideeffect "; use $0", "s"(i32 %use1) #0		call void asm sideeffect "; use $0", "s"(i32 %use1) #0
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reghi_both_multi_use_1:		; GCN-LABEL: {{^}}s_insertelement_v2i16_0_reghi_both_multi_use_1:
; GCN: s_load_dword [[ELT_ARG:s[0-9]+]], s[0:1]		; GCN: s_load_dword [[ELT_ARG:s[0-9]+]],
; GCN: s_load_dword [[VEC:s[0-9]+]],		; GCN: s_load_dword [[VEC:s[0-9]+]],

; CI-DAG: s_lshr_b32 [[ELT_HI:s[0-9]+]], [[ELT_ARG]], 16		; CI-DAG: s_lshr_b32 [[ELT_HI:s[0-9]+]], [[ELT_ARG]], 16
; CI-DAG: s_lshr_b32 [[SHR:s[0-9]+]], [[VEC]], 16		; CI-DAG: s_lshr_b32 [[SHR:s[0-9]+]], [[VEC]], 16
; CI-DAG: s_lshl_b32 [[VEC_HI:s[0-9]+]], [[SHR]], 16		; CI-DAG: s_lshl_b32 [[VEC_HI:s[0-9]+]], [[SHR]], 16
; CI: s_or_b32 s{{[0-9]+}}, [[ELT_HI]], [[VEC_HI]]		; CI: s_or_b32 s{{[0-9]+}}, [[ELT_HI]], [[VEC_HI]]


Show All 34 Lines
define amdgpu_kernel void @s_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%vecins = insertelement <2 x i16> %vec, i16 999, i32 1		%vecins = insertelement <2 x i16> %vec, i16 999, i32 1
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_insertelement_v2i16_1_reg:		; GCN-LABEL: {{^}}s_insertelement_v2i16_1_reg:
; GCN: s_load_dword [[ELT1:s[0-9]+]]		; GCN-DAG: s_load_dword [[ELT1_LOAD:s[0-9]+]], s[4:5],
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN-DAG: s_load_dword [[VEC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

		; CIVI: s_lshl_b32 [[ELT1:s[0-9]+]], [[ELT1_LOAD]], 16
; CIVI: s_and_b32 [[ELT0:s[0-9]+]], [[VEC]], 0xffff{{$}}		; CIVI: s_and_b32 [[ELT0:s[0-9]+]], [[VEC]], 0xffff{{$}}
; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT0]], [[ELT1]]		; CIVI: s_or_b32 s{{[0-9]+}}, [[ELT0]], [[ELT1]]

; GCN-NOT: shlr		; GCN-NOT: shlr
; GFX9: s_pack_ll_b32_b16 s{{[0-9]+}}, [[VEC]], [[ELT1]]		; GFX9: s_pack_ll_b32_b16 s{{[0-9]+}}, [[VEC]], [[ELT1_LOAD]]
define amdgpu_kernel void @s_insertelement_v2i16_1_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i16 %elt) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_1_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 1		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 1
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_insertelement_v2f16_0:		; GCN-LABEL: {{^}}s_insertelement_v2f16_0:
; GCN: s_load_dword [[VEC:s[0-9]+]]		; GCN: s_load_dword [[VEC:s[0-9]+]]
▲ Show 20 Lines • Show All 258 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_insertelement_v2i16_dynamic_sgpr(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 %idx) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx		%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:		; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:
; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}		; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
; CI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e7		; GCN-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e7

; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]		; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]
; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]		; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]

; GFX89-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e7
; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]		; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]		; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]

; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]		; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]		; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]

; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]		; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]
; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_insertelement_v2i16_dynamic_vgpr(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_dynamic_vgpr(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext		%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%idx = load i32, i32 addrspace(1)* %idx.gep		%idx = load i32, i32 addrspace(1)* %idx.gep
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx		%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2f16_dynamic_vgpr:		; GCN-LABEL: {{^}}v_insertelement_v2f16_dynamic_vgpr:
; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}		; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
; CI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x1234		; GCN-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x1234

; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]		; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]
; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]		; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]

; GFX89-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x1234
; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]		; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]		; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]

; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]		; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]		; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]

; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]		; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]
; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_insertelement_v2f16_dynamic_vgpr(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_dynamic_vgpr(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext		%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%idx = load i32, i32 addrspace(1)* %idx.gep		%idx = load i32, i32 addrspace(1)* %idx.gep
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
%vecins = insertelement <2 x half> %vec, half 0xH1234, i32 %idx		%vecins = insertelement <2 x half> %vec, half 0xH1234, i32 %idx
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v4f16_0:		; GCN-LABEL: {{^}}v_insertelement_v4f16_0:
; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]		; GCN-DAG: s_load_dword [[VAL:s[0-9]+]], s[4:5],
; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}		; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}

; GFX9-DAG: v_mov_b32_e32 [[BFI_MASK:v[0-9]+]], 0xffff{{$}}		; GFX9-DAG: v_mov_b32_e32 [[BFI_MASK:v[0-9]+]], 0xffff{{$}}
; GFX9: v_bfi_b32 v[[INS_LO:[0-9]+]], [[BFI_MASK]], [[VAL]], v[[LO]]		; GFX9: v_bfi_b32 v[[INS_LO:[0-9]+]], [[BFI_MASK]], [[VAL]], v[[LO]]

		; CIVI: s_and_b32 [[VAL_MASKED:s[0-9]+]], [[VAL]], 0xffff{{$}}
; CIVI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff0000, v[[LO]]		; CIVI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff0000, v[[LO]]
; CIVI: v_or_b32_e32 v[[INS_LO:[0-9]+]], [[VAL]], [[AND]]		; CIVI: v_or_b32_e32 v[[INS_LO:[0-9]+]], [[VAL_MASKED]], [[AND]]

; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[INS_LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[INS_LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @v_insertelement_v4f16_0(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_0(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, [8 x i32], i32 %val) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep		%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 0		%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 0
store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep		store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v4f16_1:		; GCN-LABEL: {{^}}v_insertelement_v4f16_1:
; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]		; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]
; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}		; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}

; GFX9: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[LO]]		; GFX9: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[LO]]
; GFX9: v_lshl_or_b32 v[[INS_HALF:[0-9]+]], [[VAL]], 16, [[AND]]		; GFX9: v_lshl_or_b32 v[[INS_HALF:[0-9]+]], [[VAL]], 16, [[AND]]

; VI: s_lshl_b32 [[VAL]], [[VAL]], 16		; VI: s_lshl_b32 [[VAL_HI:s[0-9]+]], [[VAL]], 16
; VI-DAG: v_mov_b32_e32 [[COPY_VAL:v[0-9]+]], [[VAL]]		; VI-DAG: v_mov_b32_e32 [[COPY_VAL:v[0-9]+]], [[VAL_HI]]
; VI: v_or_b32_sdwa v[[INS_HALF:[0-9]+]], v[[LO]], [[COPY_VAL]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; VI: v_or_b32_sdwa v[[INS_HALF:[0-9]+]], v[[LO]], [[COPY_VAL]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

		; CI: s_lshl_b32 [[VAL_HI:s[0-9]+]], [[VAL]], 16
; CI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[LO]]		; CI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[LO]]
; CI: v_or_b32_e32 v[[INS_HALF:[0-9]+]], [[VAL]], [[AND]]		; CI: v_or_b32_e32 v[[INS_HALF:[0-9]+]], [[VAL_HI]], [[AND]]

; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[INS_HALF]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[INS_HALF]]:[[HI]]{{\]}}
define amdgpu_kernel void @v_insertelement_v4f16_1(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_1(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep		%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 1		%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 1
store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep		store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v4f16_2:		; GCN-LABEL: {{^}}v_insertelement_v4f16_2:
; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]		; GCN-DAG: s_load_dword [[VAL:s[0-9]+]], s[4:5],
; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}		; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}

; GFX9-DAG: v_mov_b32_e32 [[BFI_MASK:v[0-9]+]], 0xffff{{$}}		; GFX9-DAG: v_mov_b32_e32 [[BFI_MASK:v[0-9]+]], 0xffff{{$}}
; GFX9: v_bfi_b32 v[[INS_HI:[0-9]+]], [[BFI_MASK]], [[VAL]], v[[HI]]		; GFX9: v_bfi_b32 v[[INS_HI:[0-9]+]], [[BFI_MASK]], [[VAL]], v[[HI]]

		; CIVI: s_and_b32 [[VAL_MASKED:s[0-9]+]], [[VAL]], 0xffff{{$}}
; CIVI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff0000, v[[HI]]		; CIVI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff0000, v[[HI]]
; CIVI: v_or_b32_e32 v[[INS_HI:[0-9]+]], [[VAL]], [[AND]]		; CIVI: v_or_b32_e32 v[[INS_HI:[0-9]+]], [[VAL_MASKED]], [[AND]]

; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[INS_HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[INS_HI]]{{\]}}
define amdgpu_kernel void @v_insertelement_v4f16_2(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_2(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, [8 x i32], i32 %val) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep		%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 2		%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 2
store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep		store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v4f16_3:		; GCN-LABEL: {{^}}v_insertelement_v4f16_3:
; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]		; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]
; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}		; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}

; GFX9: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[HI]]		; GFX9: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[HI]]
; GFX9: v_lshl_or_b32 v[[INS_HI:[0-9]+]], [[VAL]], 16, [[AND]]		; GFX9: v_lshl_or_b32 v[[INS_HI:[0-9]+]], [[VAL]], 16, [[AND]]

; VI: s_lshl_b32 [[VAL]], [[VAL]], 16		; VI: s_lshl_b32 [[VAL_HI:s[0-9]+]], [[VAL]], 16
; VI-DAG: v_mov_b32_e32 [[COPY_VAL:v[0-9]+]], [[VAL]]		; VI-DAG: v_mov_b32_e32 [[COPY_VAL:v[0-9]+]], [[VAL_HI]]
; VI: v_or_b32_sdwa v[[INS_HI:[0-9]+]], v[[HI]], [[COPY_VAL]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; VI: v_or_b32_sdwa v[[INS_HI:[0-9]+]], v[[HI]], [[COPY_VAL]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

		; CI: s_lshl_b32 [[VAL_HI:s[0-9]+]], [[VAL]], 16
; CI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[HI]]		; CI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, v[[HI]]
; CI: v_or_b32_e32 v[[INS_HI:[0-9]+]], [[VAL]], [[AND]]		; CI: v_or_b32_e32 v[[INS_HI:[0-9]+]], [[VAL_HI]], [[AND]]

; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[INS_HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[INS_HI]]{{\]}}
define amdgpu_kernel void @v_insertelement_v4f16_3(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_3(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep		%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 3		%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 3
store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep		store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v4i16_2:		; GCN-LABEL: {{^}}v_insertelement_v4i16_2:
; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]		; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]
; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}		; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}

; GFX9-DAG: v_mov_b32_e32 [[BFI_MASK:v[0-9]+]], 0xffff{{$}}		; GFX9-DAG: v_mov_b32_e32 [[BFI_MASK:v[0-9]+]], 0xffff{{$}}
; GFX9: v_bfi_b32 v[[INS_HI:[0-9]+]], [[BFI_MASK]], [[VAL]], v[[HI]]		; GFX9: v_bfi_b32 v[[INS_HI:[0-9]+]], [[BFI_MASK]], [[VAL]], v[[HI]]

		; CIVI: s_and_b32 [[VAL_MASKED:s[0-9]+]], [[VAL]], 0xffff{{$}}
; CIVI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff0000, v[[HI]]		; CIVI: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff0000, v[[HI]]
; CIVI: v_or_b32_e32 v[[INS_HI:[0-9]+]], [[VAL]], [[AND]]		; CIVI: v_or_b32_e32 v[[INS_HI:[0-9]+]], [[VAL_MASKED]], [[AND]]

; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[INS_HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[INS_HI]]{{\]}}
define amdgpu_kernel void @v_insertelement_v4i16_2(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4i16_2(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep		%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep
▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/kernel-args.ll

	Show First 20 Lines • Show All 204 Lines • ▼ Show 20 Lines
	; FUNC-LABEL: {{^}}v3i8_arg:			; FUNC-LABEL: {{^}}v3i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 40			; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 40
	; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 41			; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 41
	; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 42			; EG-DAG: VTX_READ_8 T{{[0-9]}}.X, T{{[0-9]}}.X, 42

	; GCN: s_load_dword s			; SI: s_load_dword s{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; GCN-NOT: {{buffer\|flat\|global}}_load_
				; VI-MESA: s_load_dword s{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
				; VI-HSA: s_load_dword s{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, 0x8
	define amdgpu_kernel void @v3i8_arg(<3 x i8> addrspace(1)* nocapture %out, <3 x i8> %in) nounwind {			define amdgpu_kernel void @v3i8_arg(<3 x i8> addrspace(1)* nocapture %out, <3 x i8> %in) nounwind {
	entry:			entry:
	store <3 x i8> %in, <3 x i8> addrspace(1)* %out, align 4			store <3 x i8> %in, <3 x i8> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v3i16_arg:			; FUNC-LABEL: {{^}}v3i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 16			; HSA-VI: kernarg_segment_byte_size = 16
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4

	; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 44			; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 44
	; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 46			; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 46
	; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 48			; EG-DAG: VTX_READ_16 T{{[0-9]}}.X, T{{[0-9]}}.X, 48

	; SI: s_load_dword s			; SI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; SI: s_load_dword s

	; VI-HSA: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x8			; VI-HSA: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x8
	; VI-MESA: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI-MESA: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	define amdgpu_kernel void @v3i16_arg(<3 x i16> addrspace(1)* nocapture %out, <3 x i16> %in) nounwind {			define amdgpu_kernel void @v3i16_arg(<3 x i16> addrspace(1)* nocapture %out, <3 x i16> %in) nounwind {
	entry:			entry:
	store <3 x i16> %in, <3 x i16> addrspace(1)* %out, align 4			store <3 x i16> %in, <3 x i16> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v3i32_arg:			; FUNC-LABEL: {{^}}v3i32_arg:
	; HSA-VI: kernarg_segment_byte_size = 32			; HSA-VI: kernarg_segment_byte_size = 32
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Y			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Y
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Z			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Z
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].W			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].W
	; SI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0xd			; SI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0xd
	; MESA-VI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x34			; MESA-VI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x34
	Show All 22 Lines
	; FUNC-LABEL: {{^}}v4i8_arg:			; FUNC-LABEL: {{^}}v4i8_arg:
	; HSA-VI: kernarg_segment_byte_size = 12			; HSA-VI: kernarg_segment_byte_size = 12
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8

	; GCN: s_load_dword s			; GCN-DAG: s_load_dwordx2 s
	; GCN-NOT: {{buffer\|flat\|global}}_load_			; GCN-DAG: s_load_dword s
	define amdgpu_kernel void @v4i8_arg(<4 x i8> addrspace(1)* %out, <4 x i8> %in) {			define amdgpu_kernel void @v4i8_arg(<4 x i8> addrspace(1)* %out, <4 x i8> %in) {
	entry:			entry:
	store <4 x i8> %in, <4 x i8> addrspace(1)* %out			store <4 x i8> %in, <4 x i8> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v4i16_arg:			; FUNC-LABEL: {{^}}v4i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 16			; HSA-VI: kernarg_segment_byte_size = 16
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16

	; SI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0xb
	; SI-DAG: s_load_dword s{{[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, 0xc
	; SI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x9			; SI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x9

	; MESA-VI: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x2c			; MESA-VI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x24
	; HSA-VI: s_load_dwordx2 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x8			; MESA-VI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x2c


				; MESA-VI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x24
				; MESA-VI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x2c

				; HSA-VI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x0
				; HSA-VI-DAG: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x8
	define amdgpu_kernel void @v4i16_arg(<4 x i16> addrspace(1)* %out, <4 x i16> %in) {			define amdgpu_kernel void @v4i16_arg(<4 x i16> addrspace(1)* %out, <4 x i16> %in) {
	entry:			entry:
	store <4 x i16> %in, <4 x i16> addrspace(1)* %out			store <4 x i16> %in, <4 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v4i32_arg:			; FUNC-LABEL: {{^}}v4i32_arg:
	; HSA-VI: kernarg_segment_byte_size = 32			; HSA-VI: kernarg_segment_byte_size = 32
	Show All 36 Lines
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8

				; SI-NOT: {{buffer\|flat\|global}}_load
	; SI: s_load_dword s
	; SI: s_load_dword s
	; SI: s_load_dwordx2 s			; SI: s_load_dwordx2 s
				; SI-NEXT: s_load_dwordx2 s
	; SI-NOT: {{buffer\|flat\|global}}_load			; SI-NOT: {{buffer\|flat\|global}}_load

	; VI: s_load_dword s			; VI: s_load_dwordx2 s
	; VI: s_load_dword s			; VI-NEXT: s_load_dwordx2 s
				; VI-NOT: lshl
	; VI: v_lshlrev_b16			; VI-NOT: _or
	; VI: v_or_b32_e32			; VI-NOT: _sdwa
	; VI: v_or_b32_sdwa
	; VI: v_or_b32_sdwa
	; VI: v_lshlrev_b16
	; VI: s_lshr_b32
	; VI: v_or_b32_sdwa
	; VI: v_or_b32_sdwa
	define amdgpu_kernel void @v8i8_arg(<8 x i8> addrspace(1)* %out, <8 x i8> %in) {			define amdgpu_kernel void @v8i8_arg(<8 x i8> addrspace(1)* %out, <8 x i8> %in) {
	entry:			entry:
	store <8 x i8> %in, <8 x i8> addrspace(1)* %out			store <8 x i8> %in, <8 x i8> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v8i16_arg:			; FUNC-LABEL: {{^}}v8i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 32			; HSA-VI: kernarg_segment_byte_size = 32
	; HSA-VI: kernarg_segment_alignment = 4			; HSA-VI: kernarg_segment_alignment = 4
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16

	; SI: s_load_dword s			; SI: s_load_dwordx4
	; SI: s_load_dword s			; SI-NEXT: s_load_dwordx2
	; SI: s_load_dword s
	; SI: s_load_dword s
	; SI: s_load_dwordx2
	; SI-NOT: {{buffer\|flat\|global}}_load			; SI-NOT: {{buffer\|flat\|global}}_load


	; MESA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x34			; MESA-VI: s_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x34
	; MESA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x3c

	; HSA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x10			; HSA-VI: s_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x10
	; HSA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x18
	define amdgpu_kernel void @v8i16_arg(<8 x i16> addrspace(1)* %out, <8 x i16> %in) {			define amdgpu_kernel void @v8i16_arg(<8 x i16> addrspace(1)* %out, <8 x i16> %in) {
	entry:			entry:
	store <8 x i16> %in, <8 x i16> addrspace(1)* %out			store <8 x i16> %in, <8 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v8i32_arg:			; FUNC-LABEL: {{^}}v8i32_arg:
	; HSA-VI: kernarg_segment_byte_size = 64			; HSA-VI: kernarg_segment_byte_size = 64
	; HSA-VI: kernarg_segment_alignment = 5			; HSA-VI: kernarg_segment_alignment = 5
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[4].Y			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[4].Y
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[4].Z			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[4].Z
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[4].W			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[4].W
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].X			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].X
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].Y			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].Y
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].Z			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].Z
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].W			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[5].W
	; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[6].X			; EG-DAG: T{{[0-9]\.[XYZW]}}, KC0[6].X

	; SI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x11			; SI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x11
	; MESA-VI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x44			; MESA-VI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x44
	; HSA-VI: s_load_dwordx8 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x20			; HSA-VI: s_load_dwordx8 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x20
	define amdgpu_kernel void @v8i32_arg(<8 x i32> addrspace(1)* nocapture %out, <8 x i32> %in) nounwind {			define amdgpu_kernel void @v8i32_arg(<8 x i32> addrspace(1)* nocapture %out, <8 x i32> %in) nounwind {
	entry:			entry:
	store <8 x i32> %in, <8 x i32> addrspace(1)* %out, align 4			store <8 x i32> %in, <8 x i32> addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	Show All 33 Lines
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8
	; EG: VTX_READ_8			; EG: VTX_READ_8

	; SI: s_load_dword s			; SI: s_load_dwordx4 s
	; SI: s_load_dword s			; SI-NEXT: s_load_dwordx2 s
	; SI: s_load_dword s
	; SI: s_load_dword s
	; SI: s_load_dwordx2
	; SI-NOT: {{buffer\|flat\|global}}_load			; SI-NOT: {{buffer\|flat\|global}}_load


	; VI: s_load_dword s			; VI: s_load_dwordx4 s
	; VI: s_load_dword s			; VI-NOT: shr
	; VI: s_load_dword s			; VI-NOT: shl
	; VI: s_load_dword s			; VI-NOT: _sdwa
				; VI-NOT: _or_
	; VI: s_lshr_b32
	; VI: v_lshlrev_b16
	; VI: s_lshr_b32
	; VI: s_lshr_b32
	; VI: v_or_b32_sdwa
	; VI: v_or_b32_sdwa
	; VI: v_lshlrev_b16
	; VI: v_lshlrev_b16
	; VI: v_or_b32_sdwa
	; VI: v_or_b32_sdwa
	; VI: v_lshlrev_b16
	; VI: v_lshlrev_b16
	; VI: v_or_b32_sdwa
	; VI: v_or_b32_sdwa
	define amdgpu_kernel void @v16i8_arg(<16 x i8> addrspace(1)* %out, <16 x i8> %in) {			define amdgpu_kernel void @v16i8_arg(<16 x i8> addrspace(1)* %out, <16 x i8> %in) {
	entry:			entry:
	store <16 x i8> %in, <16 x i8> addrspace(1)* %out			store <16 x i8> %in, <16 x i8> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v16i16_arg:			; FUNC-LABEL: {{^}}v16i16_arg:
	; HSA-VI: kernarg_segment_byte_size = 64			; HSA-VI: kernarg_segment_byte_size = 64
	Show All 11 Lines
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16
	; EG: VTX_READ_16			; EG: VTX_READ_16

	; SI: s_load_dword s			; SI: s_load_dwordx8 s
	; SI: s_load_dword s			; SI-NEXT: s_load_dwordx2 s
	; SI: s_load_dword s
	; SI: s_load_dword s
	; SI: s_load_dword s
	; SI: s_load_dword s
	; SI: s_load_dword s
	; SI: s_load_dword s

	; SI-NOT: {{buffer\|flat\|global}}_load			; SI-NOT: {{buffer\|flat\|global}}_load


	; MESA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x44			; MESA-VI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x44
	; MESA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x4c
	; MESA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x54			; HSA-VI: s_load_dwordx8 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x20
	; MESA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[0:1], 0x5c

	; HSA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x20
	; HSA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x28
	; HSA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x30
	; HSA-VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x38
	define amdgpu_kernel void @v16i16_arg(<16 x i16> addrspace(1)* %out, <16 x i16> %in) {			define amdgpu_kernel void @v16i16_arg(<16 x i16> addrspace(1)* %out, <16 x i16> %in) {
	entry:			entry:
	store <16 x i16> %in, <16 x i16> addrspace(1)* %out			store <16 x i16> %in, <16 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v16i32_arg:			; FUNC-LABEL: {{^}}v16i32_arg:
	; HSA-VI: kernarg_segment_byte_size = 128			; HSA-VI: kernarg_segment_byte_size = 128
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; HSA-VI: s_load_dwordx16 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x40			; HSA-VI: s_load_dwordx16 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x40
	define amdgpu_kernel void @v16f32_arg(<16 x float> addrspace(1)* nocapture %out, <16 x float> %in) nounwind {			define amdgpu_kernel void @v16f32_arg(<16 x float> addrspace(1)* nocapture %out, <16 x float> %in) nounwind {
	entry:			entry:
	store <16 x float> %in, <16 x float> addrspace(1)* %out, align 4			store <16 x float> %in, <16 x float> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}kernel_arg_i64:			; FUNC-LABEL: {{^}}kernel_arg_i64:
	; MESA-GCN: s_load_dwordx2			; MESA-VI: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[0:1], 0x24
	; MESA-GCN: s_load_dwordx2			; HSA-VI: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x0

	; MESA-GCN: buffer_store_dwordx2			; MESA-GCN: buffer_store_dwordx2
	; HSA-VI: s_load_dwordx2 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x8
	define amdgpu_kernel void @kernel_arg_i64(i64 addrspace(1)* %out, i64 %a) nounwind {			define amdgpu_kernel void @kernel_arg_i64(i64 addrspace(1)* %out, i64 %a) nounwind {
	store i64 %a, i64 addrspace(1)* %out, align 8			store i64 %a, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}f64_kernel_arg:			; FUNC-LABEL: {{^}}f64_kernel_arg:
	; SI-DAG: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[0:1], 0x9			; SI-DAG: s_load_dwordx4 s[{{[0-9]:[0-9]}}], s[0:1], 0x9
	; SI-DAG: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[0:1], 0xb			; MESA-VI-DAG: s_load_dwordx4 s[{{[0-9]:[0-9]}}], s[0:1], 0x24
	; MESA-VI-DAG: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[0:1], 0x24
	; MESA-VI-DAG: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[0:1], 0x2c
	; MESA-GCN: buffer_store_dwordx2			; MESA-GCN: buffer_store_dwordx2
	; HSA-VI: s_load_dwordx2 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x8
				; HSA-VI: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x0
	define amdgpu_kernel void @f64_kernel_arg(double addrspace(1)* %out, double %in) {			define amdgpu_kernel void @f64_kernel_arg(double addrspace(1)* %out, double %in) {
	entry:			entry:
	store double %in, double addrspace(1)* %out			store double %in, double addrspace(1)* %out
	ret void			ret void
	}			}

	; XFUNC-LABEL: {{^}}kernel_arg_v1i64:			; XFUNC-LABEL: {{^}}kernel_arg_v1i64:
	; XGCN: s_load_dwordx2			; XGCN: s_load_dwordx2
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.buffer.store.format.d16.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,UNPACKED %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,UNPACKED %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX81 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX81 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,PACKED,GFX9 %s

	; GCN-LABEL: {{^}}buffer_store_format_d16_x:			; GCN-LABEL: {{^}}buffer_store_format_d16_x:
	; GCN: s_load_dword s[[LO:[0-9]+]]			; GCN: s_load_dword s[[LO:[0-9]+]]
	; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[LO]]			; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[LO]]
	; GCN: buffer_store_format_d16_x v[[V_LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen			; GCN: buffer_store_format_d16_x v[[V_LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen
	define amdgpu_kernel void @buffer_store_format_d16_x(<4 x i32> %rsrc, half %data, i32 %index) {			define amdgpu_kernel void @buffer_store_format_d16_x(<4 x i32> %rsrc, [8 x i32], half %data, [8 x i32], i32 %index) {
	main_body:			main_body:
	call void @llvm.amdgcn.buffer.store.format.f16(half %data, <4 x i32> %rsrc, i32 %index, i32 0, i1 0, i1 0)			call void @llvm.amdgcn.buffer.store.format.f16(half %data, <4 x i32> %rsrc, i32 %index, i32 0, i1 0, i1 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_format_d16_xy:			; GCN-LABEL: {{^}}buffer_store_format_d16_xy:

	; UNPACKED: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10			; UNPACKED: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10
	Show All 40 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.class.f16.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s

	declare half @llvm.fabs.f16(half %a)			declare half @llvm.fabs.f16(half %a)
	declare i1 @llvm.amdgcn.class.f16(half %a, i32 %b)			declare i1 @llvm.amdgcn.class.f16(half %a, i32 %b)

	; GCN-LABEL: {{^}}class_f16:			; GCN-LABEL: {{^}}class_f16:
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN-DAG: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_dword v[[B_I32:[0-9]+]]			; GCN-DAG: buffer_load_dword v[[B_I32:[0-9]+]]
	; VI: v_cmp_class_f16_e32 vcc, v[[A_F16]], v[[B_I32]]			; VI: v_cmp_class_f16_e32 vcc, v[[A_F16]], v[[B_I32]]
	; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]			; GCN: v_cndmask_b32_e64 v[[R_I32:[0-9]+]]
	; GCN: buffer_store_dword v[[R_I32]]			; GCN: buffer_store_dword v[[R_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @class_f16(			define amdgpu_kernel void @class_f16(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	i32 addrspace(1)* %b) {			i32 addrspace(1)* %b) {
	Show All 11 Lines
	; GCN: s_load_dword s[[SB_I32:[0-9]+]]			; GCN: s_load_dword s[[SB_I32:[0-9]+]]
	; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]			; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]
	; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|s[[SA_F16]]\|, [[V_B_I32]]			; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|s[[SA_F16]]\|, [[V_B_I32]]
	; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]			; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
	; GCN: buffer_store_dword v[[VR_I32]]			; GCN: buffer_store_dword v[[VR_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @class_f16_fabs(			define amdgpu_kernel void @class_f16_fabs(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
				[8 x i32],
	half %a.val,			half %a.val,
				[8 x i32],
	i32 %b.val) {			i32 %b.val) {
	entry:			entry:
	%a.val.fabs = call half @llvm.fabs.f16(half %a.val)			%a.val.fabs = call half @llvm.fabs.f16(half %a.val)
	%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs, i32 %b.val)			%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs, i32 %b.val)
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}class_f16_fneg:			; GCN-LABEL: {{^}}class_f16_fneg:
	; GCN: s_load_dword s[[SA_F16:[0-9]+]]			; GCN: s_load_dword s[[SA_F16:[0-9]+]]
	; GCN: s_load_dword s[[SB_I32:[0-9]+]]			; GCN: s_load_dword s[[SB_I32:[0-9]+]]
	; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]			; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]
	; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -s[[SA_F16]], [[V_B_I32]]			; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -s[[SA_F16]], [[V_B_I32]]
	; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]			; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
	; GCN: buffer_store_dword v[[VR_I32]]			; GCN: buffer_store_dword v[[VR_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @class_f16_fneg(			define amdgpu_kernel void @class_f16_fneg(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
				[8 x i32],
	half %a.val,			half %a.val,
				[8 x i32],
	i32 %b.val) {			i32 %b.val) {
	entry:			entry:
	%a.val.fneg = fsub half -0.0, %a.val			%a.val.fneg = fsub half -0.0, %a.val
	%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fneg, i32 %b.val)			%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fneg, i32 %b.val)
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}class_f16_fabs_fneg:			; GCN-LABEL: {{^}}class_f16_fabs_fneg:
	; GCN: s_load_dword s[[SA_F16:[0-9]+]]			; GCN: s_load_dword s[[SA_F16:[0-9]+]]
	; GCN: s_load_dword s[[SB_I32:[0-9]+]]			; GCN: s_load_dword s[[SB_I32:[0-9]+]]
	; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]			; GCN: v_mov_b32_e32 [[V_B_I32:v[0-9]+]], s[[SB_I32]]
	; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|s[[SA_F16]]\|, [[V_B_I32]]			; VI: v_cmp_class_f16_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|s[[SA_F16]]\|, [[V_B_I32]]
	; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]			; VI: v_cndmask_b32_e64 v[[VR_I32:[0-9]+]], 0, -1, [[CMP]]
	; GCN: buffer_store_dword v[[VR_I32]]			; GCN: buffer_store_dword v[[VR_I32]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @class_f16_fabs_fneg(			define amdgpu_kernel void @class_f16_fabs_fneg(
	i32 addrspace(1)* %r,			i32 addrspace(1)* %r,
				[8 x i32],
	half %a.val,			half %a.val,
				[8 x i32],
	i32 %b.val) {			i32 %b.val) {
	entry:			entry:
	%a.val.fabs = call half @llvm.fabs.f16(half %a.val)			%a.val.fabs = call half @llvm.fabs.f16(half %a.val)
	%a.val.fabs.fneg = fsub half -0.0, %a.val.fabs			%a.val.fabs.fneg = fsub half -0.0, %a.val.fabs
	%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs.fneg, i32 %b.val)			%r.val = call i1 @llvm.amdgcn.class.f16(half %a.val.fabs.fneg, i32 %b.val)
	%r.val.sext = sext i1 %r.val to i32			%r.val.sext = sext i1 %r.val to i32
	store i32 %r.val.sext, i32 addrspace(1)* %r			store i32 %r.val.sext, i32 addrspace(1)* %r
	ret void			ret void
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.class.ll

; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI %s		; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=SI %s

declare i1 @llvm.amdgcn.class.f32(float, i32) #1		declare i1 @llvm.amdgcn.class.f32(float, i32) #1
declare i1 @llvm.amdgcn.class.f64(double, i32) #1		declare i1 @llvm.amdgcn.class.f64(double, i32) #1
declare i32 @llvm.amdgcn.workitem.id.x() #1		declare i32 @llvm.amdgcn.workitem.id.x() #1
declare float @llvm.fabs.f32(float) #1		declare float @llvm.fabs.f32(float) #1
declare double @llvm.fabs.f64(double) #1		declare double @llvm.fabs.f64(double) #1

; SI-LABEL: {{^}}test_class_f32:		; SI-LABEL: {{^}}test_class_f32:
; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f32_e32 vcc, [[SA]], [[VB]]		; SI: v_cmp_class_f32_e32 vcc, [[SA]], [[VB]]
; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, vcc		; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, vcc
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_f32(i32 addrspace(1)* %out, float %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_f32(i32 addrspace(1)* %out, [8 x i32], float %a, [8 x i32], i32 %b) #0 {
%result = call i1 @llvm.amdgcn.class.f32(float %a, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f32(float %a, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_class_fabs_f32:		; SI-LABEL: {{^}}test_class_fabs_f32:
; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f32_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|[[SA]]\|, [[VB]]		; SI: v_cmp_class_f32_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|[[SA]]\|, [[VB]]
; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]		; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_fabs_f32(i32 addrspace(1)* %out, float %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_fabs_f32(i32 addrspace(1)* %out, [8 x i32], float %a, [8 x i32], i32 %b) #0 {
%a.fabs = call float @llvm.fabs.f32(float %a) #1		%a.fabs = call float @llvm.fabs.f32(float %a) #1
%result = call i1 @llvm.amdgcn.class.f32(float %a.fabs, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f32(float %a.fabs, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_class_fneg_f32:		; SI-LABEL: {{^}}test_class_fneg_f32:
; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f32_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -[[SA]], [[VB]]		; SI: v_cmp_class_f32_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -[[SA]], [[VB]]
; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]		; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_fneg_f32(i32 addrspace(1)* %out, float %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_fneg_f32(i32 addrspace(1)* %out, [8 x i32], float %a, [8 x i32], i32 %b) #0 {
%a.fneg = fsub float -0.0, %a		%a.fneg = fsub float -0.0, %a
%result = call i1 @llvm.amdgcn.class.f32(float %a.fneg, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f32(float %a.fneg, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_class_fneg_fabs_f32:		; SI-LABEL: {{^}}test_class_fneg_fabs_f32:
; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f32_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|[[SA]]\|, [[VB]]		; SI: v_cmp_class_f32_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|[[SA]]\|, [[VB]]
; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]		; SI-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_fneg_fabs_f32(i32 addrspace(1)* %out, float %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_fneg_fabs_f32(i32 addrspace(1)* %out, [8 x i32], float %a, [8 x i32], i32 %b) #0 {
%a.fabs = call float @llvm.fabs.f32(float %a) #1		%a.fabs = call float @llvm.fabs.f32(float %a) #1
%a.fneg.fabs = fsub float -0.0, %a.fabs		%a.fneg.fabs = fsub float -0.0, %a.fabs
%result = call i1 @llvm.amdgcn.class.f32(float %a.fneg.fabs, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f32(float %a.fneg.fabs, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_class_lit_constant_dynamic_mask_f32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {

%result = call i1 @llvm.amdgcn.class.f32(float 1024.0, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f32(float 1024.0, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %gep.out, align 4		store i32 %sext, i32 addrspace(1)* %gep.out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_class_f64:		; SI-LABEL: {{^}}test_class_f64:
; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1d
; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f64_e32 vcc, [[SA]], [[VB]]		; SI: v_cmp_class_f64_e32 vcc, [[SA]], [[VB]]
; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, vcc		; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, vcc
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_f64(i32 addrspace(1)* %out, double %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_f64(i32 addrspace(1)* %out, [8 x i32], double %a, [8 x i32], i32 %b) #0 {
%result = call i1 @llvm.amdgcn.class.f64(double %a, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f64(double %a, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_class_fabs_f64:		; SI-LABEL: {{^}}test_class_fabs_f64:
; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1d
; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f64_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|[[SA]]\|, [[VB]]		; SI: v_cmp_class_f64_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], \|[[SA]]\|, [[VB]]
; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]		; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_fabs_f64(i32 addrspace(1)* %out, double %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_fabs_f64(i32 addrspace(1)* %out, [8 x i32], double %a, [8 x i32], i32 %b) #0 {
%a.fabs = call double @llvm.fabs.f64(double %a) #1		%a.fabs = call double @llvm.fabs.f64(double %a) #1
%result = call i1 @llvm.amdgcn.class.f64(double %a.fabs, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f64(double %a.fabs, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_class_fneg_f64:		; SI-LABEL: {{^}}test_class_fneg_f64:
; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1d
; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f64_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -[[SA]], [[VB]]		; SI: v_cmp_class_f64_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -[[SA]], [[VB]]
; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]		; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_fneg_f64(i32 addrspace(1)* %out, double %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_fneg_f64(i32 addrspace(1)* %out, [8 x i32], double %a, [8 x i32], i32 %b) #0 {
%a.fneg = fsub double -0.0, %a		%a.fneg = fsub double -0.0, %a
%result = call i1 @llvm.amdgcn.class.f64(double %a.fneg, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f64(double %a.fneg, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_class_fneg_fabs_f64:		; SI-LABEL: {{^}}test_class_fneg_fabs_f64:
; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd		; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1d
; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]		; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
; SI: v_cmp_class_f64_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|[[SA]]\|, [[VB]]		; SI: v_cmp_class_f64_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], -\|[[SA]]\|, [[VB]]
; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]		; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, [[CMP]]
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_fneg_fabs_f64(i32 addrspace(1)* %out, double %a, i32 %b) #0 {		define amdgpu_kernel void @test_class_fneg_fabs_f64(i32 addrspace(1)* %out, [8 x i32], double %a, [8 x i32], i32 %b) #0 {
%a.fabs = call double @llvm.fabs.f64(double %a) #1		%a.fabs = call double @llvm.fabs.f64(double %a) #1
%a.fneg.fabs = fsub double -0.0, %a.fabs		%a.fneg.fabs = fsub double -0.0, %a.fabs
%result = call i1 @llvm.amdgcn.class.f64(double %a.fneg.fabs, i32 %b) #1		%result = call i1 @llvm.amdgcn.class.f64(double %a.fneg.fabs, i32 %b) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

Show All 14 Lines	define amdgpu_kernel void @test_class_64_f64(i32 addrspace(1)* %out, double %a) #0 {
%result = call i1 @llvm.amdgcn.class.f64(double %a, i32 64) #1		%result = call i1 @llvm.amdgcn.class.f64(double %a, i32 64) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; Set all 9 bits of mask		; Set all 9 bits of mask
; SI-LABEL: {{^}}test_class_full_mask_f64:		; SI-LABEL: {{^}}test_class_full_mask_f64:
; SI: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 [[SA:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x1ff{{$}}		; SI: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x1ff{{$}}
; SI: v_cmp_class_f64_e32 vcc, [[SA]], [[MASK]]		; SI: v_cmp_class_f64_e32 vcc, [[SA]], [[MASK]]
; SI-NOT: vcc		; SI-NOT: vcc
; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, vcc		; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, -1, vcc
; SI-NEXT: buffer_store_dword [[RESULT]]		; SI-NEXT: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_class_full_mask_f64(i32 addrspace(1)* %out, double %a) #0 {		define amdgpu_kernel void @test_class_full_mask_f64(i32 addrspace(1)* %out, [8 x i32], double %a) #0 {
%result = call i1 @llvm.amdgcn.class.f64(double %a, i32 511) #1		%result = call i1 @llvm.amdgcn.class.f64(double %a, i32 511) #1
%sext = sext i1 %result to i32		%sext = sext i1 %result to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}v_test_class_full_mask_f64:		; SI-LABEL: {{^}}v_test_class_full_mask_f64:
; SI-DAG: buffer_load_dwordx2 [[VA:v\[[0-9]+:[0-9]+\]]]		; SI-DAG: buffer_load_dwordx2 [[VA:v\[[0-9]+:[0-9]+\]]]
▲ Show 20 Lines • Show All 225 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pk.i16.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s

	; GCN-LABEL: {{^}}s_cvt_pk_i16_i32:			; GCN-LABEL: {{^}}s_cvt_pk_i16_i32:
	; GCN-DAG: s_load_dword [[X:s[0-9]+]], s[0:1], 0x{{b\|2c}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SX:[0-9]+]]:[[SY:[0-9]+]]{{\]}}, s[0:1], 0x{{b\|2c}}
	; GCN-DAG: s_load_dword [[SY:s[0-9]+]], s[0:1], 0x{{c\|30}}			; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], s[[SY]]
	; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], [[SY]]			; SI: v_cvt_pk_i16_i32_e32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; SI: v_cvt_pk_i16_i32_e32 v{{[0-9]+}}, [[X]], [[VY]]			; VI: v_cvt_pk_i16_i32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; VI: v_cvt_pk_i16_i32 v{{[0-9]+}}, [[X]], [[VY]]
	define amdgpu_kernel void @s_cvt_pk_i16_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) #0 {			define amdgpu_kernel void @s_cvt_pk_i16_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) #0 {
	%result = call <2 x i16> @llvm.amdgcn.cvt.pk.i16(i32 %x, i32 %y)			%result = call <2 x i16> @llvm.amdgcn.cvt.pk.i16(i32 %x, i32 %y)
	%r = bitcast <2 x i16> %result to i32			%r = bitcast <2 x i16> %result to i32
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_cvt_pk_i16_samereg_i32:			; GCN-LABEL: {{^}}s_cvt_pk_i16_samereg_i32:
	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pk.u16.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s

	; GCN-LABEL: {{^}}s_cvt_pk_u16_u32:			; GCN-LABEL: {{^}}s_cvt_pk_u16_u32:
	; GCN-DAG: s_load_dword [[X:s[0-9]+]], s[0:1], 0x{{b\|2c}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SX:[0-9]+]]:[[SY:[0-9]+]]{{\]}}, s[0:1], 0x{{b\|2c}}
	; GCN-DAG: s_load_dword [[SY:s[0-9]+]], s[0:1], 0x{{c\|30}}			; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], s[[SY]]
	; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], [[SY]]			; SI: v_cvt_pk_u16_u32_e32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; SI: v_cvt_pk_u16_u32_e32 v{{[0-9]+}}, [[X]], [[VY]]			; VI: v_cvt_pk_u16_u32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; VI: v_cvt_pk_u16_u32 v{{[0-9]+}}, [[X]], [[VY]]
	define amdgpu_kernel void @s_cvt_pk_u16_u32(i32 addrspace(1)* %out, i32 %x, i32 %y) #0 {			define amdgpu_kernel void @s_cvt_pk_u16_u32(i32 addrspace(1)* %out, i32 %x, i32 %y) #0 {
	%result = call <2 x i16> @llvm.amdgcn.cvt.pk.u16(i32 %x, i32 %y)			%result = call <2 x i16> @llvm.amdgcn.cvt.pk.u16(i32 %x, i32 %y)
	%r = bitcast <2 x i16> %result to i32			%r = bitcast <2 x i16> %result to i32
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_cvt_pk_u16_samereg_i32:			; GCN-LABEL: {{^}}s_cvt_pk_u16_samereg_i32:
	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pknorm.i16.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s

	; GCN-LABEL: {{^}}s_cvt_pknorm_i16_f32:			; GCN-LABEL: {{^}}s_cvt_pknorm_i16_f32:
	; GCN-DAG: s_load_dword [[X:s[0-9]+]], s[0:1], 0x{{b\|2c}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SX:[0-9]+]]:[[SY:[0-9]+]]{{\]}}, s[0:1], 0x{{b\|2c}}
	; GCN-DAG: s_load_dword [[SY:s[0-9]+]], s[0:1], 0x{{c\|30}}			; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], s[[SY]]
	; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], [[SY]]			; SI: v_cvt_pknorm_i16_f32_e32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; SI: v_cvt_pknorm_i16_f32_e32 v{{[0-9]+}}, [[X]], [[VY]]			; VI: v_cvt_pknorm_i16_f32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; VI: v_cvt_pknorm_i16_f32 v{{[0-9]+}}, [[X]], [[VY]]
	define amdgpu_kernel void @s_cvt_pknorm_i16_f32(i32 addrspace(1)* %out, float %x, float %y) #0 {			define amdgpu_kernel void @s_cvt_pknorm_i16_f32(i32 addrspace(1)* %out, float %x, float %y) #0 {
	%result = call <2 x i16> @llvm.amdgcn.cvt.pknorm.i16(float %x, float %y)			%result = call <2 x i16> @llvm.amdgcn.cvt.pknorm.i16(float %x, float %y)
	%r = bitcast <2 x i16> %result to i32			%r = bitcast <2 x i16> %result to i32
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_cvt_pknorm_i16_samereg_f32:			; GCN-LABEL: {{^}}s_cvt_pknorm_i16_samereg_f32:
	▲ Show 20 Lines • Show All 145 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pknorm.u16.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s

	; GCN-LABEL: {{^}}s_cvt_pknorm_u16_f32:			; GCN-LABEL: {{^}}s_cvt_pknorm_u16_f32:
	; GCN-DAG: s_load_dword [[X:s[0-9]+]], s[0:1], 0x{{b\|2c}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SX:[0-9]+]]:[[SY:[0-9]+]]{{\]}}, s[0:1], 0x{{b\|2c}}
	; GCN-DAG: s_load_dword [[SY:s[0-9]+]], s[0:1], 0x{{c\|30}}			; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], s[[SY]]
	; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], [[SY]]			; SI: v_cvt_pknorm_u16_f32_e32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; SI: v_cvt_pknorm_u16_f32_e32 v{{[0-9]+}}, [[X]], [[VY]]			; VI: v_cvt_pknorm_u16_f32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; VI: v_cvt_pknorm_u16_f32 v{{[0-9]+}}, [[X]], [[VY]]
	define amdgpu_kernel void @s_cvt_pknorm_u16_f32(i32 addrspace(1)* %out, float %x, float %y) #0 {			define amdgpu_kernel void @s_cvt_pknorm_u16_f32(i32 addrspace(1)* %out, float %x, float %y) #0 {
	%result = call <2 x i16> @llvm.amdgcn.cvt.pknorm.u16(float %x, float %y)			%result = call <2 x i16> @llvm.amdgcn.cvt.pknorm.u16(float %x, float %y)
	%r = bitcast <2 x i16> %result to i32			%r = bitcast <2 x i16> %result to i32
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_cvt_pknorm_u16_samereg_f32:			; GCN-LABEL: {{^}}s_cvt_pknorm_u16_samereg_f32:
	▲ Show 20 Lines • Show All 145 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pkrtz.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX89 -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX89 -check-prefix=VI %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX89 -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX89 -check-prefix=GFX9 %s

	; GCN-LABEL: {{^}}s_cvt_pkrtz_v2f16_f32:			; GCN-LABEL: {{^}}s_cvt_pkrtz_v2f16_f32:
	; GCN-DAG: s_load_dword [[X:s[0-9]+]], s[0:1], 0x{{b\|2c}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SX:[0-9]+]]:[[SY:[0-9]+]]{{\]}}, s[0:1], 0x{{b\|2c}}
	; GCN-DAG: s_load_dword [[SY:s[0-9]+]], s[0:1], 0x{{c\|30}}			; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], s[[SY]]
	; GCN: v_mov_b32_e32 [[VY:v[0-9]+]], [[SY]]			; SI: v_cvt_pkrtz_f16_f32_e32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; SI: v_cvt_pkrtz_f16_f32_e32 v{{[0-9]+}}, [[X]], [[VY]]			; GFX89: v_cvt_pkrtz_f16_f32 v{{[0-9]+}}, s[[SX]], [[VY]]
	; GFX89: v_cvt_pkrtz_f16_f32 v{{[0-9]+}}, [[X]], [[VY]]
	define amdgpu_kernel void @s_cvt_pkrtz_v2f16_f32(<2 x half> addrspace(1)* %out, float %x, float %y) #0 {			define amdgpu_kernel void @s_cvt_pkrtz_v2f16_f32(<2 x half> addrspace(1)* %out, float %x, float %y) #0 {
	%result = call <2 x half> @llvm.amdgcn.cvt.pkrtz(float %x, float %y)			%result = call <2 x half> @llvm.amdgcn.cvt.pkrtz(float %x, float %y)
	store <2 x half> %result, <2 x half> addrspace(1)* %out			store <2 x half> %result, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_cvt_pkrtz_samereg_v2f16_f32:			; GCN-LABEL: {{^}}s_cvt_pkrtz_samereg_v2f16_f32:
	; GCN: s_load_dword [[X:s[0-9]+]]			; GCN: s_load_dword [[X:s[0-9]+]]
	▲ Show 20 Lines • Show All 145 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.div.fixup.f16.ll

	Show All 9 Lines
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @div_fixup_f16(			define amdgpu_kernel void @div_fixup_f16(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half %b.val, half %c.val)			%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half %b.val, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_fixup_f16_imm_a			; GCN-LABEL: {{^}}div_fixup_f16_imm_a
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]
	; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}			; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}
	; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]			; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @div_fixup_f16_imm_a(			define amdgpu_kernel void @div_fixup_f16_imm_a(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	entry:			entry:
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%r.val = call half @llvm.amdgcn.div.fixup.f16(half 3.0, half %b.val, half %c.val)			%r.val = call half @llvm.amdgcn.div.fixup.f16(half 3.0, half %b.val, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_fixup_f16_imm_b			; GCN-LABEL: {{^}}div_fixup_f16_imm_b
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]
	; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}			; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}
	; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]			; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @div_fixup_f16_imm_b(			define amdgpu_kernel void @div_fixup_f16_imm_b(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half 3.0, half %c.val)			%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half 3.0, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_fixup_f16_imm_c			; GCN-LABEL: {{^}}div_fixup_f16_imm_c
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}			; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}
	; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]			; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @div_fixup_f16_imm_c(			define amdgpu_kernel void @div_fixup_f16_imm_c(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half %b.val, half 3.0)			%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half %b.val, half 3.0)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_fixup_f16_imm_a_imm_b			; GCN-LABEL: {{^}}div_fixup_f16_imm_a_imm_b
	; VI-DAG: v_mov_b32_e32 v[[AB_F16:[0-9]+]], 0x4200{{$}}			; VI-DAG: v_mov_b32_e32 v[[AB_F16:[0-9]+]], 0x4200{{$}}
	; GCN-DAG: buffer_load_ushort v[[C_F16:[0-9]+]]			; GCN-DAG: buffer_load_ushort v[[C_F16:[0-9]+]]
	; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[AB_F16]], v[[AB_F16]], v[[C_F16]]			; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[AB_F16]], v[[AB_F16]], v[[C_F16]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @div_fixup_f16_imm_a_imm_b(			define amdgpu_kernel void @div_fixup_f16_imm_a_imm_b(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	entry:			entry:
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%r.val = call half @llvm.amdgcn.div.fixup.f16(half 3.0, half 3.0, half %c.val)			%r.val = call half @llvm.amdgcn.div.fixup.f16(half 3.0, half 3.0, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_fixup_f16_imm_b_imm_c			; GCN-LABEL: {{^}}div_fixup_f16_imm_b_imm_c
	; VI-DAG: v_mov_b32_e32 v[[BC_F16:[0-9]+]], 0x4200{{$}}			; VI-DAG: v_mov_b32_e32 v[[BC_F16:[0-9]+]], 0x4200{{$}}
	; GCN-DAG: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN-DAG: buffer_load_ushort v[[A_F16:[0-9]+]]
	Show All 28 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.div.fixup.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN %s

	declare float @llvm.amdgcn.div.fixup.f32(float, float, float) nounwind readnone			declare float @llvm.amdgcn.div.fixup.f32(float, float, float) nounwind readnone
	declare double @llvm.amdgcn.div.fixup.f64(double, double, double) nounwind readnone			declare double @llvm.amdgcn.div.fixup.f64(double, double, double) nounwind readnone

	; GCN-LABEL: {{^}}test_div_fixup_f32:			; GCN-LABEL: {{^}}test_div_fixup_f32:
	; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd			; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
	; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x25
	; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x34			; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x70
				; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x94

	; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]			; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]
	; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]			; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
	; GCN: v_div_fixup_f32 [[RESULT:v[0-9]+]], [[SA]], [[VB]], [[VC]]			; GCN: v_div_fixup_f32 [[RESULT:v[0-9]+]], [[SA]], [[VB]], [[VC]]
	; GCN: buffer_store_dword [[RESULT]],			; GCN: buffer_store_dword [[RESULT]],
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_div_fixup_f32(float addrspace(1)* %out, float %a, float %b, float %c) nounwind {			define amdgpu_kernel void @test_div_fixup_f32(float addrspace(1)* %out, [8 x i32], float %a, [8 x i32], float %b, [8 x i32], float %c) nounwind {
	%result = call float @llvm.amdgcn.div.fixup.f32(float %a, float %b, float %c) nounwind readnone			%result = call float @llvm.amdgcn.div.fixup.f32(float %a, float %b, float %c) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fixup_f64:			; GCN-LABEL: {{^}}test_div_fixup_f64:
	; GCN: v_div_fixup_f64			; GCN: v_div_fixup_f64
	define amdgpu_kernel void @test_div_fixup_f64(double addrspace(1)* %out, double %a, double %b, double %c) nounwind {			define amdgpu_kernel void @test_div_fixup_f64(double addrspace(1)* %out, double %a, double %b, double %c) nounwind {
	%result = call double @llvm.amdgcn.div.fixup.f64(double %a, double %b, double %c) nounwind readnone			%result = call double @llvm.amdgcn.div.fixup.f64(double %a, double %b, double %c) nounwind readnone
	store double %result, double addrspace(1)* %out, align 8			store double %result, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/llvm.amdgcn.div.fmas.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -strict-whitespace -check-prefixes=GCN,SI %s
	; XUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=GCN -check-prefix=VI %s			; XUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -strict-whitespace -check-prefixes=GCN,VI %s

	; FIXME: Enable for VI.			; FIXME: Enable for VI.

	declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	declare float @llvm.amdgcn.div.fmas.f32(float, float, float, i1) nounwind readnone			declare float @llvm.amdgcn.div.fmas.f32(float, float, float, i1) nounwind readnone
	declare double @llvm.amdgcn.div.fmas.f64(double, double, double, i1) nounwind readnone			declare double @llvm.amdgcn.div.fmas.f64(double, double, double, i1) nounwind readnone

	; GCN-LABEL: {{^}}test_div_fmas_f32:			; GCN-LABEL: {{^}}test_div_fmas_f32:
	; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd			; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
	; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x25
	; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x34			; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x70
				; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x94

				; GCN-DAG: s_and_b32 [[AND_I1:s[0-9]+]], 1, s{{[0-9]+}}
				; GCN: v_cmp_eq_u32_e64 vcc, [[AND_I1]], 1

	; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]			; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]
	; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]			; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
	; GCN-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]			; GCN-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]
	; GCN: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], [[VB]], [[VC]]			; GCN: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], [[VB]], [[VC]]
	; GCN: buffer_store_dword [[RESULT]],			; GCN: buffer_store_dword [[RESULT]],
	; GCN: s_endpgm			define amdgpu_kernel void @test_div_fmas_f32(float addrspace(1)* %out, [8 x i32], float %a, [8 x i32], float %b, [8 x i32], float %c, [8 x i32], i1 %d) nounwind {
	define amdgpu_kernel void @test_div_fmas_f32(float addrspace(1)* %out, float %a, float %b, float %c, i1 %d) nounwind {
	%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 %d) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 %d) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f32_inline_imm_0:			; GCN-LABEL: {{^}}test_div_fmas_f32_inline_imm_0:
	; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd			; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
	; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x25
	; SI-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]			; SI-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]
	; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]			; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
	; SI: v_div_fmas_f32 [[RESULT:v[0-9]+]], 1.0, [[VB]], [[VC]]			; SI: v_div_fmas_f32 [[RESULT:v[0-9]+]], 1.0, [[VB]], [[VC]]
	; SI: buffer_store_dword [[RESULT]],			; SI: buffer_store_dword [[RESULT]],
	; SI: s_endpgm			define amdgpu_kernel void @test_div_fmas_f32_inline_imm_0(float addrspace(1)* %out, [8 x i32], float %a, [8 x i32], float %b, [8 x i32], float %c, [8 x i32], i1 %d) nounwind {
	define amdgpu_kernel void @test_div_fmas_f32_inline_imm_0(float addrspace(1)* %out, float %a, float %b, float %c, i1 %d) nounwind {
	%result = call float @llvm.amdgcn.div.fmas.f32(float 1.0, float %b, float %c, i1 %d) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float 1.0, float %b, float %c, i1 %d) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f32_inline_imm_1:			; GCN-LABEL: {{^}}test_div_fmas_f32_inline_imm_1:
	; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd			; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd
	; SI-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]
	; SI-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]			; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; SI: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], 1.0, [[VC]]			; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x94
	; SI: buffer_store_dword [[RESULT]],
	; SI: s_endpgm			; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]
	define amdgpu_kernel void @test_div_fmas_f32_inline_imm_1(float addrspace(1)* %out, float %a, float %b, float %c, i1 %d) nounwind {			; GCN-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]
				; GCN: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], 1.0, [[VC]]
				; GCN: buffer_store_dword [[RESULT]],
				define amdgpu_kernel void @test_div_fmas_f32_inline_imm_1(float addrspace(1)* %out, float %a, float %b, float %c, [8 x i32], i1 %d) nounwind {
	%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float 1.0, float %c, i1 %d) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float 1.0, float %c, i1 %d) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f32_inline_imm_2:			; GCN-LABEL: {{^}}test_div_fmas_f32_inline_imm_2:
	; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
	; SI-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]
	; SI-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]			; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; SI: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], [[VB]], 1.0			; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x70
	; SI: buffer_store_dword [[RESULT]],
	; SI: s_endpgm			; GCN-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]
	define amdgpu_kernel void @test_div_fmas_f32_inline_imm_2(float addrspace(1)* %out, float %a, float %b, float %c, i1 %d) nounwind {			; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
				; GCN: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], [[VB]], 1.0
				; GCN: buffer_store_dword [[RESULT]],
				define amdgpu_kernel void @test_div_fmas_f32_inline_imm_2(float addrspace(1)* %out, [8 x i32], float %a, [8 x i32], float %b, [8 x i32], float %c, [8 x i32], i1 %d) nounwind {
	%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float 1.0, i1 %d) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float 1.0, i1 %d) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f64:			; GCN-LABEL: {{^}}test_div_fmas_f64:
	; GCN: v_div_fmas_f64			; GCN: v_div_fmas_f64
	define amdgpu_kernel void @test_div_fmas_f64(double addrspace(1)* %out, double %a, double %b, double %c, i1 %d) nounwind {			define amdgpu_kernel void @test_div_fmas_f64(double addrspace(1)* %out, double %a, double %b, double %c, i1 %d) nounwind {
	%result = call double @llvm.amdgcn.div.fmas.f64(double %a, double %b, double %c, i1 %d) nounwind readnone			%result = call double @llvm.amdgcn.div.fmas.f64(double %a, double %b, double %c, i1 %d) nounwind readnone
	store double %result, double addrspace(1)* %out, align 8			store double %result, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f32_cond_to_vcc:			; GCN-LABEL: {{^}}test_div_fmas_f32_cond_to_vcc:
	; SI: v_cmp_eq_u32_e64 vcc, s{{[0-9]+}}, 0{{$}}			; GCN: v_cmp_eq_u32_e64 vcc, s{{[0-9]+}}, 0{{$}}
	; SI: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}			; GCN: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
	define amdgpu_kernel void @test_div_fmas_f32_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c, i32 %i) nounwind {			define amdgpu_kernel void @test_div_fmas_f32_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c, i32 %i) nounwind {
	%cmp = icmp eq i32 %i, 0			%cmp = icmp eq i32 %i, 0
	%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 %cmp) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 %cmp) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f32_imm_false_cond_to_vcc:			; GCN-LABEL: {{^}}test_div_fmas_f32_imm_false_cond_to_vcc:
	; SI: s_mov_b64 vcc, 0			; GCN: s_mov_b64 vcc, 0
	; SI: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}			; GCN: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
	define amdgpu_kernel void @test_div_fmas_f32_imm_false_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c) nounwind {			define amdgpu_kernel void @test_div_fmas_f32_imm_false_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c) nounwind {
	%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 false) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 false) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f32_imm_true_cond_to_vcc:			; GCN-LABEL: {{^}}test_div_fmas_f32_imm_true_cond_to_vcc:
	; SI: s_mov_b64 vcc, -1			; GCN: s_mov_b64 vcc, -1
	; SI: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}			; GCN: v_div_fmas_f32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
	define amdgpu_kernel void @test_div_fmas_f32_imm_true_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c) nounwind {			define amdgpu_kernel void @test_div_fmas_f32_imm_true_cond_to_vcc(float addrspace(1)* %out, float %a, float %b, float %c) nounwind {
	%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 true) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 true) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_div_fmas_f32_logical_cond_to_vcc:			; GCN-LABEL: {{^}}test_div_fmas_f32_logical_cond_to_vcc:
	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; SI-DAG: buffer_load_dword [[A:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	▲ Show 20 Lines • Show All 69 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.div.scale.ll

Show First 20 Lines • Show All 224 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_div_scale_f64_scalar_den_2(double addrspace(1)* %out, double addrspace(1)* %in, double %b) nounwind {

%result = call { double, i1 } @llvm.amdgcn.div.scale.f64(double %a, double %b, i1 true) nounwind readnone		%result = call { double, i1 } @llvm.amdgcn.div.scale.f64(double %a, double %b, i1 true) nounwind readnone
%result0 = extractvalue { double, i1 } %result, 0		%result0 = extractvalue { double, i1 } %result, 0
store double %result0, double addrspace(1)* %out, align 8		store double %result0, double addrspace(1)* %out, align 8
ret void		ret void
}		}

; SI-LABEL: {{^}}test_div_scale_f32_all_scalar_1:		; SI-LABEL: {{^}}test_div_scale_f32_all_scalar_1:
; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: v_mov_b32_e32 [[VA:v[0-9]+]], [[A]]		; SI: v_mov_b32_e32 [[VA:v[0-9]+]], [[A]]
; SI: v_div_scale_f32 [[RESULT0:v[0-9]+]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[B]], [[B]], [[VA]]		; SI: v_div_scale_f32 [[RESULT0:v[0-9]+]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[B]], [[B]], [[VA]]
; SI: buffer_store_dword [[RESULT0]]		; SI: buffer_store_dword [[RESULT0]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_div_scale_f32_all_scalar_1(float addrspace(1)* %out, float %a, float %b) nounwind {		define amdgpu_kernel void @test_div_scale_f32_all_scalar_1(float addrspace(1)* %out, [8 x i32], float %a, [8 x i32], float %b) nounwind {
%result = call { float, i1 } @llvm.amdgcn.div.scale.f32(float %a, float %b, i1 false) nounwind readnone		%result = call { float, i1 } @llvm.amdgcn.div.scale.f32(float %a, float %b, i1 false) nounwind readnone
%result0 = extractvalue { float, i1 } %result, 0		%result0 = extractvalue { float, i1 } %result, 0
store float %result0, float addrspace(1)* %out, align 4		store float %result0, float addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_div_scale_f32_all_scalar_2:		; SI-LABEL: {{^}}test_div_scale_f32_all_scalar_2:
; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[B]]		; SI: v_mov_b32_e32 [[VB:v[0-9]+]], [[B]]
; SI: v_div_scale_f32 [[RESULT0:v[0-9]+]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[A]], [[VB]], [[A]]		; SI: v_div_scale_f32 [[RESULT0:v[0-9]+]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[A]], [[VB]], [[A]]
; SI: buffer_store_dword [[RESULT0]]		; SI: buffer_store_dword [[RESULT0]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_div_scale_f32_all_scalar_2(float addrspace(1)* %out, float %a, float %b) nounwind {		define amdgpu_kernel void @test_div_scale_f32_all_scalar_2(float addrspace(1)* %out, [8 x i32], float %a, [8 x i32], float %b) nounwind {
%result = call { float, i1 } @llvm.amdgcn.div.scale.f32(float %a, float %b, i1 true) nounwind readnone		%result = call { float, i1 } @llvm.amdgcn.div.scale.f32(float %a, float %b, i1 true) nounwind readnone
%result0 = extractvalue { float, i1 } %result, 0		%result0 = extractvalue { float, i1 } %result, 0
store float %result0, float addrspace(1)* %out, align 4		store float %result0, float addrspace(1)* %out, align 4
ret void		ret void
}		}

; SI-LABEL: {{^}}test_div_scale_f64_all_scalar_1:		; SI-LABEL: {{^}}test_div_scale_f64_all_scalar_1:
; SI-DAG: s_load_dwordx2 s{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 s{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dwordx2 [[B:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xd		; SI-DAG: s_load_dwordx2 [[B:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x1d
; SI-DAG: v_mov_b32_e32 v[[VA_LO:[0-9]+]], s[[A_LO]]		; SI-DAG: v_mov_b32_e32 v[[VA_LO:[0-9]+]], s[[A_LO]]
; SI-DAG: v_mov_b32_e32 v[[VA_HI:[0-9]+]], s[[A_HI]]		; SI-DAG: v_mov_b32_e32 v[[VA_HI:[0-9]+]], s[[A_HI]]
; SI: v_div_scale_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[B]], [[B]], v{{\[}}[[VA_LO]]:[[VA_HI]]{{\]}}		; SI: v_div_scale_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[B]], [[B]], v{{\[}}[[VA_LO]]:[[VA_HI]]{{\]}}
; SI: buffer_store_dwordx2 [[RESULT0]]		; SI: buffer_store_dwordx2 [[RESULT0]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_div_scale_f64_all_scalar_1(double addrspace(1)* %out, double %a, double %b) nounwind {		define amdgpu_kernel void @test_div_scale_f64_all_scalar_1(double addrspace(1)* %out, [8 x i32], double %a, [8 x i32], double %b) nounwind {
%result = call { double, i1 } @llvm.amdgcn.div.scale.f64(double %a, double %b, i1 false) nounwind readnone		%result = call { double, i1 } @llvm.amdgcn.div.scale.f64(double %a, double %b, i1 false) nounwind readnone
%result0 = extractvalue { double, i1 } %result, 0		%result0 = extractvalue { double, i1 } %result, 0
store double %result0, double addrspace(1)* %out, align 8		store double %result0, double addrspace(1)* %out, align 8
ret void		ret void
}		}

; SI-LABEL: {{^}}test_div_scale_f64_all_scalar_2:		; SI-LABEL: {{^}}test_div_scale_f64_all_scalar_2:
; SI-DAG: s_load_dwordx2 [[A:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 [[A:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dwordx2 s{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0xd		; SI-DAG: s_load_dwordx2 s{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x1d
; SI-DAG: v_mov_b32_e32 v[[VB_LO:[0-9]+]], s[[B_LO]]		; SI-DAG: v_mov_b32_e32 v[[VB_LO:[0-9]+]], s[[B_LO]]
; SI-DAG: v_mov_b32_e32 v[[VB_HI:[0-9]+]], s[[B_HI]]		; SI-DAG: v_mov_b32_e32 v[[VB_HI:[0-9]+]], s[[B_HI]]
; SI: v_div_scale_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[A]], v{{\[}}[[VB_LO]]:[[VB_HI]]{{\]}}, [[A]]		; SI: v_div_scale_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], [[RESULT1:s\[[0-9]+:[0-9]+\]]], [[A]], v{{\[}}[[VB_LO]]:[[VB_HI]]{{\]}}, [[A]]
; SI: buffer_store_dwordx2 [[RESULT0]]		; SI: buffer_store_dwordx2 [[RESULT0]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_div_scale_f64_all_scalar_2(double addrspace(1)* %out, double %a, double %b) nounwind {		define amdgpu_kernel void @test_div_scale_f64_all_scalar_2(double addrspace(1)* %out, [8 x i32], double %a, [8 x i32], double %b) nounwind {
%result = call { double, i1 } @llvm.amdgcn.div.scale.f64(double %a, double %b, i1 true) nounwind readnone		%result = call { double, i1 } @llvm.amdgcn.div.scale.f64(double %a, double %b, i1 true) nounwind readnone
%result0 = extractvalue { double, i1 } %result, 0		%result0 = extractvalue { double, i1 } %result, 0
store double %result0, double addrspace(1)* %out, align 8		store double %result0, double addrspace(1)* %out, align 8
ret void		ret void
}		}

; SI-LABEL: {{^}}test_div_scale_f32_inline_imm_num:		; SI-LABEL: {{^}}test_div_scale_f32_inline_imm_num:
; SI-DAG: buffer_load_dword [[A:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}		; SI-DAG: buffer_load_dword [[A:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
▲ Show 20 Lines • Show All 154 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.d16.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s


	; GCN-LABEL: {{^}}tbuffer_store_d16_x:			; GCN-LABEL: {{^}}tbuffer_store_d16_x:
	; GCN: s_load_dword s[[S_LO:[0-9]+]]			; GCN: s_load_dword s[[S_LO:[0-9]+]]
	; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[S_LO]]			; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[S_LO]]
	; GCN: tbuffer_store_format_d16_x v[[V_LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen			; GCN: tbuffer_store_format_d16_x v[[V_LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
	define amdgpu_kernel void @tbuffer_store_d16_x(<4 x i32> %rsrc, half %data, i32 %vindex) {			define amdgpu_kernel void @tbuffer_store_d16_x(<4 x i32> %rsrc, [8 x i32], half %data, [8 x i32], i32 %vindex) {
	main_body:			main_body:
	call void @llvm.amdgcn.tbuffer.store.f16(half %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.tbuffer.store.f16(half %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}tbuffer_store_d16_xy:			; GCN-LABEL: {{^}}tbuffer_store_d16_xy:
	; GCN: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10			; GCN: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10
	; UNPACKED-DAG: s_lshr_b32 [[SHR:s[0-9]+]], [[S_DATA]], 16			; UNPACKED-DAG: s_lshr_b32 [[SHR:s[0-9]+]], [[S_DATA]], 16
	Show All 17 Lines
	; UNPACKED-DAG: s_and_b32 [[MASKED0:s[0-9]+]], s[[S_DATA_0]], [[K]]			; UNPACKED-DAG: s_and_b32 [[MASKED0:s[0-9]+]], s[[S_DATA_0]], [[K]]
	; UNPACKED-DAG: s_lshr_b32 [[SHR1:s[0-9]+]], s[[S_DATA_1]], 16			; UNPACKED-DAG: s_lshr_b32 [[SHR1:s[0-9]+]], s[[S_DATA_1]], 16
	; UNPACKED-DAG: s_and_b32 [[MASKED1:s[0-9]+]], s[[S_DATA_1]], [[K]]			; UNPACKED-DAG: s_and_b32 [[MASKED1:s[0-9]+]], s[[S_DATA_1]], [[K]]

	; UNPACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], [[MASKED0]]			; UNPACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], [[MASKED0]]
	; UNPACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[SHR1]]			; UNPACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[SHR1]]
	; UNPACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen			; UNPACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen


	; PACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], s[[S_DATA_0]]			; PACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], s[[S_DATA_0]]
	; PACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], s[[S_DATA_1]]			; PACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], s[[S_DATA_1]]
	; PACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen			; PACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
	define amdgpu_kernel void @tbuffer_store_d16_xyzw(<4 x i32> %rsrc, <4 x half> %data, i32 %vindex) {			define amdgpu_kernel void @tbuffer_store_d16_xyzw(<4 x i32> %rsrc, <4 x half> %data, i32 %vindex) {
	main_body:			main_body:
	call void @llvm.amdgcn.tbuffer.store.v4f16(<4 x half> %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.tbuffer.store.v4f16(<4 x half> %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)
	ret void			ret void
	}			}

	declare void @llvm.amdgcn.tbuffer.store.f16(half, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)			declare void @llvm.amdgcn.tbuffer.store.f16(half, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)
	declare void @llvm.amdgcn.tbuffer.store.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)			declare void @llvm.amdgcn.tbuffer.store.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)
	declare void @llvm.amdgcn.tbuffer.store.v4f16(<4 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)			declare void @llvm.amdgcn.tbuffer.store.v4f16(<4 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)

test/CodeGen/AMDGPU/llvm.ceil.f16.ll

Show All 18 Lines	entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
%r.val = call half @llvm.ceil.f16(half %a.val)		%r.val = call half @llvm.ceil.f16(half %a.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}ceil_v2f16:		; GCN-LABEL: {{^}}ceil_v2f16:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_ceil_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]		; SI-DAG: v_ceil_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_ceil_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]		; SI-DAG: v_ceil_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI-NOT: and		; SI-NOT: and
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_ceil_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]		; VI-DAG: v_ceil_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]
; VI-DAG: v_ceil_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1		; VI-DAG: v_ceil_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI-NOT: and		; VI-NOT: and
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]

Show All 11 Lines

test/CodeGen/AMDGPU/llvm.cos.f16.ll

	Show All 18 Lines
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load half, half addrspace(1)* %a
	%r.val = call half @llvm.cos.f16(half %a.val)			%r.val = call half @llvm.cos.f16(half %a.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}cos_v2f16			; GCN-LABEL: {{^}}cos_v2f16
	; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]			; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
	; SI-DAG: v_mov_b32_e32 v[[HALF_PIE:[0-9]+]], 0x3e22f983{{$}}			; SI-DAG: v_mov_b32_e32 v[[HALF_PI:[0-9]+]], 0x3e22f983{{$}}
	; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; SI-DAG: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], v[[A_F32_0]], v[[HALF_PIE]]			; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; SI-DAG: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], v[[A_F32_1]], v[[HALF_PIE]]			; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
				; SI: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], v[[A_F32_0]], v[[HALF_PI]]
				; SI: v_fract_f32_e32 v[[F_F32_0:[0-9]+]], v[[M_F32_0]]
				; SI: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], v[[A_F32_1]], v[[HALF_PI]]
				; SI: v_fract_f32_e32 v[[F_F32_1:[0-9]+]], v[[M_F32_1]]

	; VI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; VI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; VI-DAG: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; VI-DAG: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; VI-DAG: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], 0.15915494, v[[A_F32_0]]			; VI-DAG: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], 0.15915494, v[[A_F32_0]]
	; VI-DAG: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], 0.15915494, v[[A_F32_1]]			; VI-DAG: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], 0.15915494, v[[A_F32_1]]
				; VI-DAG: v_fract_f32_e32 v[[F_F32_0:[0-9]+]], v[[M_F32_0]]
				; VI-DAG: v_fract_f32_e32 v[[F_F32_1:[0-9]+]], v[[M_F32_1]]

	; GCN-DAG: v_fract_f32_e32 v[[F_F32_0:[0-9]+]], v[[M_F32_0]]			; GCN: v_cos_f32_e32 v[[R_F32_1:[0-9]+]], v[[F_F32_1]]
	; GCN-DAG: v_fract_f32_e32 v[[F_F32_1:[0-9]+]], v[[M_F32_1]]			; GCN: v_cos_f32_e32 v[[R_F32_0:[0-9]+]], v[[F_F32_0]]
	; GCN-DAG: v_cos_f32_e32 v[[R_F32_0:[0-9]+]], v[[F_F32_0]]
	; GCN-DAG: v_cos_f32_e32 v[[R_F32_1:[0-9]+]], v[[F_F32_1]]

	; GCN-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
				; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]

				; VI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; VI-DAG: v_cvt_f16_f32_sdwa v[[R_F16_1:[0-9]+]], v[[R_F32_1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD			; VI-DAG: v_cvt_f16_f32_sdwa v[[R_F16_1:[0-9]+]], v[[R_F32_1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
	; GCN-NOT: and			; GCN-NOT: and

	; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]
	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	Show All 9 Lines

test/CodeGen/AMDGPU/llvm.dbg.value.ll

	; RUN: llc -O0 -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,NOOPT %s			; RUN: llc -O0 -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,NOOPT %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,OPT %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,OPT %s

	; GCN-LABEL: {{^}}test_debug_value:			; GCN-LABEL: {{^}}test_debug_value:
	; NOOPT: s_load_dwordx2 s[4:5]			; NOOPT: .loc 1 1 42 prologue_end ; /tmp/test_debug_value.cl:1:42
				; NOOPT-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; FIXME: Why is the SGPR4_SGPR5 reference being removed from DBG_VALUE?			; NOOPT-NEXT: ;DEBUG_VALUE: test_debug_value:globalptr_arg <- $sgpr4_sgpr5
	; NOOPT: ; kill: def $sgpr8_sgpr9 killed $sgpr4_sgpr5
	; NOOPT-NEXT: ;DEBUG_VALUE: test_debug_value:globalptr_arg <- undef

	; GCN: flat_store_dword			; GCN: flat_store_dword
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_debug_value(i32 addrspace(1)* nocapture %globalptr_arg) #0 !dbg !4 {			define amdgpu_kernel void @test_debug_value(i32 addrspace(1)* nocapture %globalptr_arg) #0 !dbg !4 {
	entry:			entry:
	tail call void @llvm.dbg.value(metadata i32 addrspace(1)* %globalptr_arg, metadata !10, metadata !13), !dbg !14			tail call void @llvm.dbg.value(metadata i32 addrspace(1)* %globalptr_arg, metadata !10, metadata !13), !dbg !14
	store i32 123, i32 addrspace(1)* %globalptr_arg, align 4			store i32 123, i32 addrspace(1)* %globalptr_arg, align 4
	ret void			ret void
	Show All 38 Lines

test/CodeGen/AMDGPU/llvm.floor.f16.ll

Show All 18 Lines	entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
%r.val = call half @llvm.floor.f16(half %a.val)		%r.val = call half @llvm.floor.f16(half %a.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}floor_v2f16		; GCN-LABEL: {{^}}floor_v2f16
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_floor_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]		; SI-DAG: v_floor_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_floor_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]		; SI-DAG: v_floor_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI-NOT: and		; SI-NOT: and
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_floor_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]		; VI-DAG: v_floor_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]
; VI-DAG: v_floor_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1		; VI-DAG: v_floor_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI-NOT: and		; VI-NOT: and
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]
Show All 12 Lines

test/CodeGen/AMDGPU/llvm.fma.f16.ll

Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
}		}

; GCN-LABEL: {{^}}fma_v2f16		; GCN-LABEL: {{^}}fma_v2f16
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; GCN: buffer_load_dword v[[C_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[C_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]

; SI: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]

		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
		; SI: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]


; SI-DAG: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]], v[[C_F32_0]]		; SI-DAG: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]], v[[C_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]], v[[C_F32_1]]		; SI-DAG: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]], v[[C_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

; VI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; VI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; VI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; VI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; VI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]		; VI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
Show All 14 Lines	define amdgpu_kernel void @fma_v2f16(
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%c.val = load <2 x half>, <2 x half> addrspace(1)* %c		%c.val = load <2 x half>, <2 x half> addrspace(1)* %c
%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> %a.val, <2 x half> %b.val, <2 x half> %c.val)		%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> %a.val, <2 x half> %b.val, <2 x half> %c.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fma_v2f16_imm_a:		; GCN-LABEL: {{^}}fma_v2f16_imm_a:
; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; SI: buffer_load_dword v[[C_V2_F16:[0-9]+]]		; SI: buffer_load_dword v[[C_V2_F16:[0-9]+]]
		; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]


; VI: buffer_load_dword v[[C_V2_F16:[0-9]+]]		; VI: buffer_load_dword v[[C_V2_F16:[0-9]+]]
; VI: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; VI: buffer_load_dword v[[B_V2_F16:[0-9]+]]


; SI: v_mov_b32_e32 v[[A_F32:[0-9]+]], 0x40400000{{$}}		; SI: v_mov_b32_e32 v[[A_F32:[0-9]+]], 0x40400000{{$}}
; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}		; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}
; GCN-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; GCN-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; GCN-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]		; GCN-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]

; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]
; SI: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32]], v[[C_F32_0]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
		; SI: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]

		; SI: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32]], v[[C_F32_1]]
		; SI-DAG: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32]], v[[C_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32]], v[[C_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

; VI-DAG: v_fma_f16 v[[R_F16_1:[0-9]+]], v[[C_F16_1]], v[[A_F16]], v[[B_F16_1]]		; VI-DAG: v_fma_f16 v[[R_F16_1:[0-9]+]], v[[C_F16_1]], v[[A_F16]], v[[B_F16_1]]
; VI-DAG: v_fma_f16 v[[R_F16_0:[0-9]+]], v[[C_V2_F16]], v[[A_F16]], v[[B_V2_F16]]		; VI-DAG: v_fma_f16 v[[R_F16_0:[0-9]+]], v[[C_V2_F16]], v[[A_F16]], v[[B_V2_F16]]

; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; GCN-NOT: and		; GCN-NOT: and
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]
; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fma_v2f16_imm_a(		define amdgpu_kernel void @fma_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b,		<2 x half> addrspace(1)* %b,
<2 x half> addrspace(1)* %c) {		<2 x half> addrspace(1)* %c) {
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%c.val = load <2 x half>, <2 x half> addrspace(1)* %c		%c.val = load <2 x half>, <2 x half> addrspace(1)* %c
%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> <half 3.0, half 3.0>, <2 x half> %b.val, <2 x half> %c.val)		%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> <half 3.0, half 3.0>, <2 x half> %b.val, <2 x half> %c.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fma_v2f16_imm_b:		; GCN-LABEL: {{^}}fma_v2f16_imm_b:
; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: buffer_load_dword v[[C_V2_F16:[0-9]+]]		; SI: buffer_load_dword v[[C_V2_F16:[0-9]+]]
		; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; VI: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; VI: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; VI: buffer_load_dword v[[C_V2_F16:[0-9]+]]		; VI: buffer_load_dword v[[C_V2_F16:[0-9]+]]

; SI: v_mov_b32_e32 v[[B_F32:[0-9]+]], 0x40400000{{$}}		; SI: v_mov_b32_e32 v[[B_F32:[0-9]+]], 0x40400000{{$}}
; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}		; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]

; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]
; SI-DAG: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32]], v[[C_F32_0]]		; SI-DAG: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32]], v[[C_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32]], v[[C_F32_1]]		; SI-DAG: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32]], v[[C_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

Show All 14 Lines	define amdgpu_kernel void @fma_v2f16_imm_b(
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%c.val = load <2 x half>, <2 x half> addrspace(1)* %c		%c.val = load <2 x half>, <2 x half> addrspace(1)* %c
%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> %a.val, <2 x half> <half 3.0, half 3.0>, <2 x half> %c.val)		%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> %a.val, <2 x half> <half 3.0, half 3.0>, <2 x half> %c.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fma_v2f16_imm_c:		; GCN-LABEL: {{^}}fma_v2f16_imm_c:
; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]
		; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; VI: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; VI: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; VI: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; VI: buffer_load_dword v[[B_V2_F16:[0-9]+]]

; SI: v_mov_b32_e32 v[[C_F32:[0-9]+]], 0x40400000{{$}}		; SI: v_mov_b32_e32 v[[C_F32:[0-9]+]], 0x40400000{{$}}
; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}		; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]], v[[C_F32]]
		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]

		; SI: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]], v[[C_F32]]
		; SI-DAG: v_fma_f32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]], v[[C_F32]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_fma_f32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]], v[[C_F32]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
		; GCN-NOT: and
		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; VI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; VI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; VI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; VI-DAG: v_fma_f16 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]], v[[C_F16]]		; VI-DAG: v_fma_f16 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]], v[[C_F16]]
; VI-DAG: v_fma_f16 v[[R_F16_1:[0-9]+]], v[[A_F16_1]], v[[B_F16_1]], v[[C_F16]]		; VI-DAG: v_fma_f16 v[[R_F16_1:[0-9]+]], v[[A_F16_1]], v[[B_F16_1]], v[[C_F16]]

; GCN-NOT: and		; GCN-NOT: and
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]


; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fma_v2f16_imm_c(		define amdgpu_kernel void @fma_v2f16_imm_c(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> %a.val, <2 x half> %b.val, <2 x half> <half 3.0, half 3.0>)		%r.val = call <2 x half> @llvm.fma.v2f16(<2 x half> %a.val, <2 x half> %b.val, <2 x half> <half 3.0, half 3.0>)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

test/CodeGen/AMDGPU/llvm.fmuladd.f16.ll

	Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], v[[B_F16]], [[KA]], v[[C_F16]]			; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], v[[B_F16]], [[KA]], v[[C_F16]]
	; VI-DENORM: buffer_store_short [[RESULT]]			; VI-DENORM: buffer_store_short [[RESULT]]

	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmuladd_f16_imm_a(			define amdgpu_kernel void @fmuladd_f16_imm_a(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%r.val = call half @llvm.fmuladd.f16(half 3.0, half %b.val, half %c.val)			%r.val = call half @llvm.fmuladd.f16(half 3.0, half %b.val, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fmuladd_f16_imm_b			; GCN-LABEL: {{^}}fmuladd_f16_imm_b
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]
	Show All 11 Lines
	; VI-DENORM buffer_store_short [[RESULT]]			; VI-DENORM buffer_store_short [[RESULT]]


	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmuladd_f16_imm_b(			define amdgpu_kernel void @fmuladd_f16_imm_b(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%r.val = call half @llvm.fmuladd.f16(half %a.val, half 3.0, half %c.val)			%r.val = call half @llvm.fmuladd.f16(half %a.val, half 3.0, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fmuladd_v2f16			; GCN-LABEL: {{^}}fmuladd_v2f16
	; VI: buffer_load_dword v[[B_V2_F16:[0-9]+]]			; SI: buffer_load_dword v[[A_V2_F16:[0-9]+]]
	; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
	; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]			; SI: buffer_load_dword v[[B_V2_F16:[0-9]+]]
	; GCN: buffer_load_dword v[[C_V2_F16:[0-9]+]]			; SI: buffer_load_dword v[[C_V2_F16:[0-9]+]]

				; VI-FLUSH: buffer_load_dword v[[A_V2_F16:[0-9]+]]
				; VI-FLUSH: buffer_load_dword v[[C_V2_F16:[0-9]+]]
				; VI-FLUSH: buffer_load_dword v[[B_V2_F16:[0-9]+]]

				; VI-DENORM: buffer_load_dword v[[A_V2_F16:[0-9]+]]
				; VI-DENORM: buffer_load_dword v[[B_V2_F16:[0-9]+]]
				; VI-DENORM: buffer_load_dword v[[C_V2_F16:[0-9]+]]


	; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
				; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
				; SI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]

	; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]			; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
	; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]			; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
	; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; SI-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]

	; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]			; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
	; SI: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]			; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
	; SI: v_mac_f32_e32 v[[C_F32_0]], v[[A_F32_0]], v[[B_F32_0]]			; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]
	; SI: v_mac_f32_e32 v[[C_F32_1]], v[[A_F32_1]], v[[B_F32_1]]			; SI-DAG: v_mac_f32_e32 v[[C_F32_0]], v[[A_F32_0]], v[[B_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[C_F32_1]]			; SI-DAG: v_mac_f32_e32 v[[C_F32_1]], v[[A_F32_1]], v[[B_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_LO:[0-9]+]], v[[C_F32_0]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[C_F32_1]]
	; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_LO:[0-9]+]], v[[C_F32_0]]
				; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_LO]], v[[R_F16_HI]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_LO]], v[[R_F16_HI]]

	; VI-FLUSH: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; VI-FLUSH-DAG: v_mac_f16_sdwa v[[A_F16_1]], v[[B_V2_F16]], v[[C_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-FLUSH: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
	; VI-FLUSH-DAG: v_mac_f16_e32 v[[A_V2_F16]], v[[B_V2_F16]], v[[C_V2_F16]]			; VI-FLUSH-DAG: v_mac_f16_sdwa v[[C_F16_1]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-FLUSH-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[A_F16_1]]			; VI-FLUSH-DAG: v_mac_f16_e32 v[[C_V2_F16]], v[[A_V2_F16]], v[[B_V2_F16]]
				; VI-FLUSH-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[C_F16_1]]
	; VI-FLUSH-NOT: v_and_b32			; VI-FLUSH-NOT: v_and_b32
	; VI-FLUSH: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[R_F16_HI]]			; VI-FLUSH: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[C_V2_F16]], v[[R_F16_HI]]

	; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]			; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]			; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
	; VI-DENORM-DAG: v_fma_f16 v[[RES0:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]], v[[C_V2_F16]]			; VI-DENORM-DAG: v_fma_f16 v[[RES0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]], v[[C_V2_F16]]
	; VI-DENORM-DAG: v_fma_f16 v[[RES1:[0-9]+]], v[[B_F16_1]], v[[A_F16_1]], v[[C_F16_1]]			; VI-DENORM-DAG: v_fma_f16 v[[RES1:[0-9]+]], v[[A_F16_1]], v[[B_F16_1]], v[[C_F16_1]]
	; VI-DENORM-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[RES1]]			; VI-DENORM-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[RES1]]
	; VI-DENORM-NOT: v_and_b32			; VI-DENORM-NOT: v_and_b32
	; VI-DENORM: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[RES0]], v[[R_F16_HI]]			; VI-DENORM: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[RES0]], v[[R_F16_HI]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm

	define amdgpu_kernel void @fmuladd_v2f16(			define amdgpu_kernel void @fmuladd_v2f16(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	<2 x half> addrspace(1)* %b,			<2 x half> addrspace(1)* %b,
	<2 x half> addrspace(1)* %c) {			<2 x half> addrspace(1)* %c) {
	%a.val = load <2 x half>, <2 x half> addrspace(1)* %a			%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
	%b.val = load <2 x half>, <2 x half> addrspace(1)* %b			%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
	%c.val = load <2 x half>, <2 x half> addrspace(1)* %c			%c.val = load <2 x half>, <2 x half> addrspace(1)* %c
	%r.val = call <2 x half> @llvm.fmuladd.v2f16(<2 x half> %a.val, <2 x half> %b.val, <2 x half> %c.val)			%r.val = call <2 x half> @llvm.fmuladd.v2f16(<2 x half> %a.val, <2 x half> %b.val, <2 x half> %c.val)
	store <2 x half> %r.val, <2 x half> addrspace(1)* %r			store <2 x half> %r.val, <2 x half> addrspace(1)* %r
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

Show All 16 Lines
; GFX89: v_max_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]		; GFX89: v_max_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @maxnum_f16(		define amdgpu_kernel void @maxnum_f16(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a,		half addrspace(1)* %a,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load volatile half, half addrspace(1)* %a
%b.val = load half, half addrspace(1)* %b		%b.val = load volatile half, half addrspace(1)* %b
%r.val = call half @llvm.maxnum.f16(half %a.val, half %b.val)		%r.val = call half @llvm.maxnum.f16(half %a.val, half %b.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}maxnum_f16_imm_a:		; GCN-LABEL: {{^}}maxnum_f16_imm_a:
; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
Show All 26 Lines
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
%r.val = call half @llvm.maxnum.f16(half %a.val, half 4.0)		%r.val = call half @llvm.maxnum.f16(half %a.val, half 4.0)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}maxnum_v2f16:		; GCN-LABEL: {{^}}maxnum_v2f16:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]
		; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
		; SI-DAG: v_max_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]
; SI-DAG: v_max_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]		; SI-DAG: v_max_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI-NOT: and		; SI-NOT: and
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]		; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]
; VI-DAG: v_max_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI-DAG: v_max_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI-NOT: and		; VI-NOT: and
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]

; GFX9: v_pk_max_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]		; GFX9: v_pk_max_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @maxnum_v2f16(		define amdgpu_kernel void @maxnum_v2f16(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}maxnum_v2f16_imm_a:		; GCN-LABEL: {{^}}maxnum_v2f16_imm_a:
; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]		; SI-DAG: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]		; SI-DAG: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400		; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]		; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]

; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SIVI-NOT: and		; SIVI-NOT: and
; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]


; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x44004200		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x44004200
; GFX9: v_pk_max_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], [[K]]		; GFX9: v_pk_max_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], [[K]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm
define amdgpu_kernel void @maxnum_v2f16_imm_a(		define amdgpu_kernel void @maxnum_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}maxnum_v2f16_imm_b:		; GCN-LABEL: {{^}}maxnum_v2f16_imm_b:
; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]		; SI-DAG: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]		; SI-DAG: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200		; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200
; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], [[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], [[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]		; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]

; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]


; SIVI-NOT: and		; SIVI-NOT: and
; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x42004400		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x42004400
; GFX9: v_pk_max_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]		; GFX9: v_pk_max_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm
define amdgpu_kernel void @maxnum_v2f16_imm_b(		define amdgpu_kernel void @maxnum_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)		%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
Show All 13 Lines	entry:
%r.val = call <3 x half> @llvm.maxnum.v3f16(<3 x half> %a.val, <3 x half> %b.val)		%r.val = call <3 x half> @llvm.maxnum.v3f16(<3 x half> %a.val, <3 x half> %b.val)
store <3 x half> %r.val, <3 x half> addrspace(1)* %r		store <3 x half> %r.val, <3 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}maxnum_v4f16:		; GCN-LABEL: {{^}}maxnum_v4f16:
; GFX89: buffer_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}		; GFX89: buffer_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}
; GFX89: buffer_load_dwordx2 v{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}		; GFX89: buffer_load_dwordx2 v{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}
; GFX9-DAG: v_pk_max_f16 v[[MAX_LO:[0-9]+]], v[[A_LO]], v[[B_LO]]		; GFX9-DAG: v_pk_max_f16 v[[MAX_LO:[0-9]+]], v[[B_LO]], v[[A_LO]]
; GFX9-DAG: v_pk_max_f16 v[[MAX_HI:[0-9]+]], v[[A_HI]], v[[B_HI]]		; GFX9-DAG: v_pk_max_f16 v[[MAX_HI:[0-9]+]], v[[B_HI]], v[[A_HI]]
; GFX9: buffer_store_dwordx2 v{{\[}}[[MAX_LO]]:[[MAX_HI]]{{\]}}		; GFX9: buffer_store_dwordx2 v{{\[}}[[MAX_LO]]:[[MAX_HI]]{{\]}}
define amdgpu_kernel void @maxnum_v4f16(		define amdgpu_kernel void @maxnum_v4f16(
<4 x half> addrspace(1)* %r,		<4 x half> addrspace(1)* %r,
<4 x half> addrspace(1)* %a,		<4 x half> addrspace(1)* %a,
<4 x half> addrspace(1)* %b) {		<4 x half> addrspace(1)* %b) {
entry:		entry:
%a.val = load <4 x half>, <4 x half> addrspace(1)* %a		%a.val = load <4 x half>, <4 x half> addrspace(1)* %a
%b.val = load <4 x half>, <4 x half> addrspace(1)* %b		%b.val = load <4 x half>, <4 x half> addrspace(1)* %b
Show All 35 Lines

test/CodeGen/AMDGPU/llvm.minnum.f16.ll

Show All 16 Lines
; GFX89: v_min_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]		; GFX89: v_min_f16_e32 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @minnum_f16(		define amdgpu_kernel void @minnum_f16(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a,		half addrspace(1)* %a,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load volatile half, half addrspace(1)* %a
%b.val = load half, half addrspace(1)* %b		%b.val = load volatile half, half addrspace(1)* %b
%r.val = call half @llvm.minnum.f16(half %a.val, half %b.val)		%r.val = call half @llvm.minnum.f16(half %a.val, half %b.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}minnum_f16_imm_a:		; GCN-LABEL: {{^}}minnum_f16_imm_a:
; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
Show All 26 Lines
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
%r.val = call half @llvm.minnum.f16(half %a.val, half 4.0)		%r.val = call half @llvm.minnum.f16(half %a.val, half 4.0)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}minnum_v2f16:		; GCN-LABEL: {{^}}minnum_v2f16:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]
		; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
		; SI-DAG: v_min_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]], v[[B_F32_0]]
; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]		; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]], v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI-NOT: and		; SI-NOT: and
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]		; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]
; VI-DAG: v_min_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI-DAG: v_min_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI-NOT: and		; VI-NOT: and
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]

; GFX9: v_pk_min_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]		; GFX9: v_pk_min_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm
define amdgpu_kernel void @minnum_v2f16(		define amdgpu_kernel void @minnum_v2f16(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}minnum_v2f16_imm_a:		; GCN-LABEL: {{^}}minnum_v2f16_imm_a:
; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]
		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI-DAG: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
		; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400		; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]		; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]

; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SIVI-NOT: and		; SIVI-NOT: and
; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]


; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x44004200		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x44004200
; GFX9: v_pk_min_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], [[K]]		; GFX9: v_pk_min_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], [[K]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
define amdgpu_kernel void @minnum_v2f16_imm_a(		define amdgpu_kernel void @minnum_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}minnum_v2f16_imm_b:		; GCN-LABEL: {{^}}minnum_v2f16_imm_b:
; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]		; SI-DAG: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]		; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200		; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200
; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], [[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], [[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]		; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]

; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x42004400
; GFX9: v_pk_min_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]

; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]


; SIVI-NOT: and		; SIVI-NOT: and
; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SIVI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x42004400
		; GFX9: v_pk_min_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm
define amdgpu_kernel void @minnum_v2f16_imm_b(		define amdgpu_kernel void @minnum_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)		%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
Show All 13 Lines	entry:
%r.val = call <3 x half> @llvm.minnum.v3f16(<3 x half> %a.val, <3 x half> %b.val)		%r.val = call <3 x half> @llvm.minnum.v3f16(<3 x half> %a.val, <3 x half> %b.val)
store <3 x half> %r.val, <3 x half> addrspace(1)* %r		store <3 x half> %r.val, <3 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}minnum_v4f16:		; GCN-LABEL: {{^}}minnum_v4f16:
; GFX89: buffer_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}		; GFX89: buffer_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}
; GFX89: buffer_load_dwordx2 v{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}		; GFX89: buffer_load_dwordx2 v{{\[}}[[B_LO:[0-9]+]]:[[B_HI:[0-9]+]]{{\]}}
; GFX9-DAG: v_pk_min_f16 v[[MIN_LO:[0-9]+]], v[[A_LO]], v[[B_LO]]		; GFX9-DAG: v_pk_min_f16 v[[MIN_LO:[0-9]+]], v[[B_LO]], v[[A_LO]]
; GFX9-DAG: v_pk_min_f16 v[[MIN_HI:[0-9]+]], v[[A_HI]], v[[B_HI]]		; GFX9-DAG: v_pk_min_f16 v[[MIN_HI:[0-9]+]], v[[B_HI]], v[[A_HI]]
; GFX9: buffer_store_dwordx2 v{{\[}}[[MIN_LO]]:[[MIN_HI]]{{\]}}		; GFX9: buffer_store_dwordx2 v{{\[}}[[MIN_LO]]:[[MIN_HI]]{{\]}}
define amdgpu_kernel void @minnum_v4f16(		define amdgpu_kernel void @minnum_v4f16(
<4 x half> addrspace(1)* %r,		<4 x half> addrspace(1)* %r,
<4 x half> addrspace(1)* %a,		<4 x half> addrspace(1)* %a,
<4 x half> addrspace(1)* %b) {		<4 x half> addrspace(1)* %b) {
entry:		entry:
%a.val = load <4 x half>, <4 x half> addrspace(1)* %a		%a.val = load <4 x half>, <4 x half> addrspace(1)* %a
%b.val = load <4 x half>, <4 x half> addrspace(1)* %b		%b.val = load <4 x half>, <4 x half> addrspace(1)* %b
Show All 35 Lines

test/CodeGen/AMDGPU/llvm.rint.f16.ll

Show All 19 Lines	entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
%r.val = call half @llvm.rint.f16(half %a.val)		%r.val = call half @llvm.rint.f16(half %a.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}rint_v2f16		; GCN-LABEL: {{^}}rint_v2f16
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_rndne_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]		; SI-DAG: v_rndne_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_rndne_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]		; SI-DAG: v_rndne_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI-NOT: v_and_b32		; SI-NOT: v_and_b32
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_rndne_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]		; VI-DAG: v_rndne_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]
; VI-DAG: v_rndne_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1		; VI-DAG: v_rndne_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI-NOT: v_and_b32		; VI-NOT: v_and_b32
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]
Show All 18 Lines

test/CodeGen/AMDGPU/llvm.sin.f16.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s

	declare half @llvm.sin.f16(half %a)			declare half @llvm.sin.f16(half %a)
	declare <2 x half> @llvm.sin.v2f16(<2 x half> %a)			declare <2 x half> @llvm.sin.v2f16(<2 x half> %a)

	; GCN-LABEL: {{^}}sin_f16			; GCN-LABEL: {{^}}sin_f16:
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; GCN: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; GCN: v_mul_f32_e32 v[[M_F32:[0-9]+]], {{0.15915494\|0x3e22f983}}, v[[A_F32]]			; GCN: v_mul_f32_e32 v[[M_F32:[0-9]+]], {{0.15915494\|0x3e22f983}}, v[[A_F32]]
	; GCN: v_fract_f32_e32 v[[F_F32:[0-9]+]], v[[M_F32]]			; GCN: v_fract_f32_e32 v[[F_F32:[0-9]+]], v[[M_F32]]
	; GCN: v_sin_f32_e32 v[[R_F32:[0-9]+]], v[[F_F32]]			; GCN: v_sin_f32_e32 v[[R_F32:[0-9]+]], v[[F_F32]]
	; GCN: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]			; GCN: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @sin_f16(			define amdgpu_kernel void @sin_f16(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a) {			half addrspace(1)* %a) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load half, half addrspace(1)* %a
	%r.val = call half @llvm.sin.f16(half %a.val)			%r.val = call half @llvm.sin.f16(half %a.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}sin_v2f16			; GCN-LABEL: {{^}}sin_v2f16:
	; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]			; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
	; SI: v_mov_b32_e32 v[[HALF_PIE:[0-9]+]], 0x3e22f983{{$}}			; SI: v_mov_b32_e32 v[[HALF_PI:[0-9]+]], 0x3e22f983{{$}}

				; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
	; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; SI: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], v[[A_F32_0]], v[[HALF_PI]]
	; SI-DAG: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], v[[A_F32_0]], v[[HALF_PIE]]			; SI: v_fract_f32_e32 v[[F_F32_0:[0-9]+]], v[[M_F32_0]]
	; SI-DAG: v_fract_f32_e32 v[[F_F32_0:[0-9]+]], v[[M_F32_0]]			; SI: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], v[[A_F32_1]], v[[HALF_PI]]
	; SI-DAG: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], v[[A_F32_1]], v[[HALF_PIE]]			; SI: v_fract_f32_e32 v[[F_F32_1:[0-9]+]], v[[M_F32_1]]
	; SI-DAG: v_fract_f32_e32 v[[F_F32_1:[0-9]+]], v[[M_F32_1]]			; SI: v_sin_f32_e32 v[[R_F32_1:[0-9]+]], v[[F_F32_1]]
				; SI: v_sin_f32_e32 v[[R_F32_0:[0-9]+]], v[[F_F32_0]]
				; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

	; VI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; VI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; VI-DAG: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; VI-DAG: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; VI-DAG: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], 0.15915494, v[[A_F32_0]]			; VI-DAG: v_mul_f32_e32 v[[M_F32_0:[0-9]+]], 0.15915494, v[[A_F32_0]]
	; VI-DAG: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], 0.15915494, v[[A_F32_1]]			; VI-DAG: v_mul_f32_e32 v[[M_F32_1:[0-9]+]], 0.15915494, v[[A_F32_1]]
	; VI-DAG: v_fract_f32_e32 v[[F_F32_0:[0-9]+]], v[[M_F32_0]]			; VI-DAG: v_fract_f32_e32 v[[F_F32_0:[0-9]+]], v[[M_F32_0]]
	; VI-DAG: v_fract_f32_e32 v[[F_F32_1:[0-9]+]], v[[M_F32_1]]			; VI-DAG: v_fract_f32_e32 v[[F_F32_1:[0-9]+]], v[[M_F32_1]]
				; VI: v_sin_f32_e32 v[[R_F32_1:[0-9]+]], v[[F_F32_1]]
				; VI: v_sin_f32_e32 v[[R_F32_0:[0-9]+]], v[[F_F32_0]]

	; GCN-DAG: v_sin_f32_e32 v[[R_F32_0:[0-9]+]], v[[F_F32_0]]
	; GCN-DAG: v_sin_f32_e32 v[[R_F32_1:[0-9]+]], v[[F_F32_1]]
	; GCN-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; GCN-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]

	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

	; VI-DAG: v_cvt_f16_f32_sdwa v[[R_F16_1:[0-9]+]], v[[R_F32_1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD			; VI-DAG: v_cvt_f16_f32_sdwa v[[R_F16_1:[0-9]+]], v[[R_F32_1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	Show All 9 Lines

test/CodeGen/AMDGPU/llvm.trunc.f16.ll

Show All 18 Lines	entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
%r.val = call half @llvm.trunc.f16(half %a.val)		%r.val = call half @llvm.trunc.f16(half %a.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}trunc_v2f16		; GCN-LABEL: {{^}}trunc_v2f16
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_trunc_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]		; SI-DAG: v_trunc_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_trunc_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]		; SI-DAG: v_trunc_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI-NOT: v_and_b32		; SI-NOT: v_and_b32
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_HI]]

; VI-DAG: v_trunc_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]		; VI-DAG: v_trunc_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_V2_F16]]
; VI-DAG: v_trunc_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1		; VI-DAG: v_trunc_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI-NOT: v_and_b32		; VI-NOT: v_and_b32
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]
Show All 12 Lines

test/CodeGen/AMDGPU/load-select-ptr.ll

	Show All 11 Lines
	; GCN: v_cndmask_b32			; GCN: v_cndmask_b32
	; GCN: v_cndmask_b32			; GCN: v_cndmask_b32

	; GCN-NOT: load_dword			; GCN-NOT: load_dword
	; GCN: flat_load_dwordx2			; GCN: flat_load_dwordx2
	; GCN-NOT: load_dword			; GCN-NOT: load_dword

	; GCN: flat_store_dwordx2			; GCN: flat_store_dwordx2
	define amdgpu_kernel void @select_ptr_crash_i64_flat(i32 %tmp, i64* %ptr0, i64* %ptr1, i64 addrspace(1)* %ptr2) {			define amdgpu_kernel void @select_ptr_crash_i64_flat(i32 %tmp, [8 x i32], i64* %ptr0, [8 x i32], i64* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {
	%tmp2 = icmp eq i32 %tmp, 0			%tmp2 = icmp eq i32 %tmp, 0
	%tmp3 = load i64, i64* %ptr0, align 8			%tmp3 = load i64, i64* %ptr0, align 8
	%tmp4 = load i64, i64* %ptr1, align 8			%tmp4 = load i64, i64* %ptr1, align 8
	%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4			%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4
	store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8			store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8
	ret void			ret void
	}			}

	; The transform currently doesn't happen for non-addrspace 0, but it			; The transform currently doesn't happen for non-addrspace 0, but it
	; should.			; should.

	; GCN-LABEL: {{^}}select_ptr_crash_i64_global:			; GCN-LABEL: {{^}}select_ptr_crash_i64_global:
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}			; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}
	; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}			; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}
	; GCN: v_cndmask_b32			; GCN: v_cndmask_b32
	; GCN: v_cndmask_b32			; GCN: v_cndmask_b32
	; GCN: flat_store_dwordx2			; GCN: flat_store_dwordx2
	define amdgpu_kernel void @select_ptr_crash_i64_global(i32 %tmp, i64 addrspace(1)* %ptr0, i64 addrspace(1)* %ptr1, i64 addrspace(1)* %ptr2) {			define amdgpu_kernel void @select_ptr_crash_i64_global(i32 %tmp, [8 x i32], i64 addrspace(1)* %ptr0, [8 x i32], i64 addrspace(1)* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {
	%tmp2 = icmp eq i32 %tmp, 0			%tmp2 = icmp eq i32 %tmp, 0
	%tmp3 = load i64, i64 addrspace(1)* %ptr0, align 8			%tmp3 = load i64, i64 addrspace(1)* %ptr0, align 8
	%tmp4 = load i64, i64 addrspace(1)* %ptr1, align 8			%tmp4 = load i64, i64 addrspace(1)* %ptr1, align 8
	%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4			%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4
	store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8			store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8
	ret void			ret void
	}			}

	Show All 33 Lines

test/CodeGen/AMDGPU/lower-kernargs.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
				; FIXME: Manually added checks for metadata nodes at bottom
				; RUN: opt -mtriple=amdgcn-amd-amdhsa -S -o - -amdgpu-lower-kernel-arguments %s \| FileCheck -check-prefix=HSA %s
				; RUN: opt -mtriple=amdgcn-- -S -o - -amdgpu-lower-kernel-arguments %s \| FileCheck -check-prefix=MESA %s

				define amdgpu_kernel void @kern_noargs() {
				; HSA-LABEL: @kern_noargs(
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_noargs(
				; MESA-NEXT: ret void
				;
				ret void
				}

				define amdgpu_kernel void @kern_i8(i8 %arg) #0 {
				; HSA-LABEL: @kern_i8(
				; HSA-NEXT: [[KERN_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_I8_KERNARG_SEGMENT]] to [[KERN_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: store i8 [[TMP4]], i8 addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_i8(
				; MESA-NEXT: [[KERN_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: store i8 [[TMP5]], i8 addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store i8 %arg, i8 addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_i16(i16 %arg) #0 {
				; HSA-LABEL: @kern_i16(
				; HSA-NEXT: [[KERN_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_I16_KERNARG_SEGMENT]] to [[KERN_I16:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_I16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i16
				; HSA-NEXT: store i16 [[TMP4]], i16 addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_i16(
				; MESA-NEXT: [[KERN_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_I16_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_I16:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i16
				; MESA-NEXT: store i16 [[TMP5]], i16 addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store i16 %arg, i16 addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_f16(half %arg) #0 {
				; HSA-LABEL: @kern_f16(
				; HSA-NEXT: [[KERN_F16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_F16_KERNARG_SEGMENT]] to [[KERN_F16:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_F16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i16
				; HSA-NEXT: [[ARG_LOAD:%.*]] = bitcast i16 [[TMP4]] to half
				; HSA-NEXT: store half [[ARG_LOAD]], half addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_f16(
				; MESA-NEXT: [[KERN_F16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_F16_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_F16:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i16
				; MESA-NEXT: [[ARG_LOAD:%.*]] = bitcast i16 [[TMP5]] to half
				; MESA-NEXT: store half [[ARG_LOAD]], half addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store half %arg, half addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_zeroext_i8(i8 zeroext %arg) #0 {
				; HSA-LABEL: @kern_zeroext_i8(
				; HSA-NEXT: [[KERN_ZEROEXT_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_ZEROEXT_I8_KERNARG_SEGMENT]] to [[KERN_ZEROEXT_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_ZEROEXT_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: store i8 [[TMP4]], i8 addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_zeroext_i8(
				; MESA-NEXT: [[KERN_ZEROEXT_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_ZEROEXT_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_ZEROEXT_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !range !1, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: store i8 [[TMP5]], i8 addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store i8 %arg, i8 addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_zeroext_i16(i16 zeroext %arg) #0 {
				; HSA-LABEL: @kern_zeroext_i16(
				; HSA-NEXT: [[KERN_ZEROEXT_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_ZEROEXT_I16_KERNARG_SEGMENT]] to [[KERN_ZEROEXT_I16:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_ZEROEXT_I16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i16
				; HSA-NEXT: store i16 [[TMP4]], i16 addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_zeroext_i16(
				; MESA-NEXT: [[KERN_ZEROEXT_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_ZEROEXT_I16_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_ZEROEXT_I16:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !range !2, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i16
				; MESA-NEXT: store i16 [[TMP5]], i16 addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store i16 %arg, i16 addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_signext_i8(i8 signext %arg) #0 {
				; HSA-LABEL: @kern_signext_i8(
				; HSA-NEXT: [[KERN_SIGNEXT_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_SIGNEXT_I8_KERNARG_SEGMENT]] to [[KERN_SIGNEXT_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_SIGNEXT_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: store i8 [[TMP4]], i8 addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_signext_i8(
				; MESA-NEXT: [[KERN_SIGNEXT_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_SIGNEXT_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_SIGNEXT_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !range !3, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: store i8 [[TMP5]], i8 addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store i8 %arg, i8 addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_signext_i16(i16 signext %arg) #0 {
				; HSA-LABEL: @kern_signext_i16(
				; HSA-NEXT: [[KERN_SIGNEXT_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_SIGNEXT_I16_KERNARG_SEGMENT]] to [[KERN_SIGNEXT_I16:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_SIGNEXT_I16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i16
				; HSA-NEXT: store i16 [[TMP4]], i16 addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_signext_i16(
				; MESA-NEXT: [[KERN_SIGNEXT_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_SIGNEXT_I16_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_SIGNEXT_I16:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !range !4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i16
				; MESA-NEXT: store i16 [[TMP5]], i16 addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store i16 %arg, i16 addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_i8_i8(i8 %arg0, i8 %arg1) {
				; HSA-LABEL: @kern_i8_i8(
				; HSA-NEXT: [[KERN_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_I8_I8_KERNARG_SEGMENT]] to [[KERN_I8_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i8
				; HSA-NEXT: store volatile i8 [[TMP4]], i8 addrspace(1)* undef, align 1
				; HSA-NEXT: store volatile i8 [[TMP8]], i8 addrspace(1)* undef, align 1
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_i8_i8(
				; MESA-NEXT: [[KERN_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_I8_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_I8_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i8
				; MESA-NEXT: store volatile i8 [[TMP5]], i8 addrspace(1)* undef, align 1
				; MESA-NEXT: store volatile i8 [[TMP9]], i8 addrspace(1)* undef, align 1
				; MESA-NEXT: ret void
				;
				store volatile i8 %arg0, i8 addrspace(1)* undef, align 1
				store volatile i8 %arg1, i8 addrspace(1)* undef, align 1
				ret void
				}

				define amdgpu_kernel void @kern_v3i8(<3 x i8> %arg) {
				; HSA-LABEL: @kern_v3i8(
				; HSA-NEXT: [[KERN_V3I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_V3I8_KERNARG_SEGMENT]] to [[KERN_V3I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_V3I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i24
				; HSA-NEXT: [[ARG_LOAD:%.*]] = bitcast i24 [[TMP4]] to <3 x i8>
				; HSA-NEXT: store <3 x i8> [[ARG_LOAD]], <3 x i8> addrspace(1)* undef, align 4
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_v3i8(
				; MESA-NEXT: [[KERN_V3I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_V3I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_V3I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i24
				; MESA-NEXT: [[ARG_LOAD:%.*]] = bitcast i24 [[TMP5]] to <3 x i8>
				; MESA-NEXT: store <3 x i8> [[ARG_LOAD]], <3 x i8> addrspace(1)* undef, align 4
				; MESA-NEXT: ret void
				;
				store <3 x i8> %arg, <3 x i8> addrspace(1)* undef, align 4
				ret void
				}

				define amdgpu_kernel void @kern_i24(i24 %arg0) {
				; HSA-LABEL: @kern_i24(
				; HSA-NEXT: [[KERN_I24_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_I24_KERNARG_SEGMENT]] to [[KERN_I24:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_I24_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i24
				; HSA-NEXT: store i24 [[TMP4]], i24 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_i24(
				; MESA-NEXT: [[KERN_I24_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_I24_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_I24:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i24
				; MESA-NEXT: store i24 [[TMP5]], i24 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store i24 %arg0, i24 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_i32(i32 %arg0) {
				; HSA-LABEL: @kern_i32(
				; HSA-NEXT: [[KERN_I32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_I32_KERNARG_SEGMENT]] to [[KERN_I32:%.]] addrspace(4)
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_I32]], [[KERN_I32]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[ARG0_LOAD:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: store i32 [[ARG0_LOAD]], i32 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_i32(
				; MESA-NEXT: [[KERN_I32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_I32_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_I32:%.]] addrspace(4)
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_I32]], [[KERN_I32]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[ARG0_LOAD:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: store i32 [[ARG0_LOAD]], i32 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store i32 %arg0, i32 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_f32(float %arg0) {
				; HSA-LABEL: @kern_f32(
				; HSA-NEXT: [[KERN_F32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_F32_KERNARG_SEGMENT]] to [[KERN_F32:%.]] addrspace(4)
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_F32]], [[KERN_F32]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[ARG0_LOAD:%.]] = load float, float addrspace(4) [[ARG0_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: store float [[ARG0_LOAD]], float addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_f32(
				; MESA-NEXT: [[KERN_F32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_F32_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_F32:%.]] addrspace(4)
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_F32]], [[KERN_F32]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[ARG0_LOAD:%.]] = load float, float addrspace(4) [[ARG0_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: store float [[ARG0_LOAD]], float addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store float %arg0, float addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_v3i32(<3 x i32> %arg0) {
				; HSA-LABEL: @kern_v3i32(
				; HSA-NEXT: [[KERN_V3I32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(16) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_V3I32_KERNARG_SEGMENT]] to [[KERN_V3I32:%.]] addrspace(4)
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_V3I32]], [[KERN_V3I32]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[TMP2:%.]] = bitcast <3 x i32> addrspace(4) [[ARG0_KERNARG_OFFSET]] to <4 x i32> addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load <4 x i32>, <4 x i32> addrspace(4) [[TMP2]], align 16, !invariant.load !0
				; HSA-NEXT: [[ARG0_LOAD:%.*]] = shufflevector <4 x i32> [[TMP3]], <4 x i32> undef, <3 x i32> <i32 0, i32 1, i32 2>
				; HSA-NEXT: store <3 x i32> [[ARG0_LOAD]], <3 x i32> addrspace(1)* undef, align 4
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_v3i32(
				; MESA-NEXT: [[KERN_V3I32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(52) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_V3I32_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_V3I32:%.]] addrspace(4)
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_V3I32]], [[KERN_V3I32]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[TMP3:%.]] = bitcast <3 x i32> addrspace(4) [[ARG0_KERNARG_OFFSET]] to <4 x i32> addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load <4 x i32>, <4 x i32> addrspace(4) [[TMP3]], align 4, !invariant.load !0
				; MESA-NEXT: [[ARG0_LOAD:%.*]] = shufflevector <4 x i32> [[TMP4]], <4 x i32> undef, <3 x i32> <i32 0, i32 1, i32 2>
				; MESA-NEXT: store <3 x i32> [[ARG0_LOAD]], <3 x i32> addrspace(1)* undef, align 4
				; MESA-NEXT: ret void
				;
				store <3 x i32> %arg0, <3 x i32> addrspace(1)* undef, align 4
				ret void
				}

				define amdgpu_kernel void @kern_i32_v3i32(i32 %arg0, <3 x i32> %arg1) {
				; HSA-LABEL: @kern_i32_v3i32(
				; HSA-NEXT: [[KERN_I32_V3I32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(32) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_I32_V3I32_KERNARG_SEGMENT]] to [[KERN_I32_V3I32:%.]] addrspace(4)
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_I32_V3I32]], [[KERN_I32_V3I32]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[ARG0_LOAD:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_I32_V3I32]], [[KERN_I32_V3I32]] addrspace(4) [[TMP1]], i32 0, i32 1
				; HSA-NEXT: [[TMP2:%.]] = bitcast <3 x i32> addrspace(4) [[ARG1_KERNARG_OFFSET]] to <4 x i32> addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load <4 x i32>, <4 x i32> addrspace(4) [[TMP2]], align 16, !invariant.load !0
				; HSA-NEXT: [[ARG1_LOAD:%.*]] = shufflevector <4 x i32> [[TMP3]], <4 x i32> undef, <3 x i32> <i32 0, i32 1, i32 2>
				; HSA-NEXT: store i32 [[ARG0_LOAD]], i32 addrspace(1)* undef
				; HSA-NEXT: store <3 x i32> [[ARG1_LOAD]], <3 x i32> addrspace(1)* undef, align 4
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_i32_v3i32(
				; MESA-NEXT: [[KERN_I32_V3I32_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(68) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_I32_V3I32_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_I32_V3I32:%.]] addrspace(4)
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_I32_V3I32]], [[KERN_I32_V3I32]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[ARG0_LOAD:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_I32_V3I32]], [[KERN_I32_V3I32]] addrspace(4) [[TMP2]], i32 0, i32 1
				; MESA-NEXT: [[TMP3:%.]] = bitcast <3 x i32> addrspace(4) [[ARG1_KERNARG_OFFSET]] to <4 x i32> addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load <4 x i32>, <4 x i32> addrspace(4) [[TMP3]], align 4, !invariant.load !0
				; MESA-NEXT: [[ARG1_LOAD:%.*]] = shufflevector <4 x i32> [[TMP4]], <4 x i32> undef, <3 x i32> <i32 0, i32 1, i32 2>
				; MESA-NEXT: store i32 [[ARG0_LOAD]], i32 addrspace(1)* undef
				; MESA-NEXT: store <3 x i32> [[ARG1_LOAD]], <3 x i32> addrspace(1)* undef, align 4
				; MESA-NEXT: ret void
				;
				store i32 %arg0, i32 addrspace(1)* undef
				store <3 x i32> %arg1, <3 x i32> addrspace(1)* undef, align 4
				ret void
				}

				%struct.a = type { i32, i8, [4 x i8] }
				%struct.b.packed = type { i8, i32, [3 x i16], <2 x double> }

				define amdgpu_kernel void @kern_struct_a(%struct.a %arg0) {
				; HSA-LABEL: @kern_struct_a(
				; HSA-NEXT: [[KERN_STRUCT_A_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(12) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_STRUCT_A_KERNARG_SEGMENT]] to [[KERN_STRUCT_A:%.]] addrspace(4)
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_STRUCT_A]], [[KERN_STRUCT_A]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[ARG0_LOAD:%.]] = load [[STRUCT_A:%.]], [[STRUCT_A]] addrspace(4)* [[ARG0_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: store [[STRUCT_A]] %arg0.load, [[STRUCT_A]] addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_struct_a(
				; MESA-NEXT: [[KERN_STRUCT_A_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(48) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_STRUCT_A_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_STRUCT_A:%.]] addrspace(4)
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_STRUCT_A]], [[KERN_STRUCT_A]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[ARG0_LOAD:%.]] = load [[STRUCT_A:%.]], [[STRUCT_A]] addrspace(4)* [[ARG0_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: store [[STRUCT_A]] %arg0.load, [[STRUCT_A]] addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store %struct.a %arg0, %struct.a addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_struct_b_packed(%struct.b.packed %arg0) #0 {
				; HSA-LABEL: @kern_struct_b_packed(
				; HSA-NEXT: [[KERN_STRUCT_B_PACKED_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(32) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_STRUCT_B_PACKED_KERNARG_SEGMENT]] to [[KERN_STRUCT_B_PACKED:%.]] addrspace(4)
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_STRUCT_B_PACKED]], [[KERN_STRUCT_B_PACKED]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[ARG0_LOAD:%.]] = load [[STRUCT_B_PACKED:%.]], [[STRUCT_B_PACKED]] addrspace(4)* [[ARG0_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: store [[STRUCT_B_PACKED]] %arg0.load, [[STRUCT_B_PACKED]] addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_struct_b_packed(
				; MESA-NEXT: [[KERN_STRUCT_B_PACKED_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(68) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_STRUCT_B_PACKED_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_STRUCT_B_PACKED:%.]] addrspace(4)
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_STRUCT_B_PACKED]], [[KERN_STRUCT_B_PACKED]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[ARG0_LOAD:%.]] = load [[STRUCT_B_PACKED:%.]], [[STRUCT_B_PACKED]] addrspace(4)* [[ARG0_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: store [[STRUCT_B_PACKED]] %arg0.load, [[STRUCT_B_PACKED]] addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store %struct.b.packed %arg0, %struct.b.packed addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_implicit_arg_num_bytes(i32 %arg0) #1 {
				; HSA-LABEL: @kern_implicit_arg_num_bytes(
				; HSA-NEXT: [[KERN_IMPLICIT_ARG_NUM_BYTES_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(48) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_IMPLICIT_ARG_NUM_BYTES_KERNARG_SEGMENT]] to [[KERN_IMPLICIT_ARG_NUM_BYTES:%.]] addrspace(4)
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_IMPLICIT_ARG_NUM_BYTES]], [[KERN_IMPLICIT_ARG_NUM_BYTES]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[ARG0_LOAD:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: store i32 [[ARG0_LOAD]], i32 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_implicit_arg_num_bytes(
				; MESA-NEXT: [[KERN_IMPLICIT_ARG_NUM_BYTES_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(80) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_IMPLICIT_ARG_NUM_BYTES_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_IMPLICIT_ARG_NUM_BYTES:%.]] addrspace(4)
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_IMPLICIT_ARG_NUM_BYTES]], [[KERN_IMPLICIT_ARG_NUM_BYTES]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[ARG0_LOAD:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: store i32 [[ARG0_LOAD]], i32 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store i32 %arg0, i32 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_lds_ptr(i32 addrspace(3)* %lds) #0 {
				; HSA-LABEL: @kern_lds_ptr(
				; HSA-NEXT: [[KERN_LDS_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_LDS_PTR_KERNARG_SEGMENT]] to [[KERN_LDS_PTR:%.]] addrspace(4)
				; HSA-NEXT: [[LDS_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_LDS_PTR]], [[KERN_LDS_PTR]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[LDS_LOAD:%.]] = load i32 addrspace(3), i32 addrspace(3)* addrspace(4)* [[LDS_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: store i32 0, i32 addrspace(3)* [[LDS_LOAD]], align 4
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_lds_ptr(
				; MESA-NEXT: [[KERN_LDS_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_LDS_PTR_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_LDS_PTR:%.]] addrspace(4)
				; MESA-NEXT: [[LDS_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_LDS_PTR]], [[KERN_LDS_PTR]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[LDS_LOAD:%.]] = load i32 addrspace(3), i32 addrspace(3)* addrspace(4)* [[LDS_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: store i32 0, i32 addrspace(3)* [[LDS_LOAD]], align 4
				; MESA-NEXT: ret void
				;
				store i32 0, i32 addrspace(3)* %lds, align 4
				ret void
				}

				define amdgpu_kernel void @kern_lds_ptr_si(i32 addrspace(3)* %lds) #2 {
				; HSA-LABEL: @kern_lds_ptr_si(
				; HSA-NEXT: [[KERN_LDS_PTR_SI_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_LDS_PTR_SI_KERNARG_SEGMENT]] to [[KERN_LDS_PTR_SI:%.]] addrspace(4)
				; HSA-NEXT: store i32 0, i32 addrspace(3)* [[LDS:%.*]], align 4
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_lds_ptr_si(
				; MESA-NEXT: [[KERN_LDS_PTR_SI_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_LDS_PTR_SI_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_LDS_PTR_SI:%.]] addrspace(4)
				; MESA-NEXT: store i32 0, i32 addrspace(3)* [[LDS:%.*]], align 4
				; MESA-NEXT: ret void
				;
				store i32 0, i32 addrspace(3)* %lds, align 4
				ret void
				}

				define amdgpu_kernel void @kern_realign_i8_i8(i8 %arg0, i8 %arg1) #0 {
				; HSA-LABEL: @kern_realign_i8_i8(
				; HSA-NEXT: [[KERN_REALIGN_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I8_I8_KERNARG_SEGMENT]] to [[KERN_REALIGN_I8_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i8
				; HSA-NEXT: store volatile i8 [[TMP4]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP8]], i8 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i8_i8(
				; MESA-NEXT: [[KERN_REALIGN_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I8_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i8
				; MESA-NEXT: store volatile i8 [[TMP5]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP9]], i8 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 %arg0, i8 addrspace(1)* undef
				store volatile i8 %arg1, i8 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i8_i8_i8(i8 %arg0, i8 %arg1, i8 %arg2) #0 {
				; HSA-LABEL: @kern_realign_i8_i8_i8(
				; HSA-NEXT: [[KERN_REALIGN_I8_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_KERNARG_SEGMENT]] to [[KERN_REALIGN_I8_I8_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i8
				; HSA-NEXT: [[TMP9:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP9]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP10:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP11:%.*]] = lshr i32 [[TMP10]], 16
				; HSA-NEXT: [[TMP12:%.*]] = trunc i32 [[TMP11]] to i8
				; HSA-NEXT: store volatile i8 [[TMP4]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP8]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP12]], i8 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i8_i8_i8(
				; MESA-NEXT: [[KERN_REALIGN_I8_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I8_I8_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i8
				; MESA-NEXT: [[TMP10:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP10]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP11:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP12:%.*]] = lshr i32 [[TMP11]], 16
				; MESA-NEXT: [[TMP13:%.*]] = trunc i32 [[TMP12]] to i8
				; MESA-NEXT: store volatile i8 [[TMP5]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP9]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP13]], i8 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 %arg0, i8 addrspace(1)* undef
				store volatile i8 %arg1, i8 addrspace(1)* undef
				store volatile i8 %arg2, i8 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i8_i8_i8_i8(i8 %arg0, i8 %arg1, i8 %arg2, i8 %arg3) #0 {
				; HSA-LABEL: @kern_realign_i8_i8_i8_i8(
				; HSA-NEXT: [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT]] to [[KERN_REALIGN_I8_I8_I8_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i8
				; HSA-NEXT: [[TMP9:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP9]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP10:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP11:%.*]] = lshr i32 [[TMP10]], 16
				; HSA-NEXT: [[TMP12:%.*]] = trunc i32 [[TMP11]] to i8
				; HSA-NEXT: [[TMP13:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG3_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP13]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP14:%.]] = load i32, i32 addrspace(4) [[ARG3_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP15:%.*]] = lshr i32 [[TMP14]], 24
				; HSA-NEXT: [[TMP16:%.*]] = trunc i32 [[TMP15]] to i8
				; HSA-NEXT: store volatile i8 [[TMP4]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP8]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP12]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP16]], i8 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i8_i8_i8_i8(
				; MESA-NEXT: [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I8_I8_I8_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i8
				; MESA-NEXT: [[TMP10:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP10]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP11:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP12:%.*]] = lshr i32 [[TMP11]], 16
				; MESA-NEXT: [[TMP13:%.*]] = trunc i32 [[TMP12]] to i8
				; MESA-NEXT: [[TMP14:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG3_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP14]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP15:%.]] = load i32, i32 addrspace(4) [[ARG3_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP16:%.*]] = lshr i32 [[TMP15]], 24
				; MESA-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i8
				; MESA-NEXT: store volatile i8 [[TMP5]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP9]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP13]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP17]], i8 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 %arg0, i8 addrspace(1)* undef
				store volatile i8 %arg1, i8 addrspace(1)* undef
				store volatile i8 %arg2, i8 addrspace(1)* undef
				store volatile i8 %arg3, i8 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i8_v3i8(i8 %arg0, <3 x i8> %arg1) #0 {
				; HSA-LABEL: @kern_realign_i8_v3i8(
				; HSA-NEXT: [[KERN_REALIGN_I8_V3I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I8_V3I8_KERNARG_SEGMENT]] to [[KERN_REALIGN_I8_V3I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_V3I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_V3I8_KERNARG_SEGMENT]], i64 4
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = trunc i32 [[TMP6]] to i24
				; HSA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i24 [[TMP7]] to <3 x i8>
				; HSA-NEXT: store volatile i8 [[TMP4]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile <3 x i8> [[ARG1_LOAD]], <3 x i8> addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i8_v3i8(
				; MESA-NEXT: [[KERN_REALIGN_I8_V3I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I8_V3I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I8_V3I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 4
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i24
				; MESA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i24 [[TMP8]] to <3 x i8>
				; MESA-NEXT: store volatile i8 [[TMP5]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile <3 x i8> [[ARG1_LOAD]], <3 x i8> addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 %arg0, i8 addrspace(1)* undef
				store volatile <3 x i8> %arg1, <3 x i8> addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i8_i16(i8 %arg0, i16 %arg1) #0 {
				; HSA-LABEL: @kern_realign_i8_i16(
				; HSA-NEXT: [[KERN_REALIGN_I8_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I8_I16_KERNARG_SEGMENT]] to [[KERN_REALIGN_I8_I16:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 16
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i16
				; HSA-NEXT: store volatile i8 [[TMP4]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i16 [[TMP8]], i16 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i8_i16(
				; MESA-NEXT: [[KERN_REALIGN_I8_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I8_I16_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I8_I16:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 16
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i16
				; MESA-NEXT: store volatile i8 [[TMP5]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i16 [[TMP9]], i16 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 %arg0, i8 addrspace(1)* undef
				store volatile i16 %arg1, i16 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i1_i1(i1 %arg0, i1 %arg1) #0 {
				; HSA-LABEL: @kern_realign_i1_i1(
				; HSA-NEXT: [[KERN_REALIGN_I1_I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I1_I1_KERNARG_SEGMENT]] to [[KERN_REALIGN_I1_I1:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i1
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i1
				; HSA-NEXT: store volatile i1 [[TMP4]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile i1 [[TMP8]], i1 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i1_i1(
				; MESA-NEXT: [[KERN_REALIGN_I1_I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I1_I1:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i1
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i1
				; MESA-NEXT: store volatile i1 [[TMP5]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile i1 [[TMP9]], i1 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i1 %arg0, i1 addrspace(1)* undef
				store volatile i1 %arg1, i1 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i1_i1_i1(i1 %arg0, i1 %arg1, i1 %arg2) #0 {
				; HSA-LABEL: @kern_realign_i1_i1_i1(
				; HSA-NEXT: [[KERN_REALIGN_I1_I1_I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_KERNARG_SEGMENT]] to [[KERN_REALIGN_I1_I1_I1:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i1
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i1
				; HSA-NEXT: [[TMP9:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP9]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP10:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP11:%.*]] = lshr i32 [[TMP10]], 16
				; HSA-NEXT: [[TMP12:%.*]] = trunc i32 [[TMP11]] to i1
				; HSA-NEXT: store volatile i1 [[TMP4]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile i1 [[TMP8]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile i1 [[TMP12]], i1 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i1_i1_i1(
				; MESA-NEXT: [[KERN_REALIGN_I1_I1_I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I1_I1_I1:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i1
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i1
				; MESA-NEXT: [[TMP10:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP10]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP11:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP12:%.*]] = lshr i32 [[TMP11]], 16
				; MESA-NEXT: [[TMP13:%.*]] = trunc i32 [[TMP12]] to i1
				; MESA-NEXT: store volatile i1 [[TMP5]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile i1 [[TMP9]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile i1 [[TMP13]], i1 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i1 %arg0, i1 addrspace(1)* undef
				store volatile i1 %arg1, i1 addrspace(1)* undef
				store volatile i1 %arg2, i1 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i1_i1_i1_i1(i1 %arg0, i1 %arg1, i1 %arg2, i1 %arg3) #0 {
				; HSA-LABEL: @kern_realign_i1_i1_i1_i1(
				; HSA-NEXT: [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT]] to [[KERN_REALIGN_I1_I1_I1_I1:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i1
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i1
				; HSA-NEXT: [[TMP9:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP9]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP10:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP11:%.*]] = lshr i32 [[TMP10]], 16
				; HSA-NEXT: [[TMP12:%.*]] = trunc i32 [[TMP11]] to i1
				; HSA-NEXT: [[TMP13:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG3_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP13]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP14:%.]] = load i32, i32 addrspace(4) [[ARG3_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP15:%.*]] = lshr i32 [[TMP14]], 24
				; HSA-NEXT: [[TMP16:%.*]] = trunc i32 [[TMP15]] to i1
				; HSA-NEXT: store volatile i1 [[TMP4]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile i1 [[TMP8]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile i1 [[TMP12]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile i1 [[TMP16]], i1 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i1_i1_i1_i1(
				; MESA-NEXT: [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_I1_I1_I1_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I1_I1_I1_I1:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i1
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i1
				; MESA-NEXT: [[TMP10:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP10]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP11:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP12:%.*]] = lshr i32 [[TMP11]], 16
				; MESA-NEXT: [[TMP13:%.*]] = trunc i32 [[TMP12]] to i1
				; MESA-NEXT: [[TMP14:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG3_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP14]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP15:%.]] = load i32, i32 addrspace(4) [[ARG3_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP16:%.*]] = lshr i32 [[TMP15]], 24
				; MESA-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i1
				; MESA-NEXT: store volatile i1 [[TMP5]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile i1 [[TMP9]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile i1 [[TMP13]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile i1 [[TMP17]], i1 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i1 %arg0, i1 addrspace(1)* undef
				store volatile i1 %arg1, i1 addrspace(1)* undef
				store volatile i1 %arg2, i1 addrspace(1)* undef
				store volatile i1 %arg3, i1 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i1_v3i1(i1 %arg0, <3 x i1> %arg1) #0 {
				; HSA-LABEL: @kern_realign_i1_v3i1(
				; HSA-NEXT: [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]] to [[KERN_REALIGN_I1_V3I1:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i1
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 4
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = trunc i32 [[TMP6]] to i3
				; HSA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i3 [[TMP7]] to <3 x i1>
				; HSA-NEXT: store volatile i1 [[TMP4]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile <3 x i1> [[ARG1_LOAD]], <3 x i1> addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i1_v3i1(
				; MESA-NEXT: [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I1_V3I1:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i1
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 4
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i3
				; MESA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i3 [[TMP8]] to <3 x i1>
				; MESA-NEXT: store volatile i1 [[TMP5]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile <3 x i1> [[ARG1_LOAD]], <3 x i1> addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i1 %arg0, i1 addrspace(1)* undef
				store volatile <3 x i1> %arg1, <3 x i1> addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i1_i16(i1 %arg0, i16 %arg1) #0 {
				; HSA-LABEL: @kern_realign_i1_i16(
				; HSA-NEXT: [[KERN_REALIGN_I1_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I1_I16_KERNARG_SEGMENT]] to [[KERN_REALIGN_I1_I16:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i1
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I1_I16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 16
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i16
				; HSA-NEXT: store volatile i1 [[TMP4]], i1 addrspace(1)* undef
				; HSA-NEXT: store volatile i16 [[TMP8]], i16 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i1_i16(
				; MESA-NEXT: [[KERN_REALIGN_I1_I16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_I16_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I1_I16:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i1
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 16
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i16
				; MESA-NEXT: store volatile i1 [[TMP5]], i1 addrspace(1)* undef
				; MESA-NEXT: store volatile i16 [[TMP9]], i16 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i1 %arg0, i1 addrspace(1)* undef
				store volatile i16 %arg1, i16 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_i8_i8_i8_i8_i8_i8_i8_i8(i8 %arg0, i8 %arg1, i8 %arg2, i8 %arg3, i8 %arg4, i8 %arg5, i8 %arg6, i8 %arg7) #0 {
				; HSA-LABEL: @kern_realign_i8_i8_i8_i8_i8_i8_i8_i8(
				; HSA-NEXT: [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]] to [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i8
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 8
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i8
				; HSA-NEXT: [[TMP9:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP9]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP10:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP11:%.*]] = lshr i32 [[TMP10]], 16
				; HSA-NEXT: [[TMP12:%.*]] = trunc i32 [[TMP11]] to i8
				; HSA-NEXT: [[TMP13:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG3_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP13]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP14:%.]] = load i32, i32 addrspace(4) [[ARG3_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP15:%.*]] = lshr i32 [[TMP14]], 24
				; HSA-NEXT: [[TMP16:%.*]] = trunc i32 [[TMP15]] to i8
				; HSA-NEXT: [[TMP17:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 4
				; HSA-NEXT: [[ARG5_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP17]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP18:%.]] = load i32, i32 addrspace(4) [[ARG5_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; HSA-NEXT: [[TMP19:%.*]] = lshr i32 [[TMP18]], 8
				; HSA-NEXT: [[TMP20:%.*]] = trunc i32 [[TMP19]] to i8
				; HSA-NEXT: [[TMP21:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 4
				; HSA-NEXT: [[ARG6_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP21]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP22:%.]] = load i32, i32 addrspace(4) [[ARG6_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; HSA-NEXT: [[TMP23:%.*]] = lshr i32 [[TMP22]], 16
				; HSA-NEXT: [[TMP24:%.*]] = trunc i32 [[TMP23]] to i8
				; HSA-NEXT: [[TMP25:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 4
				; HSA-NEXT: [[ARG7_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP25]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP26:%.]] = load i32, i32 addrspace(4) [[ARG7_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; HSA-NEXT: [[TMP27:%.*]] = lshr i32 [[TMP26]], 24
				; HSA-NEXT: [[TMP28:%.*]] = trunc i32 [[TMP27]] to i8
				; HSA-NEXT: store volatile i8 [[TMP4]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP8]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP12]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP16]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP20]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP24]], i8 addrspace(1)* undef
				; HSA-NEXT: store volatile i8 [[TMP28]], i8 addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_i8_i8_i8_i8_i8_i8_i8_i8(
				; MESA-NEXT: [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_I8_I8_I8_I8_I8_I8_I8_I8:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i8
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 8
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i8
				; MESA-NEXT: [[TMP10:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG2_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP10]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP11:%.]] = load i32, i32 addrspace(4) [[ARG2_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP12:%.*]] = lshr i32 [[TMP11]], 16
				; MESA-NEXT: [[TMP13:%.*]] = trunc i32 [[TMP12]] to i8
				; MESA-NEXT: [[TMP14:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG3_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP14]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP15:%.]] = load i32, i32 addrspace(4) [[ARG3_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP16:%.*]] = lshr i32 [[TMP15]], 24
				; MESA-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i8
				; MESA-NEXT: [[TMP18:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 4
				; MESA-NEXT: [[ARG5_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP18]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP19:%.]] = load i32, i32 addrspace(4) [[ARG5_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP20:%.*]] = lshr i32 [[TMP19]], 8
				; MESA-NEXT: [[TMP21:%.*]] = trunc i32 [[TMP20]] to i8
				; MESA-NEXT: [[TMP22:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 4
				; MESA-NEXT: [[ARG6_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP22]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP23:%.]] = load i32, i32 addrspace(4) [[ARG6_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP24:%.*]] = lshr i32 [[TMP23]], 16
				; MESA-NEXT: [[TMP25:%.*]] = trunc i32 [[TMP24]] to i8
				; MESA-NEXT: [[TMP26:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 4
				; MESA-NEXT: [[ARG7_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP26]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP27:%.]] = load i32, i32 addrspace(4) [[ARG7_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP28:%.*]] = lshr i32 [[TMP27]], 24
				; MESA-NEXT: [[TMP29:%.*]] = trunc i32 [[TMP28]] to i8
				; MESA-NEXT: store volatile i8 [[TMP5]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP9]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP13]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP17]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP21]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP25]], i8 addrspace(1)* undef
				; MESA-NEXT: store volatile i8 [[TMP29]], i8 addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 %arg0, i8 addrspace(1)* undef
				store volatile i8 %arg1, i8 addrspace(1)* undef
				store volatile i8 %arg2, i8 addrspace(1)* undef
				store volatile i8 %arg3, i8 addrspace(1)* undef
				store volatile i8 %arg5, i8 addrspace(1)* undef
				store volatile i8 %arg6, i8 addrspace(1)* undef
				store volatile i8 %arg7, i8 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_realign_f16_f16(half %arg0, half %arg1) #0 {
				; HSA-LABEL: @kern_realign_f16_f16(
				; HSA-NEXT: [[KERN_REALIGN_F16_F16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_REALIGN_F16_F16_KERNARG_SEGMENT]] to [[KERN_REALIGN_F16_F16:%.]] addrspace(4)
				; HSA-NEXT: [[TMP2:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_F16_F16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP2]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i16
				; HSA-NEXT: [[ARG0_LOAD:%.*]] = bitcast i16 [[TMP4]] to half
				; HSA-NEXT: [[TMP5:%.]] = getelementptr i8, i8 addrspace(4) [[KERN_REALIGN_F16_F16_KERNARG_SEGMENT]], i64 0
				; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP5]] to i32 addrspace(4)*
				; HSA-NEXT: [[TMP6:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 16, !invariant.load !0
				; HSA-NEXT: [[TMP7:%.*]] = lshr i32 [[TMP6]], 16
				; HSA-NEXT: [[TMP8:%.*]] = trunc i32 [[TMP7]] to i16
				; HSA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i16 [[TMP8]] to half
				; HSA-NEXT: store volatile half [[ARG0_LOAD]], half addrspace(1)* undef
				; HSA-NEXT: store volatile half [[ARG1_LOAD]], half addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_realign_f16_f16(
				; MESA-NEXT: [[KERN_REALIGN_F16_F16_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_F16_F16_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_REALIGN_F16_F16:%.]] addrspace(4)
				; MESA-NEXT: [[TMP3:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP3]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP4:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i16
				; MESA-NEXT: [[ARG0_LOAD:%.*]] = bitcast i16 [[TMP5]] to half
				; MESA-NEXT: [[TMP6:%.]] = getelementptr i8, i8 addrspace(4) [[TMP1]], i64 0
				; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = bitcast i8 addrspace(4) [[TMP6]] to i32 addrspace(4)*
				; MESA-NEXT: [[TMP7:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]], align 4, !invariant.load !0
				; MESA-NEXT: [[TMP8:%.*]] = lshr i32 [[TMP7]], 16
				; MESA-NEXT: [[TMP9:%.*]] = trunc i32 [[TMP8]] to i16
				; MESA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i16 [[TMP9]] to half
				; MESA-NEXT: store volatile half [[ARG0_LOAD]], half addrspace(1)* undef
				; MESA-NEXT: store volatile half [[ARG1_LOAD]], half addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile half %arg0, half addrspace(1)* undef
				store volatile half %arg1, half addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_global_ptr(i8 addrspace(1)* %ptr) #0 {
				; HSA-LABEL: @kern_global_ptr(
				; HSA-NEXT: [[KERN_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_GLOBAL_PTR_KERNARG_SEGMENT]] to [[KERN_GLOBAL_PTR:%.]] addrspace(4)
				; HSA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_GLOBAL_PTR]], [[KERN_GLOBAL_PTR]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 16, !invariant.load !0
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_global_ptr(
				; MESA-NEXT: [[KERN_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_GLOBAL_PTR_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_GLOBAL_PTR:%.]] addrspace(4)
				; MESA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_GLOBAL_PTR]], [[KERN_GLOBAL_PTR]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 4, !invariant.load !0
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 addrspace(1)* %ptr, i8 addrspace(1)* addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_global_ptr_dereferencable(i8 addrspace(1)* dereferenceable(42) %ptr) #0 {
				; HSA-LABEL: @kern_global_ptr_dereferencable(
				; HSA-NEXT: [[KERN_GLOBAL_PTR_DEREFERENCABLE_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_GLOBAL_PTR_DEREFERENCABLE_KERNARG_SEGMENT]] to [[KERN_GLOBAL_PTR_DEREFERENCABLE:%.]] addrspace(4)
				; HSA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_GLOBAL_PTR_DEREFERENCABLE]], [[KERN_GLOBAL_PTR_DEREFERENCABLE]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 16, !invariant.load !0, !dereferenceable !1
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_global_ptr_dereferencable(
				; MESA-NEXT: [[KERN_GLOBAL_PTR_DEREFERENCABLE_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_GLOBAL_PTR_DEREFERENCABLE_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_GLOBAL_PTR_DEREFERENCABLE:%.]] addrspace(4)
				; MESA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_GLOBAL_PTR_DEREFERENCABLE]], [[KERN_GLOBAL_PTR_DEREFERENCABLE]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 4, !invariant.load !0, !dereferenceable !5
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 addrspace(1)* %ptr, i8 addrspace(1)* addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_global_ptr_dereferencable_or_null(i8 addrspace(1)* dereferenceable_or_null(128) %ptr) #0 {
				; HSA-LABEL: @kern_global_ptr_dereferencable_or_null(
				; HSA-NEXT: [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL_KERNARG_SEGMENT]] to [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL:%.]] addrspace(4)
				; HSA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL]], [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 16, !invariant.load !0, !dereferenceable_or_null !2
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_global_ptr_dereferencable_or_null(
				; MESA-NEXT: [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL:%.]] addrspace(4)
				; MESA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL]], [[KERN_GLOBAL_PTR_DEREFERENCABLE_OR_NULL]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 4, !invariant.load !0, !dereferenceable_or_null !6
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 addrspace(1)* %ptr, i8 addrspace(1)* addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_nonnull_global_ptr(i8 addrspace(1)* nonnull %ptr) #0 {
				; HSA-LABEL: @kern_nonnull_global_ptr(
				; HSA-NEXT: [[KERN_NONNULL_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_NONNULL_GLOBAL_PTR_KERNARG_SEGMENT]] to [[KERN_NONNULL_GLOBAL_PTR:%.]] addrspace(4)
				; HSA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_NONNULL_GLOBAL_PTR]], [[KERN_NONNULL_GLOBAL_PTR]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 16, !invariant.load !0, !nonnull !0
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_nonnull_global_ptr(
				; MESA-NEXT: [[KERN_NONNULL_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_NONNULL_GLOBAL_PTR_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_NONNULL_GLOBAL_PTR:%.]] addrspace(4)
				; MESA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_NONNULL_GLOBAL_PTR]], [[KERN_NONNULL_GLOBAL_PTR]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 4, !invariant.load !0, !nonnull !0
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 addrspace(1)* %ptr, i8 addrspace(1)* addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_align32_global_ptr(i8 addrspace(1)* align 1024 %ptr) #0 {
				; HSA-LABEL: @kern_align32_global_ptr(
				; HSA-NEXT: [[KERN_ALIGN32_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_ALIGN32_GLOBAL_PTR_KERNARG_SEGMENT]] to [[KERN_ALIGN32_GLOBAL_PTR:%.]] addrspace(4)
				; HSA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_ALIGN32_GLOBAL_PTR]], [[KERN_ALIGN32_GLOBAL_PTR]] addrspace(4) [[TMP1]], i32 0, i32 0
				; HSA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 16, !invariant.load !0, !align !3
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_align32_global_ptr(
				; MESA-NEXT: [[KERN_ALIGN32_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_ALIGN32_GLOBAL_PTR_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_ALIGN32_GLOBAL_PTR:%.]] addrspace(4)
				; MESA-NEXT: [[PTR_KERNARG_OFFSET:%.]] = getelementptr inbounds [[KERN_ALIGN32_GLOBAL_PTR]], [[KERN_ALIGN32_GLOBAL_PTR]] addrspace(4) [[TMP2]], i32 0, i32 0
				; MESA-NEXT: [[PTR_LOAD:%.]] = load i8 addrspace(1), i8 addrspace(1)* addrspace(4)* [[PTR_KERNARG_OFFSET]], align 4, !invariant.load !0, !align !7
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR_LOAD]], i8 addrspace(1)* addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 addrspace(1)* %ptr, i8 addrspace(1)* addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_noalias_global_ptr(i8 addrspace(1)* noalias %ptr) #0 {
				; HSA-LABEL: @kern_noalias_global_ptr(
				; HSA-NEXT: [[KERN_NOALIAS_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_NOALIAS_GLOBAL_PTR_KERNARG_SEGMENT]] to [[KERN_NOALIAS_GLOBAL_PTR:%.]] addrspace(4)
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR:%.]], i8 addrspace(1) addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_noalias_global_ptr(
				; MESA-NEXT: [[KERN_NOALIAS_GLOBAL_PTR_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_NOALIAS_GLOBAL_PTR_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_NOALIAS_GLOBAL_PTR:%.]] addrspace(4)
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR:%.]], i8 addrspace(1) addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 addrspace(1)* %ptr, i8 addrspace(1)* addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @kern_noalias_global_ptr_x2(i8 addrspace(1)* noalias %ptr0, i8 addrspace(1)* noalias %ptr1) #0 {
				; HSA-LABEL: @kern_noalias_global_ptr_x2(
				; HSA-NEXT: [[KERN_NOALIAS_GLOBAL_PTR_X2_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(16) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; HSA-NEXT: [[TMP1:%.]] = bitcast i8 addrspace(4) [[KERN_NOALIAS_GLOBAL_PTR_X2_KERNARG_SEGMENT]] to [[KERN_NOALIAS_GLOBAL_PTR_X2:%.]] addrspace(4)
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR0:%.]], i8 addrspace(1) addrspace(1)* undef
				; HSA-NEXT: store volatile i8 addrspace(1)* [[PTR1:%.]], i8 addrspace(1) addrspace(1)* undef
				; HSA-NEXT: ret void
				;
				; MESA-LABEL: @kern_noalias_global_ptr_x2(
				; MESA-NEXT: [[KERN_NOALIAS_GLOBAL_PTR_X2_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(52) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
				; MESA-NEXT: [[TMP1:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_NOALIAS_GLOBAL_PTR_X2_KERNARG_SEGMENT]], i64 36
				; MESA-NEXT: [[TMP2:%.]] = bitcast i8 addrspace(4) [[TMP1]] to [[KERN_NOALIAS_GLOBAL_PTR_X2:%.]] addrspace(4)
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR0:%.]], i8 addrspace(1) addrspace(1)* undef
				; MESA-NEXT: store volatile i8 addrspace(1)* [[PTR1:%.]], i8 addrspace(1) addrspace(1)* undef
				; MESA-NEXT: ret void
				;
				store volatile i8 addrspace(1)* %ptr0, i8 addrspace(1)* addrspace(1)* undef
				store volatile i8 addrspace(1)* %ptr1, i8 addrspace(1)* addrspace(1)* undef
				ret void
				}

				attributes #0 = { nounwind "target-cpu"="kaveri" }
				attributes #1 = { nounwind "target-cpu"="kaveri" "amdgpu-implicitarg-num-bytes"="40" }
				attributes #2 = { nounwind "target-cpu"="tahiti" }

				; HSA: 0 = !{}
				; HSA: !1 = !{i64 42}
				; HSA: !2 = !{i64 128}
				; HSA: !3 = !{i64 1024}


				; MESA: !0 = !{}
				; MESA: !1 = !{i32 0, i32 256}
				; MESA: !2 = !{i32 0, i32 65536}
				; MESA: !3 = !{i32 -128, i32 128}
				; MESA: !4 = !{i32 -32768, i32 32768}
				; MESA: !5 = !{i64 42}
				; MESA: !6 = !{i64 128}
				; MESA: !7 = !{i64 1024}

test/CodeGen/AMDGPU/lshr.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,CIVI %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,CIVI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,CIVI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,CIVI %s

	; GCN-LABEL: {{^}}s_lshr_v2i16:			; GCN-LABEL: {{^}}s_lshr_v2i16:
	; GFX9: s_load_dword [[LHS:s[0-9]+]]			; GFX9: s_load_dword [[LHS:s[0-9]+]]
	; GFX9: s_load_dword [[RHS:s[0-9]+]]			; GFX9: s_load_dword [[RHS:s[0-9]+]]
	; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]			; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]
	; GFX9: v_pk_lshrrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]			; GFX9: v_pk_lshrrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]

				; CIVI: s_load_dword [[LHS:s[0-9]+]]
	; VI: s_load_dword [[LHS:s[0-9]+]]			; CIVI: s_load_dword [[RHS:s[0-9]+]]
	; VI: s_load_dword [[RHS:s[0-9]+]]			; CIVI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16			; CIVI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16			; CIVI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}			; CIVI-DAG: v_bfe_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, 16
	; VI-DAG: v_bfe_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, 16			; CIVI-DAG: s_lshl_b32
	; VI-DAG: s_lshl_b32			; CIVI: v_or_b32_e32
	; VI: v_or_b32_e32

	; CI: s_load_dword s
	; CI-NEXT: s_load_dword s
	; CI-NOT: {{buffer\|flat}}
	; CI: s_mov_b32 [[MASK:s[0-9]+]], 0xffff{{$}}
	; CI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; CI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
	; CI: s_and_b32
	; CI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; CI: s_and_b32
	; CI: v_bfe_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, 16
	; CI: s_lshl_b32
	; CI: v_or_b32_e32
	define amdgpu_kernel void @s_lshr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {			define amdgpu_kernel void @s_lshr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {
	%result = lshr <2 x i16> %lhs, %rhs			%result = lshr <2 x i16> %lhs, %rhs
	store <2 x i16> %result, <2 x i16> addrspace(1)* %out			store <2 x i16> %result, <2 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_lshr_v2i16:			; GCN-LABEL: {{^}}v_lshr_v2i16:
	; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]			; GCN: {{buffer\|flat\|global}}_load_dword [[LHS:v[0-9]+]]
	▲ Show 20 Lines • Show All 126 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/madak.ll

Show First 20 Lines • Show All 200 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @no_madak_src1_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {
%madak = fadd float %mul, 10.0		%madak = fadd float %mul, 10.0
store float %madak, float addrspace(1)* %out.gep, align 4		store float %madak, float addrspace(1)* %out.gep, align 4
ret void		ret void
}		}

; SIFoldOperands should not fold the SGPR copy into the instruction		; SIFoldOperands should not fold the SGPR copy into the instruction
; because the implicit immediate already uses the constant bus.		; because the implicit immediate already uses the constant bus.
; GCN-LABEL: {{^}}madak_constant_bus_violation:		; GCN-LABEL: {{^}}madak_constant_bus_violation:
; GCN: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xa\|0x28}}		; GCN: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0x12\|0x48}}
; GCN: v_mov_b32_e32 [[SGPR0_VCOPY:v[0-9]+]], [[SGPR0]]		; GCN: v_mov_b32_e32 [[SGPR0_VCOPY:v[0-9]+]], [[SGPR0]]
; GCN: {{buffer\|flat\|global}}_load_dword [[VGPR:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_dword [[VGPR:v[0-9]+]]
; GCN: v_madak_f32 [[MADAK:v[0-9]+]], 0.5, [[SGPR0_VCOPY]], 0x42280000		; GCN: v_madak_f32 [[MADAK:v[0-9]+]], 0.5, [[SGPR0_VCOPY]], 0x42280000
; GCN: v_mul_f32_e32 [[MUL:v[0-9]+]], [[MADAK]], [[VGPR]]		; GCN: v_mul_f32_e32 [[MUL:v[0-9]+]], [[MADAK]], [[VGPR]]
; GFX6: buffer_store_dword [[MUL]]		; GFX6: buffer_store_dword [[MUL]]
; GFX8_9: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[MUL]]		; GFX8_9: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[MUL]]
define amdgpu_kernel void @madak_constant_bus_violation(i32 %arg1, float %sgpr0, float %sgpr1) #0 {		define amdgpu_kernel void @madak_constant_bus_violation(i32 %arg1, [8 x i32], float %sgpr0, float %sgpr1) #0 {
bb:		bb:
%tmp = icmp eq i32 %arg1, 0		%tmp = icmp eq i32 %arg1, 0
br i1 %tmp, label %bb3, label %bb4		br i1 %tmp, label %bb3, label %bb4

bb3:		bb3:
store volatile float 0.0, float addrspace(1)* undef		store volatile float 0.0, float addrspace(1)* undef
br label %bb4		br label %bb4

Show All 10 Lines

test/CodeGen/AMDGPU/madmk.ll

Show First 20 Lines • Show All 77 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @madmk_inline_imm_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) nounwind {
store float %madmk, float addrspace(1)* %out.gep, align 4		store float %madmk, float addrspace(1)* %out.gep, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_s_madmk_f32:		; GCN-LABEL: {{^}}s_s_madmk_f32:
; GCN-NOT: v_madmk_f32		; GCN-NOT: v_madmk_f32
; GCN: v_mac_f32_e32		; GCN: v_mac_f32_e32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @s_s_madmk_f32(float addrspace(1)* noalias %out, float %a, float %b) nounwind {		define amdgpu_kernel void @s_s_madmk_f32(float addrspace(1)* noalias %out, [8 x i32], float %a, [8 x i32], float %b) nounwind {
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid

%mul = fmul float %a, 10.0		%mul = fmul float %a, 10.0
%madmk = fadd float %mul, %b		%madmk = fadd float %mul, %b
store float %madmk, float addrspace(1)* %out.gep, align 4		store float %madmk, float addrspace(1)* %out.gep, align 4
ret void		ret void
}		}
▲ Show 20 Lines • Show All 121 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/max.ll

Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @s_test_umax_ugt_imm_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> %a) nounwind {
%cmp = icmp ugt <2 x i32> %a, <i32 15, i32 23>		%cmp = icmp ugt <2 x i32> %a, <i32 15, i32 23>
%val = select <2 x i1> %cmp, <2 x i32> %a, <2 x i32> <i32 15, i32 23>		%val = select <2 x i1> %cmp, <2 x i32> %a, <2 x i32> <i32 15, i32 23>
store <2 x i32> %val, <2 x i32> addrspace(1)* %out, align 4		store <2 x i32> %val, <2 x i32> addrspace(1)* %out, align 4
ret void		ret void
}		}

; Make sure redundant and removed		; Make sure redundant and removed
; FUNC-LABEL: {{^}}simplify_demanded_bits_test_umax_ugt_i16:		; FUNC-LABEL: {{^}}simplify_demanded_bits_test_umax_ugt_i16:
; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: s_max_u32 [[MAX:s[0-9]+]], [[A]], [[B]]		; SI: s_max_u32 [[MAX:s[0-9]+]], [[A]], [[B]]
; SI: v_mov_b32_e32 [[VMAX:v[0-9]+]], [[MAX]]		; SI: v_mov_b32_e32 [[VMAX:v[0-9]+]], [[MAX]]
; SI: buffer_store_dword [[VMAX]]		; SI: buffer_store_dword [[VMAX]]

; EG: MAX_UINT		; EG: MAX_UINT
define amdgpu_kernel void @simplify_demanded_bits_test_umax_ugt_i16(i32 addrspace(1)* %out, i16 zeroext %a, i16 zeroext %b) nounwind {		define amdgpu_kernel void @simplify_demanded_bits_test_umax_ugt_i16(i32 addrspace(1)* %out, [8 x i32], i16 zeroext %a, [8 x i32], i16 zeroext %b) nounwind {
%a.ext = zext i16 %a to i32		%a.ext = zext i16 %a to i32
%b.ext = zext i16 %b to i32		%b.ext = zext i16 %b to i32
%cmp = icmp ugt i32 %a.ext, %b.ext		%cmp = icmp ugt i32 %a.ext, %b.ext
%val = select i1 %cmp, i32 %a.ext, i32 %b.ext		%val = select i1 %cmp, i32 %a.ext, i32 %b.ext
%mask = and i32 %val, 65535		%mask = and i32 %val, 65535
store i32 %mask, i32 addrspace(1)* %out		store i32 %mask, i32 addrspace(1)* %out
ret void		ret void
}		}

; Make sure redundant sign_extend_inreg removed.		; Make sure redundant sign_extend_inreg removed.

; FUNC-LABEL: {{^}}simplify_demanded_bits_test_max_slt_i16:		; FUNC-LABEL: {{^}}simplify_demanded_bits_test_max_slt_i16:
; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, 0x1c
; SI: s_max_i32 [[MAX:s[0-9]+]], [[A]], [[B]]		; SI: s_max_i32 [[MAX:s[0-9]+]], [[A]], [[B]]
; SI: v_mov_b32_e32 [[VMAX:v[0-9]+]], [[MAX]]		; SI: v_mov_b32_e32 [[VMAX:v[0-9]+]], [[MAX]]
; SI: buffer_store_dword [[VMAX]]		; SI: buffer_store_dword [[VMAX]]

; EG: MAX_INT		; EG: MAX_INT
define amdgpu_kernel void @simplify_demanded_bits_test_max_slt_i16(i32 addrspace(1)* %out, i16 signext %a, i16 signext %b) nounwind {		define amdgpu_kernel void @simplify_demanded_bits_test_max_slt_i16(i32 addrspace(1)* %out, [8 x i32], i16 signext %a, [8 x i32], i16 signext %b) nounwind {
%a.ext = sext i16 %a to i32		%a.ext = sext i16 %a to i32
%b.ext = sext i16 %b to i32		%b.ext = sext i16 %b to i32
%cmp = icmp sgt i32 %a.ext, %b.ext		%cmp = icmp sgt i32 %a.ext, %b.ext
%val = select i1 %cmp, i32 %a.ext, i32 %b.ext		%val = select i1 %cmp, i32 %a.ext, i32 %b.ext
%shl = shl i32 %val, 16		%shl = shl i32 %val, 16
%sextinreg = ashr i32 %shl, 16		%sextinreg = ashr i32 %shl, 16
store i32 %sextinreg, i32 addrspace(1)* %out		store i32 %sextinreg, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_test_imax_sge_i16:		; FUNC-LABEL: {{^}}s_test_imax_sge_i16:
; SI: s_load_dword		; SI: s_load_dword
; SI: s_load_dword		; SI: s_load_dword
; SI: s_sext_i32_i16		; SI: s_sext_i32_i16
; SI: s_sext_i32_i16		; SI: s_sext_i32_i16
; SI: s_max_i32		; SI: s_max_i32

; EG: MAX_INT		; EG: MAX_INT
define amdgpu_kernel void @s_test_imax_sge_i16(i16 addrspace(1)* %out, i16 %a, i16 %b) nounwind {		define amdgpu_kernel void @s_test_imax_sge_i16(i16 addrspace(1)* %out, [8 x i32], i16 %a, [8 x i32], i16 %b) nounwind {
%cmp = icmp sge i16 %a, %b		%cmp = icmp sge i16 %a, %b
%val = select i1 %cmp, i16 %a, i16 %b		%val = select i1 %cmp, i16 %a, i16 %b
store i16 %val, i16 addrspace(1)* %out		store i16 %val, i16 addrspace(1)* %out
ret void		ret void
}		}

; 64 bit		; 64 bit
; FUNC-LABEL: {{^}}test_umax_ugt_i64		; FUNC-LABEL: {{^}}test_umax_ugt_i64
▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/min.ll

; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI -check-prefix=FUNC %s
; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=GFX89 -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=GFX89 -check-prefix=FUNC %s
; RUN: llc -march=amdgcn -mtriple=amdgcn---amdgiz -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=GFX89 -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=GFX89 -check-prefix=FUNC %s
; RUN: llc -march=r600 -mtriple=r600---amdgiz -mcpu=cypress -verify-machineinstrs < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s		; RUN: llc -march=r600 -mtriple=r600-- -mcpu=cypress -verify-machineinstrs < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s

; FUNC-LABEL: {{^}}v_test_imin_sle_i32:		; FUNC-LABEL: {{^}}v_test_imin_sle_i32:
; GCN: v_min_i32_e32		; GCN: v_min_i32_e32

; EG: MIN_INT		; EG: MIN_INT
define amdgpu_kernel void @v_test_imin_sle_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %a.ptr, i32 addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_test_imin_sle_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %a.ptr, i32 addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.r600.read.tidig.x()		%tid = call i32 @llvm.r600.read.tidig.x()
%a.gep = getelementptr inbounds i32, i32 addrspace(1)* %a.ptr, i32 %tid		%a.gep = getelementptr inbounds i32, i32 addrspace(1)* %a.ptr, i32 %tid
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
}		}

; FUNC-LABEL: {{^}}s_test_imin_sle_i8:		; FUNC-LABEL: {{^}}s_test_imin_sle_i8:
; GCN: s_load_dword		; GCN: s_load_dword
; GCN: s_load_dword		; GCN: s_load_dword
; GCN: s_sext_i32_i8		; GCN: s_sext_i32_i8
; GCN: s_sext_i32_i8		; GCN: s_sext_i32_i8
; GCN: s_min_i32		; GCN: s_min_i32
define amdgpu_kernel void @s_test_imin_sle_i8(i8 addrspace(1)* %out, i8 %a, i8 %b) #0 {		define amdgpu_kernel void @s_test_imin_sle_i8(i8 addrspace(1)* %out, [8 x i32], i8 %a, [8 x i32], i8 %b) #0 {
%cmp = icmp sle i8 %a, %b		%cmp = icmp sle i8 %a, %b
%val = select i1 %cmp, i8 %a, i8 %b		%val = select i1 %cmp, i8 %a, i8 %b
store i8 %val, i8 addrspace(1)* %out		store i8 %val, i8 addrspace(1)* %out
ret void		ret void
}		}

; XXX - should be able to use s_min if we stop unnecessarily doing		; FIXME: Why vector and sdwa for last element?
; extloads with mubuf instructions.

; FUNC-LABEL: {{^}}s_test_imin_sle_v4i8:		; FUNC-LABEL: {{^}}s_test_imin_sle_v4i8:
; GCN: s_load_dword s		; GCN: s_load_dword s
; GCN: s_load_dword s		; GCN: s_load_dword s
; GCN-NOT: _load_		; GCN-NOT: _load_

; SI: s_min_i32		; SI: s_min_i32
; SI: s_min_i32		; SI: s_min_i32
; SI: s_min_i32		; SI: s_min_i32
; SI: s_min_i32		; SI: s_min_i32

; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: v_min_i32_sdwa

; GFX9: v_min_i16		; GFX9: v_min_i16
; GFX9: v_min_i16		; GFX9: v_min_i16
; GFX9: v_min_i16		; GFX9: v_min_i16
; GFX9: v_min_i16		; GFX9: v_min_i16

; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
define amdgpu_kernel void @s_test_imin_sle_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, <4 x i8> %b) #0 {		define amdgpu_kernel void @s_test_imin_sle_v4i8(<4 x i8> addrspace(1)* %out, [8 x i32], <4 x i8> %a, [8 x i32], <4 x i8> %b) #0 {
%cmp = icmp sle <4 x i8> %a, %b		%cmp = icmp sle <4 x i8> %a, %b
%val = select <4 x i1> %cmp, <4 x i8> %a, <4 x i8> %b		%val = select <4 x i1> %cmp, <4 x i8> %a, <4 x i8> %b
store <4 x i8> %val, <4 x i8> addrspace(1)* %out		store <4 x i8> %val, <4 x i8> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_test_imin_sle_v2i16:		; FUNC-LABEL: {{^}}s_test_imin_sle_v2i16:
; GCN: s_load_dword s		; GCN: s_load_dword s
; GCN: s_load_dword s		; GCN: s_load_dword s

; SI: s_ashr_i32		; SI: s_ashr_i32
; SI: s_ashr_i32
; SI: s_sext_i32_i16		; SI: s_sext_i32_i16
		; SI: s_ashr_i32
; SI: s_sext_i32_i16		; SI: s_sext_i32_i16
; SI: s_min_i32		; SI: s_min_i32
; SI: s_min_i32		; SI: s_min_i32

; VI: s_sext_i32_i16		; VI: s_sext_i32_i16
; VI: s_sext_i32_i16		; VI: s_sext_i32_i16
; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32
▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_test_umin_ult_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %a.ptr, i32 addrspace(1)* %b.ptr) #0 {
%b = load i32, i32 addrspace(1)* %b.gep, align 4		%b = load i32, i32 addrspace(1)* %b.gep, align 4
%cmp = icmp ult i32 %a, %b		%cmp = icmp ult i32 %a, %b
%val = select i1 %cmp, i32 %a, i32 %b		%val = select i1 %cmp, i32 %a, i32 %b
store i32 %val, i32 addrspace(1)* %out.gep, align 4		store i32 %val, i32 addrspace(1)* %out.gep, align 4
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_test_umin_ult_i8:		; FUNC-LABEL: {{^}}v_test_umin_ult_i8:
; SI: buffer_load_ubyte		; SI: {{buffer\|flat\|global}}_load_ubyte
; SI: buffer_load_ubyte		; SI: {{buffer\|flat\|global}}_load_ubyte
; SI: v_min_u32_e32		; SI: v_min_u32_e32

; GFX89: {{flat\|global}}_load_ubyte		; GFX89: {{flat\|global}}_load_ubyte
; GFX89: {{flat\|global}}_load_ubyte		; GFX89: {{flat\|global}}_load_ubyte
; GFX89: v_min_u16_e32		; GFX89: v_min_u16_e32

; EG: MIN_UINT		; EG: MIN_UINT
define amdgpu_kernel void @v_test_umin_ult_i8(i8 addrspace(1)* %out, i8 addrspace(1)* %a.ptr, i8 addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_test_umin_ult_i8(i8 addrspace(1)* %out, i8 addrspace(1)* %a.ptr, i8 addrspace(1)* %b.ptr) #0 {
▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @s_test_umin_ult_v8i16(<8 x i16> addrspace(1)* %out, <8 x i16> %a, <8 x i16> %b) #0 {
%cmp = icmp ult <8 x i16> %a, %b		%cmp = icmp ult <8 x i16> %a, %b
%val = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b		%val = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b
store <8 x i16> %val, <8 x i16> addrspace(1)* %out		store <8 x i16> %val, <8 x i16> addrspace(1)* %out
ret void		ret void
}		}

; Make sure redundant and removed		; Make sure redundant and removed
; FUNC-LABEL: {{^}}simplify_demanded_bits_test_umin_ult_i16:		; FUNC-LABEL: {{^}}simplify_demanded_bits_test_umin_ult_i16:
; GCN-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; GCN-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xa\|0x28}}
; GCN-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}		; GCN-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; GCN: s_min_u32 [[MIN:s[0-9]+]], [[A]], [[B]]		; GCN: s_min_u32 [[MIN:s[0-9]+]], [[A]], [[B]]
; GCN: v_mov_b32_e32 [[VMIN:v[0-9]+]], [[MIN]]		; GCN: v_mov_b32_e32 [[VMIN:v[0-9]+]], [[MIN]]
; GCN: buffer_store_dword [[VMIN]]		; GCN: buffer_store_dword [[VMIN]]

; EG: MIN_UINT		; EG: MIN_UINT
define amdgpu_kernel void @simplify_demanded_bits_test_umin_ult_i16(i32 addrspace(1)* %out, i16 zeroext %a, i16 zeroext %b) #0 {		define amdgpu_kernel void @simplify_demanded_bits_test_umin_ult_i16(i32 addrspace(1)* %out, [8 x i32], i16 zeroext %a, [8 x i32], i16 zeroext %b) #0 {
%a.ext = zext i16 %a to i32		%a.ext = zext i16 %a to i32
%b.ext = zext i16 %b to i32		%b.ext = zext i16 %b to i32
%cmp = icmp ult i32 %a.ext, %b.ext		%cmp = icmp ult i32 %a.ext, %b.ext
%val = select i1 %cmp, i32 %a.ext, i32 %b.ext		%val = select i1 %cmp, i32 %a.ext, i32 %b.ext
%mask = and i32 %val, 65535		%mask = and i32 %val, 65535
store i32 %mask, i32 addrspace(1)* %out		store i32 %mask, i32 addrspace(1)* %out
ret void		ret void
}		}

; Make sure redundant sign_extend_inreg removed.		; Make sure redundant sign_extend_inreg removed.

; FUNC-LABEL: {{^}}simplify_demanded_bits_test_min_slt_i16:		; FUNC-LABEL: {{^}}simplify_demanded_bits_test_min_slt_i16:
; GCN-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; GCN-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xa\|0x28}}
; GCN-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}		; GCN-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; GCN: s_min_i32 [[MIN:s[0-9]+]], [[A]], [[B]]		; GCN-DAG: s_sext_i32_i16 [[EXT_A:s[0-9]+]], [[A]]
		; GCN-DAG: s_sext_i32_i16 [[EXT_B:s[0-9]+]], [[B]]

		; GCN: s_min_i32 [[MIN:s[0-9]+]], [[EXT_A]], [[EXT_B]]
; GCN: v_mov_b32_e32 [[VMIN:v[0-9]+]], [[MIN]]		; GCN: v_mov_b32_e32 [[VMIN:v[0-9]+]], [[MIN]]
; GCN: buffer_store_dword [[VMIN]]		; GCN: buffer_store_dword [[VMIN]]

; EG: MIN_INT		; EG: MIN_INT
define amdgpu_kernel void @simplify_demanded_bits_test_min_slt_i16(i32 addrspace(1)* %out, i16 signext %a, i16 signext %b) #0 {		define amdgpu_kernel void @simplify_demanded_bits_test_min_slt_i16(i32 addrspace(1)* %out, [8 x i32], i16 signext %a, [8 x i32], i16 signext %b) #0 {
%a.ext = sext i16 %a to i32		%a.ext = sext i16 %a to i32
%b.ext = sext i16 %b to i32		%b.ext = sext i16 %b to i32
%cmp = icmp slt i32 %a.ext, %b.ext		%cmp = icmp slt i32 %a.ext, %b.ext
%val = select i1 %cmp, i32 %a.ext, i32 %b.ext		%val = select i1 %cmp, i32 %a.ext, i32 %b.ext
%shl = shl i32 %val, 16		%shl = shl i32 %val, 16
%sextinreg = ashr i32 %shl, 16		%sextinreg = ashr i32 %shl, 16
store i32 %sextinreg, i32 addrspace(1)* %out		store i32 %sextinreg, i32 addrspace(1)* %out
ret void		ret void
▲ Show 20 Lines • Show All 115 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/missing-store.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=FUNC -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=FUNC -check-prefix=SI %s

	@ptr_load = addrspace(3) global i32 addrspace(4)* undef, align 8			@ptr_load = addrspace(3) global i32 addrspace(4)* undef, align 8

	; Make sure when the load from %ptr2 is folded the chain isn't lost,			; Make sure when the load from %ptr2 is folded the chain isn't lost,
	; resulting in losing the store to gptr			; resulting in losing the store to gptr

	; FUNC-LABEL: {{^}}missing_store_reduced:			; FUNC-LABEL: {{^}}missing_store_reduced:
	; SI: s_load_dwordx2			; SI: s_load_dwordx4
	; SI: ds_read_b64			; SI: ds_read_b64
	; SI-DAG: buffer_store_dword			; SI-DAG: buffer_store_dword
	; SI-DAG: v_readfirstlane_b32 s[[PTR_LO:[0-9]+]], v{{[0-9]+}}			; SI-DAG: v_readfirstlane_b32 s[[PTR_LO:[0-9]+]], v{{[0-9]+}}
	; SI: v_readfirstlane_b32 s[[PTR_HI:[0-9]+]], v{{[0-9]+}}			; SI: v_readfirstlane_b32 s[[PTR_HI:[0-9]+]], v{{[0-9]+}}
	; SI: s_nop 3			; SI: s_nop 3
	; SI: s_load_dword s{{[0-9]+}}, s{{\[}}[[PTR_LO]]:[[PTR_HI]]{{\]}}			; SI: s_load_dword s{{[0-9]+}}, s{{\[}}[[PTR_LO]]:[[PTR_HI]]{{\]}}
	; SI: buffer_store_dword			; SI: buffer_store_dword
	; SI: s_endpgm			; SI: s_endpgm
	Show All 13 Lines

test/CodeGen/AMDGPU/move-addr64-rsrc-dead-subreg-writes.ll

	Show All 13 Lines
	; GCN-NOT: v_mov_b32			; GCN-NOT: v_mov_b32
	; GCN: v_mov_b32_e32 v[[VARG1HI:[0-9]+]], s[[ARG1HI]]			; GCN: v_mov_b32_e32 v[[VARG1HI:[0-9]+]], s[[ARG1HI]]
	; GCN-NOT: v_mov_b32			; GCN-NOT: v_mov_b32

	; GCN: v_add_i32_e32 v[[PTRLO:[0-9]+]], vcc, v[[LDPTRLO]], v[[VARG1LO]]			; GCN: v_add_i32_e32 v[[PTRLO:[0-9]+]], vcc, v[[LDPTRLO]], v[[VARG1LO]]
	; GCN: v_addc_u32_e32 v[[PTRHI:[0-9]+]], vcc, v[[LDPTRHI]], v[[VARG1HI]]			; GCN: v_addc_u32_e32 v[[PTRHI:[0-9]+]], vcc, v[[LDPTRHI]], v[[VARG1HI]]
	; GCN: buffer_load_ubyte v{{[0-9]+}}, v{{\[}}[[PTRLO]]:[[PTRHI]]{{\]}},			; GCN: buffer_load_ubyte v{{[0-9]+}}, v{{\[}}[[PTRLO]]:[[PTRHI]]{{\]}},

	define amdgpu_kernel void @clobber_vgpr_pair_pointer_add(i64 %arg1, i8 addrspace(1)* addrspace(1)* %ptrarg, i32 %arg3) #0 {			define amdgpu_kernel void @clobber_vgpr_pair_pointer_add(i64 %arg1, [8 x i32], i8 addrspace(1)* addrspace(1)* %ptrarg, i32 %arg3) #0 {
	bb:			bb:
	%tmp = icmp sgt i32 %arg3, 0			%tmp = icmp sgt i32 %arg3, 0
	br i1 %tmp, label %bb4, label %bb17			br i1 %tmp, label %bb4, label %bb17

	bb4:			bb4:
	%tmp14 = load volatile i8 addrspace(1), i8 addrspace(1) addrspace(1)* %ptrarg			%tmp14 = load volatile i8 addrspace(1), i8 addrspace(1) addrspace(1)* %ptrarg
	%tmp15 = getelementptr inbounds i8, i8 addrspace(1)* %tmp14, i64 %arg1			%tmp15 = getelementptr inbounds i8, i8 addrspace(1)* %tmp14, i64 %arg1
	%tmp16 = load volatile i8, i8 addrspace(1)* %tmp15			%tmp16 = load volatile i8, i8 addrspace(1)* %tmp15
	br label %bb17			br label %bb17

	bb17:			bb17:
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

test/CodeGen/AMDGPU/mul.i16.ll

	Show All 10 Lines
	; GFX89: v_mul_lo_u16_e32 v0, v0, v1			; GFX89: v_mul_lo_u16_e32 v0, v0, v1
	define i16 @v_mul_i16(i16 %a, i16 %b) {			define i16 @v_mul_i16(i16 %a, i16 %b) {
	%r.val = mul i16 %a, %b			%r.val = mul i16 %a, %b
	ret i16 %r.val			ret i16 %r.val
	}			}

	; FIXME: Should emit scalar mul or maybe i16 v_mul here			; FIXME: Should emit scalar mul or maybe i16 v_mul here
	; GCN-LABEL: {{^}}s_mul_i16:			; GCN-LABEL: {{^}}s_mul_i16:
	; GCN: v_mul_u32_u24			; SI: v_mul_u32_u24
				; VI: s_mul_i16
	define amdgpu_kernel void @s_mul_i16(i16 %a, i16 %b) {			define amdgpu_kernel void @s_mul_i16(i16 %a, i16 %b) {
	%r.val = mul i16 %a, %b			%r.val = mul i16 %a, %b
	store volatile i16 %r.val, i16 addrspace(1)* null			store volatile i16 %r.val, i16 addrspace(1)* null
	ret void			ret void
	}			}

	; FIXME: Should emit u16 mul here. Instead it's worse than SI			; FIXME: Should emit u16 mul here. Instead it's worse than SI
	; GCN-LABEL: {{^}}v_mul_i16_uniform_load:			; GCN-LABEL: {{^}}v_mul_i16_uniform_load:
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/mul.ll

	Show First 20 Lines • Show All 108 Lines • ▼ Show 20 Lines

	; FUNC-LABEL: {{^}}s_mul_i32:			; FUNC-LABEL: {{^}}s_mul_i32:
	; GCN: s_load_dword [[SRC0:s[0-9]+]],			; GCN: s_load_dword [[SRC0:s[0-9]+]],
	; GCN: s_load_dword [[SRC1:s[0-9]+]],			; GCN: s_load_dword [[SRC1:s[0-9]+]],
	; GCN: s_mul_i32 [[SRESULT:s[0-9]+]], [[SRC0]], [[SRC1]]			; GCN: s_mul_i32 [[SRESULT:s[0-9]+]], [[SRC0]], [[SRC1]]
	; GCN: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[SRESULT]]			; GCN: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[SRESULT]]
	; GCN: buffer_store_dword [[VRESULT]],			; GCN: buffer_store_dword [[VRESULT]],
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @s_mul_i32(i32 addrspace(1)* %out, i32 %a, i32 %b) nounwind {			define amdgpu_kernel void @s_mul_i32(i32 addrspace(1)* %out, [8 x i32], i32 %a, [8 x i32], i32 %b) nounwind {
	%mul = mul i32 %a, %b			%mul = mul i32 %a, %b
	store i32 %mul, i32 addrspace(1)* %out, align 4			store i32 %mul, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v_mul_i32:			; FUNC-LABEL: {{^}}v_mul_i32:
	; GCN: v_mul_lo_i32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; GCN: v_mul_lo_i32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	define amdgpu_kernel void @v_mul_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {			define amdgpu_kernel void @v_mul_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	endif:			endif:
	%3 = phi i64 [%1, %if], [%2, %else]			%3 = phi i64 [%1, %if], [%2, %else]
	store i64 %3, i64 addrspace(1)* %out			store i64 %3, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Load dwordx4			; FIXME: Load dwordx4
	; FUNC-LABEL: {{^}}s_mul_i128:			; FUNC-LABEL: {{^}}s_mul_i128:
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx4
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx4
	; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2

	; SI: v_mul_hi_u32			; SI: v_mul_hi_u32
	; SI: v_mul_hi_u32			; SI: v_mul_hi_u32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: v_mul_hi_u32			; SI: v_mul_hi_u32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: s_mul_i32			; SI: s_mul_i32

	; SI-DAG: s_mul_i32			; SI-DAG: s_mul_i32
	; SI-DAG: v_mul_hi_u32			; SI-DAG: v_mul_hi_u32
	; SI-DAG: v_mul_hi_u32			; SI-DAG: v_mul_hi_u32
	; SI-DAG: s_mul_i32			; SI-DAG: s_mul_i32
	; SI-DAG: s_mul_i32			; SI-DAG: s_mul_i32
	; SI-DAG: v_mul_hi_u32			; SI-DAG: v_mul_hi_u32

	; VI: s_mul_i32
	; VI: v_mul_hi_u32			; VI: v_mul_hi_u32
	; VI: s_mul_i32			; VI: s_mul_i32
				; VI: s_mul_i32
				; VI: v_mul_hi_u32
	; VI: v_mul_hi_u32			; VI: v_mul_hi_u32
				; VI: s_mul_i32
	; VI: v_mad_u64_u32			; VI: v_mad_u64_u32
				; VI: s_mul_i32
	; VI: v_mad_u64_u32			; VI: v_mad_u64_u32
				; VI: s_mul_i32
				; VI: s_mul_i32
	; VI: v_mad_u64_u32			; VI: v_mad_u64_u32
				; VI: s_mul_i32


	; GCN: buffer_store_dwordx4			; GCN: buffer_store_dwordx4
	define amdgpu_kernel void @s_mul_i128(i128 addrspace(1)* %out, i128 %a, i128 %b) nounwind #0 {			define amdgpu_kernel void @s_mul_i128(i128 addrspace(1)* %out, [8 x i32], i128 %a, [8 x i32], i128 %b) nounwind #0 {
	%mul = mul i128 %a, %b			%mul = mul i128 %a, %b
	store i128 %mul, i128 addrspace(1)* %out			store i128 %mul, i128 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v_mul_i128:			; FUNC-LABEL: {{^}}v_mul_i128:
	; GCN: {{buffer\|flat}}_load_dwordx4			; GCN: {{buffer\|flat}}_load_dwordx4
	; GCN: {{buffer\|flat}}_load_dwordx4			; GCN: {{buffer\|flat}}_load_dwordx4
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/mul_int24.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines

	; GCN-NOT: bfe			; GCN-NOT: bfe
	; GCN-NOT: ashr			; GCN-NOT: ashr

	; GCN-DAG: v_mul_hi_i32_i24_e32			; GCN-DAG: v_mul_hi_i32_i24_e32
	; GCN-DAG: v_mul_i32_i24_e32			; GCN-DAG: v_mul_i32_i24_e32

	; GCN: buffer_store_dwordx2			; GCN: buffer_store_dwordx2
	define amdgpu_kernel void @test_smul24_i64(i64 addrspace(1)* %out, i32 %a, i32 %b) #0 {			define amdgpu_kernel void @test_smul24_i64(i64 addrspace(1)* %out, [8 x i32], i32 %a, [8 x i32], i32 %b) #0 {
	%shl.i = shl i32 %a, 8			%shl.i = shl i32 %a, 8
	%shr.i = ashr i32 %shl.i, 8			%shr.i = ashr i32 %shl.i, 8
	%conv.i = sext i32 %shr.i to i64			%conv.i = sext i32 %shr.i to i64
	%shl1.i = shl i32 %b, 8			%shl1.i = shl i32 %b, 8
	%shr2.i = ashr i32 %shl1.i, 8			%shr2.i = ashr i32 %shl1.i, 8
	%conv3.i = sext i32 %shr2.i to i64			%conv3.i = sext i32 %shr2.i to i64
	%mul.i = mul i64 %conv3.i, %conv.i			%mul.i = mul i64 %conv3.i, %conv.i
	store i64 %mul.i, i64 addrspace(1)* %out			store i64 %mul.i, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/mul_uint24-amdgcn.ll

Show All 12 Lines	entry:
%1 = shl i32 %b, 8		%1 = shl i32 %b, 8
%b_24 = lshr i32 %1, 8		%b_24 = lshr i32 %1, 8
%2 = mul i32 %a_24, %b_24		%2 = mul i32 %a_24, %b_24
store i32 %2, i32 addrspace(1)* %out		store i32 %2, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_umul24_i16_sext:		; FUNC-LABEL: {{^}}test_umul24_i16_sext:
; GCN: v_mul_u32_u24_e{{(32\|64)}} [[VI_MUL:v[0-9]]], {{[sv][0-9], [sv][0-9]}}		; SI: v_mul_u32_u24_e{{(32\|64)}} [[VI_MUL:v[0-9]]], {{[sv][0-9], [sv][0-9]}}
; GCN: v_bfe_i32 v{{[0-9]}}, [[VI_MUL]], 0, 16		; SI: v_bfe_i32 v{{[0-9]}}, [[VI_MUL]], 0, 16

		; VI: s_mul_i32 [[MUL:s[0-9]+]]
		; VI: s_sext_i32_i16 s{{[0-9]+}}, [[MUL]]
define amdgpu_kernel void @test_umul24_i16_sext(i32 addrspace(1)* %out, i16 %a, i16 %b) {		define amdgpu_kernel void @test_umul24_i16_sext(i32 addrspace(1)* %out, i16 %a, i16 %b) {
entry:		entry:
%mul = mul i16 %a, %b		%mul = mul i16 %a, %b
%ext = sext i16 %mul to i32		%ext = sext i16 %mul to i32
store i32 %ext, i32 addrspace(1)* %out		store i32 %ext, i32 addrspace(1)* %out
ret void		ret void
}		}

Show All 10 Lines	define amdgpu_kernel void @test_umul24_i16_vgpr_sext(i32 addrspace(1)* %out, i16 addrspace(1)* %in) {
%b = load i16, i16 addrspace(1)* %ptr_b		%b = load i16, i16 addrspace(1)* %ptr_b
%mul = mul i16 %a, %b		%mul = mul i16 %a, %b
%val = sext i16 %mul to i32		%val = sext i16 %mul to i32
store i32 %val, i32 addrspace(1)* %out		store i32 %val, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_umul24_i16:		; FUNC-LABEL: {{^}}test_umul24_i16:
; GCN: s_and_b32		; SI: s_and_b32
; GCN: v_mul_u32_u24_e32		; SI: v_mul_u32_u24_e32
; GCN: v_and_b32_e32		; SI: v_and_b32_e32

		; VI: s_mul_i32
		; VI: s_and_b32
define amdgpu_kernel void @test_umul24_i16(i32 addrspace(1)* %out, i16 %a, i16 %b) {		define amdgpu_kernel void @test_umul24_i16(i32 addrspace(1)* %out, i16 %a, i16 %b) {
entry:		entry:
%mul = mul i16 %a, %b		%mul = mul i16 %a, %b
%ext = zext i16 %mul to i32		%ext = zext i16 %mul to i32
store i32 %ext, i32 addrspace(1)* %out		store i32 %ext, i32 addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_umul24_i64_square:		; FUNC-LABEL: {{^}}test_umul24_i64_square:
; GCN: s_load_dword [[A:s[0-9]+]]		; GCN: s_load_dword [[A:s[0-9]+]]
; GCN-NOT: s_and_b32		; GCN-NOT: s_and_b32
; GCN-DAG: v_mul_hi_u32_u24_e64 v{{[0-9]+}}, [[A]], [[A]]		; GCN-DAG: v_mul_hi_u32_u24_e64 v{{[0-9]+}}, [[A]], [[A]]
; GCN-DAG: v_mul_u32_u24_e64 v{{[0-9]+}}, [[A]], [[A]]		; GCN-DAG: v_mul_u32_u24_e64 v{{[0-9]+}}, [[A]], [[A]]
define amdgpu_kernel void @test_umul24_i64_square(i64 addrspace(1)* %out, i64 %a) {		define amdgpu_kernel void @test_umul24_i64_square(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
entry:		entry:
%tmp0 = shl i64 %a, 40		%tmp0 = shl i64 %a, 40
%a.24 = lshr i64 %tmp0, 40		%a.24 = lshr i64 %tmp0, 40
%tmp2 = mul i64 %a.24, %a.24		%tmp2 = mul i64 %a.24, %a.24
store i64 %tmp2, i64 addrspace(1)* %out		store i64 %tmp2, i64 addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 104 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/multi-divergent-exit-region.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines


	; FIXME: Why is this compare essentially repeated?			; FIXME: Why is this compare essentially repeated?
	; GCN: v_cmp_eq_u32_e32 vcc, 1, [[REG:v[0-9]+]]			; GCN: v_cmp_eq_u32_e32 vcc, 1, [[REG:v[0-9]+]]
	; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, -1, vcc			; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, -1, vcc
	; GCN: v_cmp_ne_u32_e32 vcc, 1, [[REG]]			; GCN: v_cmp_ne_u32_e32 vcc, 1, [[REG]]
	; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, -1, vcc			; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, -1, vcc

	; GCN: ; %Flow1			; GCN: ; %Flow4
	; GCN-NEXT: s_or_b64 exec, exec			; GCN-NEXT: s_or_b64 exec, exec
	; GCN: v_cmp_ne_u32_e32 vcc, 0			; GCN: v_cmp_ne_u32_e32 vcc, 0

	; GCN: ; %exit1			; GCN: ; %exit1
	; GCN: ds_write_b32			; GCN: ds_write_b32

	; GCN: %Flow2			; GCN: %Flow5
	; GCN-NEXT: s_or_b64 exec, exec			; GCN-NEXT: s_or_b64 exec, exec
	; GCN: v_cmp_ne_u32_e32 vcc, 0			; GCN: v_cmp_ne_u32_e32 vcc, 0
	; GCN-NEXT: s_and_saveexec_b64			; GCN-NEXT: s_and_saveexec_b64

	; GCN: ; %exit0			; GCN: ; %exit0
	; GCN: buffer_store_dword			; GCN: buffer_store_dword

	; GCN: ; %UnifiedReturnBlock			; GCN: ; %UnifiedReturnBlock
	▲ Show 20 Lines • Show All 621 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/no-shrink-extloads.ll

Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @truncate_buffer_load_i32_to_i1(i1 addrspace(1)* %out, i32 addrspace(1)* %in) nounwind {
%trunc = trunc i32 %load to i1		%trunc = trunc i32 %load to i1
store i1 %trunc, i1 addrspace(1)* %gep.out		store i1 %trunc, i1 addrspace(1)* %gep.out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}truncate_kernarg_i64_to_i32:		; FUNC-LABEL: {{^}}truncate_kernarg_i64_to_i32:
; SI: s_load_dword s		; SI: s_load_dword s
; SI: buffer_store_dword v		; SI: buffer_store_dword v
define amdgpu_kernel void @truncate_kernarg_i64_to_i32(i32 addrspace(1)* %out, i64 %arg) nounwind {		define amdgpu_kernel void @truncate_kernarg_i64_to_i32(i32 addrspace(1)* %out, [8 x i32], i64 %arg) nounwind {
%trunc = trunc i64 %arg to i32		%trunc = trunc i64 %arg to i32
store i32 %trunc, i32 addrspace(1)* %out		store i32 %trunc, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}truncate_buffer_load_i64_to_i32:		; FUNC-LABEL: {{^}}truncate_buffer_load_i64_to_i32:
; SI: buffer_load_dword v		; SI: buffer_load_dword v
; SI: buffer_store_dword v		; SI: buffer_store_dword v
define amdgpu_kernel void @truncate_buffer_load_i64_to_i32(i32 addrspace(1)* %out, i64 addrspace(1)* %in) nounwind {		define amdgpu_kernel void @truncate_buffer_load_i64_to_i32(i32 addrspace(1)* %out, i64 addrspace(1)* %in) nounwind {
%tid = call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
%gep.in = getelementptr i64, i64 addrspace(1)* %in, i32 %tid		%gep.in = getelementptr i64, i64 addrspace(1)* %in, i32 %tid
%gep.out = getelementptr i32, i32 addrspace(1)* %out, i32 %tid		%gep.out = getelementptr i32, i32 addrspace(1)* %out, i32 %tid
%load = load i64, i64 addrspace(1)* %gep.in		%load = load i64, i64 addrspace(1)* %gep.in
%trunc = trunc i64 %load to i32		%trunc = trunc i64 %load to i32
store i32 %trunc, i32 addrspace(1)* %gep.out		store i32 %trunc, i32 addrspace(1)* %gep.out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}srl_kernarg_i64_to_i32:		; FUNC-LABEL: {{^}}srl_kernarg_i64_to_i32:
; SI: s_load_dword s		; SI: s_load_dword s
; SI: buffer_store_dword v		; SI: buffer_store_dword v
define amdgpu_kernel void @srl_kernarg_i64_to_i32(i32 addrspace(1)* %out, i64 %arg) nounwind {		define amdgpu_kernel void @srl_kernarg_i64_to_i32(i32 addrspace(1)* %out, [8 x i32], i64 %arg) nounwind {
%srl = lshr i64 %arg, 32		%srl = lshr i64 %arg, 32
%trunc = trunc i64 %srl to i32		%trunc = trunc i64 %srl to i32
store i32 %trunc, i32 addrspace(1)* %out		store i32 %trunc, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}srl_buffer_load_i64_to_i32:		; FUNC-LABEL: {{^}}srl_buffer_load_i64_to_i32:
; SI: buffer_load_dword v		; SI: buffer_load_dword v
Show All 30 Lines	define amdgpu_kernel void @truncate_buffer_load_i16_to_i8(i8 addrspace(1)* %out, i16 addrspace(1)* %in) nounwind {
%trunc = trunc i16 %load to i8		%trunc = trunc i16 %load to i8
store i8 %trunc, i8 addrspace(1)* %gep.out		store i8 %trunc, i8 addrspace(1)* %gep.out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}srl_kernarg_i64_to_i8:		; FUNC-LABEL: {{^}}srl_kernarg_i64_to_i8:
; SI: s_load_dword s		; SI: s_load_dword s
; SI: buffer_store_byte v		; SI: buffer_store_byte v
define amdgpu_kernel void @srl_kernarg_i64_to_i8(i8 addrspace(1)* %out, i64 %arg) nounwind {		define amdgpu_kernel void @srl_kernarg_i64_to_i8(i8 addrspace(1)* %out, [8 x i32], i64 %arg) nounwind {
%srl = lshr i64 %arg, 32		%srl = lshr i64 %arg, 32
%trunc = trunc i64 %srl to i8		%trunc = trunc i64 %srl to i8
store i8 %trunc, i8 addrspace(1)* %out		store i8 %trunc, i8 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}srl_buffer_load_i64_to_i8:		; FUNC-LABEL: {{^}}srl_buffer_load_i64_to_i8:
; SI: buffer_load_dword v		; SI: buffer_load_dword v
; SI: buffer_store_byte v		; SI: buffer_store_byte v
define amdgpu_kernel void @srl_buffer_load_i64_to_i8(i8 addrspace(1)* %out, i64 addrspace(1)* %in) nounwind {		define amdgpu_kernel void @srl_buffer_load_i64_to_i8(i8 addrspace(1)* %out, i64 addrspace(1)* %in) nounwind {
%tid = call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
%gep.in = getelementptr i64, i64 addrspace(1)* %in, i32 %tid		%gep.in = getelementptr i64, i64 addrspace(1)* %in, i32 %tid
%gep.out = getelementptr i8, i8 addrspace(1)* %out, i32 %tid		%gep.out = getelementptr i8, i8 addrspace(1)* %out, i32 %tid
%load = load i64, i64 addrspace(1)* %gep.in		%load = load i64, i64 addrspace(1)* %gep.in
%srl = lshr i64 %load, 32		%srl = lshr i64 %load, 32
%trunc = trunc i64 %srl to i8		%trunc = trunc i64 %srl to i8
store i8 %trunc, i8 addrspace(1)* %gep.out		store i8 %trunc, i8 addrspace(1)* %gep.out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}truncate_kernarg_i64_to_i8:		; FUNC-LABEL: {{^}}truncate_kernarg_i64_to_i8:
; SI: s_load_dword s		; SI: s_load_dword s
; SI: buffer_store_byte v		; SI: buffer_store_byte v
define amdgpu_kernel void @truncate_kernarg_i64_to_i8(i8 addrspace(1)* %out, i64 %arg) nounwind {		define amdgpu_kernel void @truncate_kernarg_i64_to_i8(i8 addrspace(1)* %out, [8 x i32], i64 %arg) nounwind {
%trunc = trunc i64 %arg to i8		%trunc = trunc i64 %arg to i8
store i8 %trunc, i8 addrspace(1)* %out		store i8 %trunc, i8 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}truncate_buffer_load_i64_to_i8:		; FUNC-LABEL: {{^}}truncate_buffer_load_i64_to_i8:
; SI: buffer_load_dword v		; SI: buffer_load_dword v
; SI: buffer_store_byte v		; SI: buffer_store_byte v
Show All 33 Lines

test/CodeGen/AMDGPU/not-scalarize-volatile-load.ll

	; RUN: llc -mtriple amdgcn--amdhsa -mcpu=fiji -amdgpu-scalarize-global-loads < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -mtriple amdgcn--amdhsa -mcpu=fiji -amdgpu-scalarize-global-loads < %s \| FileCheck -check-prefix=GCN %s

	; GCN-LABEL: @volatile_load			; GCN-LABEL: @volatile_load
	; GCN: s_load_dwordx2 s{{\[}}[[LO_SREG:[0-9]+]]:[[HI_SREG:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0			; GCN: s_load_dwordx2 s{{\[}}[[LO_SREG:[0-9]+]]:[[HI_SREG:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0
	; GCN: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], s[[LO_SREG]]			; GCN: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], s[[LO_SREG]]
	; GCN: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], s[[HI_SREG]]			; GCN: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], s[[HI_SREG]]
	; GCN: flat_load_dword v{{[0-9]+}}, v{{\[}}[[LO_VREG]]:[[HI_VREG]]{{\]}}			; GCN: flat_load_dword v{{[0-9]+}}, v{{\[}}[[LO_VREG]]:[[HI_VREG]]{{\]}}

	define amdgpu_kernel void @volatile_load(i32 addrspace(1)* %arg, i32 addrspace(1)* nocapture %arg1) {			define amdgpu_kernel void @volatile_load(i32 addrspace(1)* %arg, [8 x i32], i32 addrspace(1)* nocapture %arg1) {
	bb:			bb:
	%tmp18 = load volatile i32, i32 addrspace(1)* %arg, align 4			%tmp18 = load volatile i32, i32 addrspace(1)* %arg, align 4
	%tmp26 = getelementptr inbounds i32, i32 addrspace(1)* %arg1, i64 5			%tmp26 = getelementptr inbounds i32, i32 addrspace(1)* %arg1, i64 5
	store i32 %tmp18, i32 addrspace(1)* %tmp26, align 4			store i32 %tmp18, i32 addrspace(1)* %tmp26, align 4
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/operand-spacing.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=SI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=SI -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=VI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=VI -check-prefix=GCN %s

	; Make sure there isn't an extra space between the instruction name and first operands.			; Make sure there isn't an extra space between the instruction name and first operands.

	; GCN-LABEL: {{^}}add_f32:			; GCN-LABEL: {{^}}add_f32:
	; SI-DAG: s_load_dword [[SREGA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dword [[SREGA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
	; SI-DAG: s_load_dword [[SREGB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI: s_load_dword [[SREGB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
	; VI-DAG: s_load_dword [[SREGA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; SI: v_mov_b32_e32 [[VREGA:v[0-9]+]], [[SREGA]]
	; VI-DAG: s_load_dword [[SREGB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; SI: v_add_f32_e32 [[RESULT:v[0-9]+]], [[SREGB]], [[VREGA]]
	; GCN: v_mov_b32_e32 [[VREGB:v[0-9]+]], [[SREGB]]
	; GCN: v_add_f32_e32 [[RESULT:v[0-9]+]], [[SREGA]], [[VREGB]]			; VI: s_load_dword [[SREGA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
				; VI: s_load_dword [[SREGB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x70
				; VI: v_mov_b32_e32 [[VREGB:v[0-9]+]], [[SREGB]]
				; VI: v_add_f32_e32 [[RESULT:v[0-9]+]], [[SREGA]], [[VREGB]]

	; GCN: buffer_store_dword [[RESULT]],			; GCN: buffer_store_dword [[RESULT]],
	define amdgpu_kernel void @add_f32(float addrspace(1)* %out, float %a, float %b) {			define amdgpu_kernel void @add_f32(float addrspace(1)* %out, [8 x i32], float %a, [8 x i32], float %b) {
	%result = fadd float %a, %b			%result = fadd float %a, %b
	store float %result, float addrspace(1)* %out			store float %result, float addrspace(1)* %out
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/or.ll

	Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; SI: s_or_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x1869f			; SI: s_or_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x1869f
	define amdgpu_kernel void @scalar_or_literal_i32(i32 addrspace(1)* %out, i32 %a) {			define amdgpu_kernel void @scalar_or_literal_i32(i32 addrspace(1)* %out, i32 %a) {
	%or = or i32 %a, 99999			%or = or i32 %a, 99999
	store i32 %or, i32 addrspace(1)* %out, align 4			store i32 %or, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}scalar_or_literal_i64:			; FUNC-LABEL: {{^}}scalar_or_literal_i64:
	; SI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; SI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
	; SI-DAG: s_or_b32 s[[RES_HI:[0-9]+]], s[[HI]], 0xf237b			; SI-DAG: s_or_b32 s[[RES_HI:[0-9]+]], s[[HI]], 0xf237b
	; SI-DAG: s_or_b32 s[[RES_LO:[0-9]+]], s[[LO]], 0x3039			; SI-DAG: s_or_b32 s[[RES_LO:[0-9]+]], s[[LO]], 0x3039
	; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_LO]]			; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_LO]]
	; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_HI]]			; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_HI]]
	define amdgpu_kernel void @scalar_or_literal_i64(i64 addrspace(1)* %out, i64 %a) {			define amdgpu_kernel void @scalar_or_literal_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
	%or = or i64 %a, 4261135838621753			%or = or i64 %a, 4261135838621753
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}scalar_or_literal_multi_use_i64:			; FUNC-LABEL: {{^}}scalar_or_literal_multi_use_i64:
	; SI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; SI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
	; SI-DAG: s_mov_b32 s[[K_HI:[0-9]+]], 0xf237b			; SI-DAG: s_mov_b32 s[[K_HI:[0-9]+]], 0xf237b
	; SI-DAG: s_movk_i32 s[[K_LO:[0-9]+]], 0x3039			; SI-DAG: s_movk_i32 s[[K_LO:[0-9]+]], 0x3039
	; SI: s_or_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[K_LO]]:[[K_HI]]{{\]}}			; SI: s_or_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[K_LO]]:[[K_HI]]{{\]}}

	; SI: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_LO]]			; SI: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_LO]]
	; SI: s_addc_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_HI]]			; SI: s_addc_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_HI]]
	define amdgpu_kernel void @scalar_or_literal_multi_use_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {			define amdgpu_kernel void @scalar_or_literal_multi_use_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a, [8 x i32], i64 %b) {
	%or = or i64 %a, 4261135838621753			%or = or i64 %a, 4261135838621753
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out

	%foo = add i64 %b, 4261135838621753			%foo = add i64 %b, 4261135838621753
	store volatile i64 %foo, i64 addrspace(1)* undef			store volatile i64 %foo, i64 addrspace(1)* undef
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}scalar_or_inline_imm_i64:			; FUNC-LABEL: {{^}}scalar_or_inline_imm_i64:
	; SI: s_load_dwordx2 s{{\[}}[[VAL_LO:[0-9]+]]:[[VAL_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; SI: s_load_dwordx2 s{{\[}}[[VAL_LO:[0-9]+]]:[[VAL_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
	; SI-NOT: or_b32			; SI-NOT: or_b32
	; SI: s_or_b32 s[[VAL_LO]], s[[VAL_LO]], 63			; SI: s_or_b32 s[[VAL_LO]], s[[VAL_LO]], 63
	; SI-NOT: or_b32			; SI-NOT: or_b32
	; SI: v_mov_b32_e32 v[[VLO:[0-9]+]], s[[VAL_LO]]			; SI: v_mov_b32_e32 v[[VLO:[0-9]+]], s[[VAL_LO]]
	; SI-NOT: or_b32			; SI-NOT: or_b32
	; SI: v_mov_b32_e32 v[[VHI:[0-9]+]], s[[VAL_HI]]			; SI: v_mov_b32_e32 v[[VHI:[0-9]+]], s[[VAL_HI]]
	; SI-NOT: or_b32			; SI-NOT: or_b32
	; SI: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}			; SI: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}
	define amdgpu_kernel void @scalar_or_inline_imm_i64(i64 addrspace(1)* %out, i64 %a) {			define amdgpu_kernel void @scalar_or_inline_imm_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
	%or = or i64 %a, 63			%or = or i64 %a, 63
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}scalar_or_inline_imm_multi_use_i64:			; FUNC-LABEL: {{^}}scalar_or_inline_imm_multi_use_i64:
	; SI-NOT: or_b32			; SI-NOT: or_b32
	; SI: s_or_b32 s{{[0-9]+}}, s{{[0-9]+}}, 63			; SI: s_or_b32 s{{[0-9]+}}, s{{[0-9]+}}, 63
	; SI-NOT: or_b32			; SI-NOT: or_b32
	define amdgpu_kernel void @scalar_or_inline_imm_multi_use_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {			define amdgpu_kernel void @scalar_or_inline_imm_multi_use_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {
	%or = or i64 %a, 63			%or = or i64 %a, 63
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	%foo = add i64 %b, 63			%foo = add i64 %b, 63
	store volatile i64 %foo, i64 addrspace(1)* undef			store volatile i64 %foo, i64 addrspace(1)* undef
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}scalar_or_neg_inline_imm_i64:			; FUNC-LABEL: {{^}}scalar_or_neg_inline_imm_i64:
	; SI-DAG: s_load_dword [[VAL:s[0-9]+]]			; SI-DAG: s_load_dword [[VAL:s[0-9]+]]
	; SI-DAG: s_or_b32 [[VAL]], [[VAL]], -8			; SI-DAG: s_or_b32 [[VAL]], [[VAL]], -8
	; SI-DAG: v_mov_b32_e32 v[[V_HI:[0-9]+]], -1{{$}}			; SI-DAG: v_mov_b32_e32 v[[V_HI:[0-9]+]], -1{{$}}
	; SI-DAG: v_mov_b32_e32 v[[V_LO:[0-9]+]], [[VAL]]			; SI-DAG: v_mov_b32_e32 v[[V_LO:[0-9]+]], [[VAL]]
	; SI: buffer_store_dwordx2 v{{\[}}[[V_LO]]:[[V_HI]]{{\]}}			; SI: buffer_store_dwordx2 v{{\[}}[[V_LO]]:[[V_HI]]{{\]}}
	define amdgpu_kernel void @scalar_or_neg_inline_imm_i64(i64 addrspace(1)* %out, i64 %a) {			define amdgpu_kernel void @scalar_or_neg_inline_imm_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
	%or = or i64 %a, -8			%or = or i64 %a, -8
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}vector_or_literal_i32:			; FUNC-LABEL: {{^}}vector_or_literal_i32:
	; SI: v_or_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}			; SI: v_or_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}
	define amdgpu_kernel void @vector_or_literal_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %a, i32 addrspace(1)* %b) {			define amdgpu_kernel void @vector_or_literal_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %a, i32 addrspace(1)* %b) {
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	}			}

	; FUNC-LABEL: {{^}}trunc_i64_or_to_i32:			; FUNC-LABEL: {{^}}trunc_i64_or_to_i32:
	; SI: s_load_dword s[[SREG0:[0-9]+]]			; SI: s_load_dword s[[SREG0:[0-9]+]]
	; SI: s_load_dword s[[SREG1:[0-9]+]]			; SI: s_load_dword s[[SREG1:[0-9]+]]
	; SI: s_or_b32 s[[SRESULT:[0-9]+]], s[[SREG1]], s[[SREG0]]			; SI: s_or_b32 s[[SRESULT:[0-9]+]], s[[SREG1]], s[[SREG0]]
	; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], s[[SRESULT]]			; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], s[[SRESULT]]
	; SI: buffer_store_dword [[VRESULT]],			; SI: buffer_store_dword [[VRESULT]],
	define amdgpu_kernel void @trunc_i64_or_to_i32(i32 addrspace(1)* %out, i64 %a, i64 %b) {			define amdgpu_kernel void @trunc_i64_or_to_i32(i32 addrspace(1)* %out, [8 x i32], i64 %a, [8 x i32], i64 %b) {
	%add = or i64 %b, %a			%add = or i64 %b, %a
	%trunc = trunc i64 %add to i32			%trunc = trunc i64 %add to i32
	store i32 %trunc, i32 addrspace(1)* %out, align 8			store i32 %trunc, i32 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}or_i1:			; FUNC-LABEL: {{^}}or_i1:
	; EG: OR_INT * {{\** *}}T{{[0-9]+\.[XYZW], PS, PV\.[XYZW]}}			; EG: OR_INT * {{\** *}}T{{[0-9]+\.[XYZW], PS, PV\.[XYZW]}}

	; SI: s_or_b64 s[{{[0-9]+:[0-9]+}}], vcc, s[{{[0-9]+:[0-9]+}}]			; SI: s_or_b64 s[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}], vcc
	define amdgpu_kernel void @or_i1(i32 addrspace(1)* %out, float addrspace(1)* %in0, float addrspace(1)* %in1) {			define amdgpu_kernel void @or_i1(i32 addrspace(1)* %out, float addrspace(1)* %in0, float addrspace(1)* %in1) {
	%a = load float, float addrspace(1)* %in0			%a = load float, float addrspace(1)* %in0
	%b = load float, float addrspace(1)* %in1			%b = load float, float addrspace(1)* %in1
	%acmp = fcmp oge float %a, 0.000000e+00			%acmp = fcmp oge float %a, 0.000000e+00
	%bcmp = fcmp oge float %b, 0.000000e+00			%bcmp = fcmp oge float %b, 0.000000e+00
	%or = or i1 %acmp, %bcmp			%or = or i1 %acmp, %bcmp
	%result = zext i1 %or to i32			%result = zext i1 %or to i32
	store i32 %result, i32 addrspace(1)* %out			store i32 %result, i32 addrspace(1)* %out
	Show All 12 Lines

test/CodeGen/AMDGPU/partial-sgpr-to-vgpr-spills.ll

	; RUN: llc -O0 -march=amdgcn -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefix=ALL -check-prefix=VGPR -check-prefix=GCN %s			; RUN: llc -O0 -march=amdgcn -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefix=ALL -check-prefix=VGPR -check-prefix=GCN %s

	; FIXME: we should disable sdwa peephole because dead-code elimination, that			; FIXME: we should disable sdwa peephole because dead-code elimination, that
	; runs after peephole, ruins this test (different register numbers)			; runs after peephole, ruins this test (different register numbers)

	; Spill all SGPRs so multiple VGPRs are required for spilling all of them.			; Spill all SGPRs so multiple VGPRs are required for spilling all of them.

	; Ideally we only need 2 VGPRs for all spilling. The VGPRs are			; Ideally we only need 2 VGPRs for all spilling. The VGPRs are
	; allocated per-frame index, so it's possible to get up with more.			; allocated per-frame index, so it's possible to get up with more.

	; GCN-LABEL: {{^}}spill_sgprs_to_multiple_vgprs:			; GCN-LABEL: {{^}}spill_sgprs_to_multiple_vgprs:

	; GCN: def s[8:15]			; GCN: def s[4:11]
	; GCN: def s[16:23]			; GCN: def s[12:19]
	; GCN: def s[24:31]			; GCN: def s[20:27]
	; GCN: def s[32:39]			; GCN: def s[28:35]
	; GCN: def s[40:47]			; GCN: def s[36:43]
	; GCN: def s[48:55]			; GCN: def s[44:51]
	; GCN: def s[56:63]			; GCN: def s[52:59]
	; GCN: def s[64:71]			; GCN: def s[60:67]
	; GCN: def s[72:79]			; GCN: def s[68:75]
	; GCN: def s[80:87]			; GCN: def s[76:83]
	; GCN: def s[88:95]			; GCN: def s[84:91]

	; GCN: v_writelane_b32 v0, s8, 0			; GCN: v_writelane_b32 v0, s4, 0
	; GCN-NEXT: v_writelane_b32 v0, s9, 1			; GCN-NEXT: v_writelane_b32 v0, s5, 1
	; GCN-NEXT: v_writelane_b32 v0, s10, 2			; GCN-NEXT: v_writelane_b32 v0, s6, 2
	; GCN-NEXT: v_writelane_b32 v0, s11, 3			; GCN-NEXT: v_writelane_b32 v0, s7, 3
	; GCN-NEXT: v_writelane_b32 v0, s12, 4			; GCN-NEXT: v_writelane_b32 v0, s8, 4
	; GCN-NEXT: v_writelane_b32 v0, s13, 5			; GCN-NEXT: v_writelane_b32 v0, s9, 5
	; GCN-NEXT: v_writelane_b32 v0, s14, 6			; GCN-NEXT: v_writelane_b32 v0, s10, 6
	; GCN-NEXT: v_writelane_b32 v0, s15, 7			; GCN-NEXT: v_writelane_b32 v0, s11, 7

	; GCN: def s{{\[}}[[TMP_LO:[0-9]+]]:[[TMP_HI:[0-9]+]]{{\]}}			; GCN: def s{{\[}}[[TMP_LO:[0-9]+]]:[[TMP_HI:[0-9]+]]{{\]}}
	; GCN: v_writelane_b32 v0, s[[TMP_LO]], 8			; GCN: v_writelane_b32 v0, s[[TMP_LO]], 8
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 9			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 9
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 10			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 10
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 11			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 11
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 12			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 12
	; GCN-NEXT: v_writelane_b32 v0, s13, 13			; GCN-NEXT: v_writelane_b32 v0, s9, 13
	; GCN-NEXT: v_writelane_b32 v0, s14, 14			; GCN-NEXT: v_writelane_b32 v0, s10, 14
	; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 15			; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 15

	; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}			; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}
	; GCN: v_writelane_b32 v0, s[[TMP_LO]], 16			; GCN: v_writelane_b32 v0, s[[TMP_LO]], 16
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 17			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 17
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 18			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 18
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 19			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 19
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 20			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 20
	; GCN-NEXT: v_writelane_b32 v0, s13, 21			; GCN-NEXT: v_writelane_b32 v0, s9, 21
	; GCN-NEXT: v_writelane_b32 v0, s14, 22			; GCN-NEXT: v_writelane_b32 v0, s10, 22
	; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 23			; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 23

	; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}			; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}
	; GCN: v_writelane_b32 v0, s[[TMP_LO]], 24			; GCN: v_writelane_b32 v0, s[[TMP_LO]], 24
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 25			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 25
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 26			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 26
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 27			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 27
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 28			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 28
	; GCN-NEXT: v_writelane_b32 v0, s13, 29			; GCN-NEXT: v_writelane_b32 v0, s9, 29
	; GCN-NEXT: v_writelane_b32 v0, s14, 30			; GCN-NEXT: v_writelane_b32 v0, s10, 30
	; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 31			; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 31

	; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}			; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}
	; GCN: v_writelane_b32 v0, s[[TMP_LO]], 32			; GCN: v_writelane_b32 v0, s[[TMP_LO]], 32
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 33			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 33
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 34			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 34
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 35			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 35
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 36			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 36
	; GCN-NEXT: v_writelane_b32 v0, s13, 37			; GCN-NEXT: v_writelane_b32 v0, s9, 37
	; GCN-NEXT: v_writelane_b32 v0, s14, 38			; GCN-NEXT: v_writelane_b32 v0, s10, 38
	; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 39			; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 39

	; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}			; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}
	; GCN: v_writelane_b32 v0, s[[TMP_LO]], 40			; GCN: v_writelane_b32 v0, s[[TMP_LO]], 40
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 41			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 41
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 42			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 42
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 43			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 43
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 44			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 44
	; GCN-NEXT: v_writelane_b32 v0, s13, 45			; GCN-NEXT: v_writelane_b32 v0, s9, 45
	; GCN-NEXT: v_writelane_b32 v0, s14, 46			; GCN-NEXT: v_writelane_b32 v0, s10, 46
	; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 47			; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 47

	; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}			; GCN: def s{{\[}}[[TMP_LO]]:[[TMP_HI]]{{\]}}
	; GCN: v_writelane_b32 v0, s[[TMP_LO]], 48			; GCN: v_writelane_b32 v0, s[[TMP_LO]], 48
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 49			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 49
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 50			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 50
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 51			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 51
	; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 52			; GCN-NEXT: v_writelane_b32 v0, s{{[0-9]+}}, 52
	; GCN-NEXT: v_writelane_b32 v0, s13, 53			; GCN-NEXT: v_writelane_b32 v0, s9, 53
	; GCN-NEXT: v_writelane_b32 v0, s14, 54			; GCN-NEXT: v_writelane_b32 v0, s10, 54
	; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 55			; GCN-NEXT: v_writelane_b32 v0, s[[TMP_HI]], 55

	; GCN-NEXT: v_writelane_b32 v0, s88, 56			; GCN-NEXT: v_writelane_b32 v0, s84, 56
	; GCN-NEXT: v_writelane_b32 v0, s89, 57			; GCN-NEXT: v_writelane_b32 v0, s85, 57
	; GCN-NEXT: v_writelane_b32 v0, s90, 58			; GCN-NEXT: v_writelane_b32 v0, s86, 58
	; GCN-NEXT: v_writelane_b32 v0, s91, 59			; GCN-NEXT: v_writelane_b32 v0, s87, 59
	; GCN-NEXT: v_writelane_b32 v0, s92, 60			; GCN-NEXT: v_writelane_b32 v0, s88, 60
	; GCN-NEXT: v_writelane_b32 v0, s93, 61			; GCN-NEXT: v_writelane_b32 v0, s89, 61
	; GCN-NEXT: v_writelane_b32 v0, s94, 62			; GCN-NEXT: v_writelane_b32 v0, s90, 62
	; GCN-NEXT: v_writelane_b32 v0, s95, 63			; GCN-NEXT: v_writelane_b32 v0, s91, 63
	; GCN-NEXT: v_writelane_b32 v1, s16, 0			; GCN-NEXT: v_writelane_b32 v1, s12, 0
	; GCN-NEXT: v_writelane_b32 v1, s17, 1			; GCN-NEXT: v_writelane_b32 v1, s13, 1
	; GCN-NEXT: v_writelane_b32 v1, s18, 2			; GCN-NEXT: v_writelane_b32 v1, s14, 2
	; GCN-NEXT: v_writelane_b32 v1, s19, 3			; GCN-NEXT: v_writelane_b32 v1, s15, 3
	; GCN-NEXT: v_writelane_b32 v1, s20, 4			; GCN-NEXT: v_writelane_b32 v1, s16, 4
	; GCN-NEXT: v_writelane_b32 v1, s21, 5			; GCN-NEXT: v_writelane_b32 v1, s17, 5
	; GCN-NEXT: v_writelane_b32 v1, s22, 6			; GCN-NEXT: v_writelane_b32 v1, s18, 6
	; GCN-NEXT: v_writelane_b32 v1, s23, 7			; GCN-NEXT: v_writelane_b32 v1, s19, 7
	; GCN-NEXT: v_writelane_b32 v1, s24, 8			; GCN-NEXT: v_writelane_b32 v1, s20, 8
	; GCN-NEXT: v_writelane_b32 v1, s25, 9			; GCN-NEXT: v_writelane_b32 v1, s21, 9
	; GCN-NEXT: v_writelane_b32 v1, s26, 10			; GCN-NEXT: v_writelane_b32 v1, s22, 10
	; GCN-NEXT: v_writelane_b32 v1, s27, 11			; GCN-NEXT: v_writelane_b32 v1, s23, 11
	; GCN-NEXT: v_writelane_b32 v1, s28, 12			; GCN-NEXT: v_writelane_b32 v1, s24, 12
	; GCN-NEXT: v_writelane_b32 v1, s29, 13			; GCN-NEXT: v_writelane_b32 v1, s25, 13
	; GCN-NEXT: v_writelane_b32 v1, s30, 14			; GCN-NEXT: v_writelane_b32 v1, s26, 14
	; GCN-NEXT: v_writelane_b32 v1, s31, 15			; GCN-NEXT: v_writelane_b32 v1, s27, 15
	; GCN-NEXT: v_writelane_b32 v1, s32, 16			; GCN-NEXT: v_writelane_b32 v1, s28, 16
	; GCN-NEXT: v_writelane_b32 v1, s33, 17			; GCN-NEXT: v_writelane_b32 v1, s29, 17
	; GCN-NEXT: v_writelane_b32 v1, s34, 18			; GCN-NEXT: v_writelane_b32 v1, s30, 18
	; GCN-NEXT: v_writelane_b32 v1, s35, 19			; GCN-NEXT: v_writelane_b32 v1, s31, 19
	; GCN-NEXT: v_writelane_b32 v1, s36, 20			; GCN-NEXT: v_writelane_b32 v1, s32, 20
	; GCN-NEXT: v_writelane_b32 v1, s37, 21			; GCN-NEXT: v_writelane_b32 v1, s33, 21
	; GCN-NEXT: v_writelane_b32 v1, s38, 22			; GCN-NEXT: v_writelane_b32 v1, s34, 22
	; GCN-NEXT: v_writelane_b32 v1, s39, 23			; GCN-NEXT: v_writelane_b32 v1, s35, 23
	; GCN-NEXT: v_writelane_b32 v1, s40, 24			; GCN-NEXT: v_writelane_b32 v1, s36, 24
	; GCN-NEXT: v_writelane_b32 v1, s41, 25			; GCN-NEXT: v_writelane_b32 v1, s37, 25
	; GCN-NEXT: v_writelane_b32 v1, s42, 26			; GCN-NEXT: v_writelane_b32 v1, s38, 26
	; GCN-NEXT: v_writelane_b32 v1, s43, 27			; GCN-NEXT: v_writelane_b32 v1, s39, 27
	; GCN-NEXT: v_writelane_b32 v1, s44, 28			; GCN-NEXT: v_writelane_b32 v1, s40, 28
	; GCN-NEXT: v_writelane_b32 v1, s45, 29			; GCN-NEXT: v_writelane_b32 v1, s41, 29
	; GCN-NEXT: v_writelane_b32 v1, s46, 30			; GCN-NEXT: v_writelane_b32 v1, s42, 30
	; GCN-NEXT: v_writelane_b32 v1, s47, 31			; GCN-NEXT: v_writelane_b32 v1, s43, 31
	; GCN-NEXT: v_writelane_b32 v1, s48, 32			; GCN-NEXT: v_writelane_b32 v1, s44, 32
	; GCN-NEXT: v_writelane_b32 v1, s49, 33			; GCN-NEXT: v_writelane_b32 v1, s45, 33
	; GCN-NEXT: v_writelane_b32 v1, s50, 34			; GCN-NEXT: v_writelane_b32 v1, s46, 34
	; GCN-NEXT: v_writelane_b32 v1, s51, 35			; GCN-NEXT: v_writelane_b32 v1, s47, 35
	; GCN-NEXT: v_writelane_b32 v1, s52, 36			; GCN-NEXT: v_writelane_b32 v1, s48, 36
	; GCN-NEXT: v_writelane_b32 v1, s53, 37			; GCN-NEXT: v_writelane_b32 v1, s49, 37
	; GCN-NEXT: v_writelane_b32 v1, s54, 38			; GCN-NEXT: v_writelane_b32 v1, s50, 38
	; GCN-NEXT: v_writelane_b32 v1, s55, 39			; GCN-NEXT: v_writelane_b32 v1, s51, 39
	; GCN-NEXT: v_writelane_b32 v1, s56, 40			; GCN-NEXT: v_writelane_b32 v1, s52, 40
	; GCN-NEXT: v_writelane_b32 v1, s57, 41			; GCN-NEXT: v_writelane_b32 v1, s53, 41
	; GCN-NEXT: v_writelane_b32 v1, s58, 42			; GCN-NEXT: v_writelane_b32 v1, s54, 42
	; GCN-NEXT: v_writelane_b32 v1, s59, 43			; GCN-NEXT: v_writelane_b32 v1, s55, 43
	; GCN-NEXT: v_writelane_b32 v1, s60, 44			; GCN-NEXT: v_writelane_b32 v1, s56, 44
	; GCN-NEXT: v_writelane_b32 v1, s61, 45			; GCN-NEXT: v_writelane_b32 v1, s57, 45
	; GCN-NEXT: v_writelane_b32 v1, s62, 46			; GCN-NEXT: v_writelane_b32 v1, s58, 46
	; GCN-NEXT: v_writelane_b32 v1, s63, 47			; GCN-NEXT: v_writelane_b32 v1, s59, 47
	; GCN-NEXT: v_writelane_b32 v1, s64, 48			; GCN-NEXT: v_writelane_b32 v1, s60, 48
	; GCN-NEXT: v_writelane_b32 v1, s65, 49			; GCN-NEXT: v_writelane_b32 v1, s61, 49
	; GCN-NEXT: v_writelane_b32 v1, s66, 50			; GCN-NEXT: v_writelane_b32 v1, s62, 50
	; GCN-NEXT: v_writelane_b32 v1, s67, 51			; GCN-NEXT: v_writelane_b32 v1, s63, 51
	; GCN-NEXT: v_writelane_b32 v1, s68, 52			; GCN-NEXT: v_writelane_b32 v1, s64, 52
	; GCN-NEXT: v_writelane_b32 v1, s69, 53			; GCN-NEXT: v_writelane_b32 v1, s65, 53
	; GCN-NEXT: v_writelane_b32 v1, s70, 54			; GCN-NEXT: v_writelane_b32 v1, s66, 54
	; GCN-NEXT: v_writelane_b32 v1, s71, 55			; GCN-NEXT: v_writelane_b32 v1, s67, 55
	; GCN-NEXT: v_writelane_b32 v1, s72, 56			; GCN-NEXT: v_writelane_b32 v1, s68, 56
	; GCN-NEXT: v_writelane_b32 v1, s73, 57			; GCN-NEXT: v_writelane_b32 v1, s69, 57
	; GCN-NEXT: v_writelane_b32 v1, s74, 58			; GCN-NEXT: v_writelane_b32 v1, s70, 58
	; GCN-NEXT: v_writelane_b32 v1, s75, 59			; GCN-NEXT: v_writelane_b32 v1, s71, 59
	; GCN-NEXT: v_writelane_b32 v1, s76, 60			; GCN-NEXT: v_writelane_b32 v1, s72, 60
	; GCN-NEXT: v_writelane_b32 v1, s77, 61			; GCN-NEXT: v_writelane_b32 v1, s73, 61
	; GCN-NEXT: v_writelane_b32 v1, s78, 62			; GCN-NEXT: v_writelane_b32 v1, s74, 62
	; GCN-NEXT: v_writelane_b32 v1, s79, 63			; GCN-NEXT: v_writelane_b32 v1, s75, 63
	; GCN-NEXT: v_writelane_b32 v2, s80, 0			; GCN-NEXT: v_writelane_b32 v2, s76, 0
	; GCN-NEXT: v_writelane_b32 v2, s81, 1			; GCN-NEXT: v_writelane_b32 v2, s77, 1
	; GCN-NEXT: v_writelane_b32 v2, s82, 2			; GCN-NEXT: v_writelane_b32 v2, s78, 2
	; GCN-NEXT: v_writelane_b32 v2, s83, 3			; GCN-NEXT: v_writelane_b32 v2, s79, 3
	; GCN-NEXT: v_writelane_b32 v2, s84, 4			; GCN-NEXT: v_writelane_b32 v2, s80, 4
	; GCN-NEXT: v_writelane_b32 v2, s85, 5			; GCN-NEXT: v_writelane_b32 v2, s81, 5
	; GCN-NEXT: v_writelane_b32 v2, s86, 6			; GCN-NEXT: v_writelane_b32 v2, s82, 6
	; GCN-NEXT: v_writelane_b32 v2, s87, 7			; GCN-NEXT: v_writelane_b32 v2, s83, 7
	; GCN: s_cbranch_scc1			; GCN: s_cbranch_scc1


	; GCN: v_readlane_b32 s[[USE_TMP_LO:[0-9]+]], v0, 0			; GCN: v_readlane_b32 s[[USE_TMP_LO:[0-9]+]], v0, 0
	; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 1			; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 1
	; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 2			; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 2
	; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 3			; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 3
	; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 4			; GCN-NEXT: v_readlane_b32 s{{[0-9]+}}, v0, 4
	▲ Show 20 Lines • Show All 206 Lines • ▼ Show 20 Lines
	ret:			ret:
	ret void			ret void
	}			}

	; Some of the lanes of an SGPR spill are in one VGPR and some forced			; Some of the lanes of an SGPR spill are in one VGPR and some forced
	; into the next available VGPR.			; into the next available VGPR.

	; GCN-LABEL: {{^}}split_sgpr_spill_2_vgprs:			; GCN-LABEL: {{^}}split_sgpr_spill_2_vgprs:
	; GCN: def s[24:39]			; GCN: def s[4:19]
				; GCN: def s[20:35]

	; GCN: v_writelane_b32 v0, s24, 50			; GCN: v_writelane_b32 v0, s4, 50
	; GCN-NEXT: v_writelane_b32 v0, s25, 51			; GCN-NEXT: v_writelane_b32 v0, s5, 51
	; GCN-NEXT: v_writelane_b32 v0, s26, 52			; GCN-NEXT: v_writelane_b32 v0, s6, 52
	; GCN-NEXT: v_writelane_b32 v0, s27, 53			; GCN-NEXT: v_writelane_b32 v0, s7, 53
	; GCN-NEXT: v_writelane_b32 v0, s28, 54			; GCN-NEXT: v_writelane_b32 v0, s8, 54
	; GCN-NEXT: v_writelane_b32 v0, s29, 55			; GCN-NEXT: v_writelane_b32 v0, s9, 55
	; GCN-NEXT: v_writelane_b32 v0, s30, 56			; GCN-NEXT: v_writelane_b32 v0, s10, 56
	; GCN-NEXT: v_writelane_b32 v0, s31, 57			; GCN-NEXT: v_writelane_b32 v0, s11, 57
	; GCN-NEXT: v_writelane_b32 v0, s32, 58			; GCN-NEXT: v_writelane_b32 v0, s12, 58
	; GCN-NEXT: v_writelane_b32 v0, s33, 59			; GCN-NEXT: v_writelane_b32 v0, s13, 59
	; GCN-NEXT: v_writelane_b32 v0, s34, 60			; GCN-NEXT: v_writelane_b32 v0, s14, 60
	; GCN-NEXT: v_writelane_b32 v0, s35, 61			; GCN-NEXT: v_writelane_b32 v0, s15, 61
	; GCN-NEXT: v_writelane_b32 v0, s36, 62			; GCN-NEXT: v_writelane_b32 v0, s16, 62
	; GCN-NEXT: v_writelane_b32 v0, s37, 63			; GCN-NEXT: v_writelane_b32 v0, s17, 63
	; GCN-NEXT: v_writelane_b32 v1, s38, 0			; GCN-NEXT: v_writelane_b32 v1, s18, 0
	; GCN-NEXT: v_writelane_b32 v1, s39, 1			; GCN-NEXT: v_writelane_b32 v1, s19, 1

	; GCN: v_readlane_b32 s4, v0, 50			; GCN: v_readlane_b32 s4, v0, 50
	; GCN-NEXT: v_readlane_b32 s5, v0, 51			; GCN-NEXT: v_readlane_b32 s5, v0, 51
	; GCN-NEXT: v_readlane_b32 s6, v0, 52			; GCN-NEXT: v_readlane_b32 s6, v0, 52
	; GCN-NEXT: v_readlane_b32 s7, v0, 53			; GCN-NEXT: v_readlane_b32 s7, v0, 53
	; GCN-NEXT: v_readlane_b32 s8, v0, 54			; GCN-NEXT: v_readlane_b32 s8, v0, 54
	; GCN-NEXT: v_readlane_b32 s9, v0, 55			; GCN-NEXT: v_readlane_b32 s9, v0, 55
	; GCN-NEXT: v_readlane_b32 s10, v0, 56			; GCN-NEXT: v_readlane_b32 s10, v0, 56
	▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/reduce-store-width-alignment.ll

	Show All 34 Lines
	define amdgpu_kernel void @store_v4i32_as_v2i64_align_4(<2 x i64> addrspace(3)* align 4 %out, <4 x i32> %x) #0 {			define amdgpu_kernel void @store_v4i32_as_v2i64_align_4(<2 x i64> addrspace(3)* align 4 %out, <4 x i32> %x) #0 {
	%x.bc = bitcast <4 x i32> %x to <2 x i64>			%x.bc = bitcast <4 x i32> %x to <2 x i64>
	store <2 x i64> %x.bc, <2 x i64> addrspace(3)* %out, align 4			store <2 x i64> %x.bc, <2 x i64> addrspace(3)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}store_v4i16_as_v2i32_align_4:			; GCN-LABEL: {{^}}store_v4i16_as_v2i32_align_4:
	; GCN: s_load_dword s			; GCN: s_load_dword s
	; GCN-NEXT: s_load_dword s			; GCN-NEXT: s_load_dwordx2 s
	; GCN-NEXT: s_load_dword s
	; GCN-NOT: {{buffer\|flat\|global}}			; GCN-NOT: {{buffer\|flat\|global}}

	; GCN: ds_write2_b32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} offset1:1{{$}}			; GCN: ds_write2_b32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} offset1:1{{$}}
	define amdgpu_kernel void @store_v4i16_as_v2i32_align_4(<2 x i32> addrspace(3)* align 4 %out, <4 x i16> %x) #0 {			define amdgpu_kernel void @store_v4i16_as_v2i32_align_4(<2 x i32> addrspace(3)* align 4 %out, <4 x i16> %x) #0 {
	%x.bc = bitcast <4 x i16> %x to <2 x i32>			%x.bc = bitcast <4 x i16> %x to <2 x i32>
	store <2 x i32> %x.bc, <2 x i32> addrspace(3)* %out, align 4			store <2 x i32> %x.bc, <2 x i32> addrspace(3)* %out, align 4
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

test/CodeGen/AMDGPU/sad.ll

; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

; GCN-LABEL: {{^}}v_sad_u32_pat1:		; GCN-LABEL: {{^}}v_sad_u32_pat1:
; GCN: v_sad_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: v_sad_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @v_sad_u32_pat1(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) {		define amdgpu_kernel void @v_sad_u32_pat1(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) {
%icmp0 = icmp ugt i32 %a, %b		%icmp0 = icmp ugt i32 %a, %b
%t0 = select i1 %icmp0, i32 %a, i32 %b		%t0 = select i1 %icmp0, i32 %a, i32 %b

%icmp1 = icmp ule i32 %a, %b		%icmp1 = icmp ule i32 %a, %b
▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_sad_u32_i16_pat1(i16 addrspace(1)* %out, i16 %a, i16 %b, i16 %c) {
%ret0 = sub i16 %t0, %t1		%ret0 = sub i16 %t0, %t1
%ret = add i16 %ret0, %c		%ret = add i16 %ret0, %c

store i16 %ret, i16 addrspace(1)* %out		store i16 %ret, i16 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_sad_u32_i16_pat2:		; GCN-LABEL: {{^}}v_sad_u32_i16_pat2:
; GCN: v_sad_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: v_sad_u32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @v_sad_u32_i16_pat2(i16 addrspace(1)* %out, i16 zeroext %a, i16 zeroext %b, i16 zeroext %c) {		define amdgpu_kernel void @v_sad_u32_i16_pat2(i16 addrspace(1)* %out) {
		%a = load volatile i16, i16 addrspace(1)* undef
		%b = load volatile i16, i16 addrspace(1)* undef
		%c = load volatile i16, i16 addrspace(1)* undef
%icmp0 = icmp ugt i16 %a, %b		%icmp0 = icmp ugt i16 %a, %b
%sub0 = sub i16 %a, %b		%sub0 = sub i16 %a, %b
%sub1 = sub i16 %b, %a		%sub1 = sub i16 %b, %a
%ret0 = select i1 %icmp0, i16 %sub0, i16 %sub1		%ret0 = select i1 %icmp0, i16 %sub0, i16 %sub1

%ret = add i16 %ret0, %c		%ret = add i16 %ret0, %c

store i16 %ret, i16 addrspace(1)* %out		store i16 %ret, i16 addrspace(1)* %out
Show All 12 Lines	define amdgpu_kernel void @v_sad_u32_i8_pat1(i8 addrspace(1)* %out, i8 %a, i8 %b, i8 %c) {
%ret0 = sub i8 %t0, %t1		%ret0 = sub i8 %t0, %t1
%ret = add i8 %ret0, %c		%ret = add i8 %ret0, %c

store i8 %ret, i8 addrspace(1)* %out		store i8 %ret, i8 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_sad_u32_i8_pat2:		; GCN-LABEL: {{^}}v_sad_u32_i8_pat2:
; GCN: v_sad_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: v_sad_u32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @v_sad_u32_i8_pat2(i8 addrspace(1)* %out, i8 zeroext %a, i8 zeroext %b, i8 zeroext %c) {		define amdgpu_kernel void @v_sad_u32_i8_pat2(i8 addrspace(1)* %out) {
		%a = load volatile i8, i8 addrspace(1)* undef
		%b = load volatile i8, i8 addrspace(1)* undef
		%c = load volatile i8, i8 addrspace(1)* undef
		%icmp0 = icmp ugt i8 %a, %b
		%sub0 = sub i8 %a, %b
		%sub1 = sub i8 %b, %a
		%ret0 = select i1 %icmp0, i8 %sub0, i8 %sub1

		%ret = add i8 %ret0, %c

		store i8 %ret, i8 addrspace(1)* %out
		ret void
		}

		; GCN-LABEL: {{^}}s_sad_u32_i8_pat2:
		; GCN: s_load_dword
		; GCN: s_bfe_u32
		; GCN: s_sub_i32
		; GCN: s_and_b32
		; GCN: s_sub_i32
		; GCN: s_lshr_b32
		; GCN: v_add_i32_e32
		define amdgpu_kernel void @s_sad_u32_i8_pat2(i8 addrspace(1)* %out, i8 zeroext %a, i8 zeroext %b, i8 zeroext %c) {
%icmp0 = icmp ugt i8 %a, %b		%icmp0 = icmp ugt i8 %a, %b
%sub0 = sub i8 %a, %b		%sub0 = sub i8 %a, %b
%sub1 = sub i8 %b, %a		%sub1 = sub i8 %b, %a
%ret0 = select i1 %icmp0, i8 %sub0, i8 %sub1		%ret0 = select i1 %icmp0, i8 %sub0, i8 %sub1

%ret = add i8 %ret0, %c		%ret = add i8 %ret0, %c

store i8 %ret, i8 addrspace(1)* %out		store i8 %ret, i8 addrspace(1)* %out
Show All 38 Lines

test/CodeGen/AMDGPU/schedule-kernel-arg-loads.ll

; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=FUNC -check-prefix=SI -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=FUNC -check-prefix=SI -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=FUNC -check-prefix=VI -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=FUNC -check-prefix=VI -check-prefix=GCN %s

; FUNC-LABEL: {{^}}cluster_arg_loads:		; FUNC-LABEL: {{^}}cluster_arg_loads:
; SI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x9		; SI: s_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x9
; SI-NEXT: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-NEXT: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xd
; SI-NEXT: s_load_dword s{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, 0xd
; SI-NEXT: s_load_dword s{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, 0xe		; VI: s_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x24
; VI: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x24		; VI-NEXT: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x34
; VI-NEXT: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
; VI-NEXT: s_load_dword s{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, 0x34
; VI-NEXT: s_load_dword s{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, 0x38
define amdgpu_kernel void @cluster_arg_loads(i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, i32 %x, i32 %y) nounwind {		define amdgpu_kernel void @cluster_arg_loads(i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, i32 %x, i32 %y) nounwind {
store i32 %x, i32 addrspace(1)* %out0, align 4		store i32 %x, i32 addrspace(1)* %out0, align 4
store i32 %y, i32 addrspace(1)* %out1, align 4		store i32 %y, i32 addrspace(1)* %out1, align 4
ret void		ret void
}		}

; Test for a crash in SIInstrInfo::areLoadsFromSameBasePtr() when		; Test for a crash in SIInstrInfo::areLoadsFromSameBasePtr() when
; s_load_dwordx2 has a register offset		; s_load_dwordx2 has a register offset
Show All 16 Lines	define amdgpu_kernel void @same_base_ptr_crash(i64 addrspace(1)* %out,
i64 %arg72, i64 %arg73, i64 %arg74, i64 %arg75, i64 %arg76, i64 %arg77, i64 %arg78, i64 %arg79,		i64 %arg72, i64 %arg73, i64 %arg74, i64 %arg75, i64 %arg76, i64 %arg77, i64 %arg78, i64 %arg79,
i64 %arg80, i64 %arg81, i64 %arg82, i64 %arg83, i64 %arg84, i64 %arg85, i64 %arg86, i64 %arg87,		i64 %arg80, i64 %arg81, i64 %arg82, i64 %arg83, i64 %arg84, i64 %arg85, i64 %arg86, i64 %arg87,
i64 %arg88, i64 %arg89, i64 %arg90, i64 %arg91, i64 %arg92, i64 %arg93, i64 %arg94, i64 %arg95,		i64 %arg88, i64 %arg89, i64 %arg90, i64 %arg91, i64 %arg92, i64 %arg93, i64 %arg94, i64 %arg95,
i64 %arg96, i64 %arg97, i64 %arg98, i64 %arg99, i64 %arg100, i64 %arg101, i64 %arg102, i64 %arg103,		i64 %arg96, i64 %arg97, i64 %arg98, i64 %arg99, i64 %arg100, i64 %arg101, i64 %arg102, i64 %arg103,
i64 %arg104, i64 %arg105, i64 %arg106, i64 %arg107, i64 %arg108, i64 %arg109, i64 %arg110, i64 %arg111,		i64 %arg104, i64 %arg105, i64 %arg106, i64 %arg107, i64 %arg108, i64 %arg109, i64 %arg110, i64 %arg111,
i64 %arg112, i64 %arg113, i64 %arg114, i64 %arg115, i64 %arg116, i64 %arg117, i64 %arg118, i64 %arg119,		i64 %arg112, i64 %arg113, i64 %arg114, i64 %arg115, i64 %arg116, i64 %arg117, i64 %arg118, i64 %arg119,
i64 %arg120, i64 %arg121, i64 %arg122, i64 %arg123, i64 %arg124, i64 %arg125, i64 %arg126) {		i64 %arg120, i64 %arg121, i64 %arg122, i64 %arg123, i64 %arg124, i64 %arg125, i64 %arg126) {
entry:		entry:
%value = add i64 %arg125, %arg126		%value = add i64 %arg124, %arg126
store i64 %value, i64 addrspace(1)* %out, align 8		store i64 %value, i64 addrspace(1)* %out, align 8
ret void		ret void
}		}

test/CodeGen/AMDGPU/schedule-regpressure-limit2.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -misched=gcn-minreg -verify-machineinstrs < %s \| FileCheck -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -misched=gcn-minreg -verify-machineinstrs < %s \| FileCheck -check-prefixes=SI,SI-MINREG %s
	; RUN: llc -march=amdgcn -mcpu=tahiti -misched=gcn-max-occupancy-experimental -verify-machineinstrs < %s \| FileCheck -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -misched=gcn-max-occupancy-experimental -verify-machineinstrs < %s \| FileCheck -check-prefixes=SI,SI-MAXOCC %s
	; RUN: llc -march=amdgcn -mcpu=fiji -misched=gcn-minreg -verify-machineinstrs < %s \| FileCheck -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -misched=gcn-minreg -verify-machineinstrs < %s \| FileCheck -check-prefixes=VI,VI-MINREG %s
	; RUN: llc -march=amdgcn -mcpu=fiji -misched=gcn-max-occupancy-experimental -verify-machineinstrs < %s \| FileCheck -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -misched=gcn-max-occupancy-experimental -verify-machineinstrs < %s \| FileCheck -check-prefixes=VI,VI-MAXOCC %s

	; SI: NumSgprs: {{[1-9]$}}			; SI-MINREG: NumSgprs: {{[1-9]$}}
	; SI: NumVgprs: {{[1-9]$}}			; SI-MINREG: NumVgprs: {{[1-9]$}}

				; SI-MAXOCC: NumSgprs: {{[0-4][0-9]$}}
				; SI-MAXOCC: NumVgprs: {{[0-4][0-9]$}}

	; stores may alias loads			; stores may alias loads
	; VI: NumSgprs: {{[0-9]$}}			; VI: NumSgprs: {{[0-9]$}}
	; VI: NumVgprs: {{[1-3][0-9]$}}			; VI: NumVgprs: {{[1-3][0-9]$}}

	define amdgpu_kernel void @load_fma_store(float addrspace(3)* nocapture readonly %in_arg, float addrspace(1)* nocapture %out_arg) {			define amdgpu_kernel void @load_fma_store(float addrspace(3)* nocapture readonly %in_arg, float addrspace(1)* nocapture %out_arg) {
	bb:			bb:
	%adr.a.0 = getelementptr inbounds float, float addrspace(3)* %in_arg, i32 20004			%adr.a.0 = getelementptr inbounds float, float addrspace(3)* %in_arg, i32 20004
	▲ Show 20 Lines • Show All 273 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/select-i1.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s

	; FIXME: This should go in existing select.ll test, except the current testcase there is broken on GCN			; FIXME: This should go in existing select.ll test, except the current testcase there is broken on GCN

	; GCN-LABEL: {{^}}select_i1:			; GCN-LABEL: {{^}}select_i1:
	; GCN: v_cndmask_b32			; GCN: v_cndmask_b32
	; GCN-NOT: v_cndmask_b32			; GCN-NOT: v_cndmask_b32
	define amdgpu_kernel void @select_i1(i1 addrspace(1)* %out, i32 %cond, i1 %a, i1 %b) nounwind {			define amdgpu_kernel void @select_i1(i1 addrspace(1)* %out, i32 %cond, i1 %a, i1 %b) nounwind {
	%cmp = icmp ugt i32 %cond, 5			%cmp = icmp ugt i32 %cond, 5
	%sel = select i1 %cmp, i1 %a, i1 %b			%sel = select i1 %cmp, i1 %a, i1 %b
	store i1 %sel, i1 addrspace(1)* %out, align 4			store i1 %sel, i1 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_minmax_i1:			; GCN-LABEL: {{^}}s_minmax_i1:
	; GCN: s_load_dword [[LOAD:s[0-9]+]],			; GCN: s_load_dword [[LOAD:s[0-9]+]],
	; GCN-DAG: s_lshr_b32 [[A:s[0-9]+]], [[LOAD]], 8			; GCN-DAG: s_lshr_b32 [[A:s[0-9]+]], [[LOAD]], 8
	; GCN-DAG: s_lshr_b32 [[B:s[0-9]+]], [[LOAD]], 16			; GCN-DAG: s_lshr_b32 [[B:s[0-9]+]], [[LOAD]], 16
	; GCN-DAG: s_and_b32 [[COND:s[0-9]+]], 1, [[LOAD]]			; GCN-DAG: s_and_b32 [[COND:s[0-9]+]], 1, [[LOAD]]
	; GCN-DAG: v_mov_b32_e32 [[V_A:v[0-9]+]], [[A]]			; GCN: v_mov_b32_e32 [[V_B:v[0-9]+]], [[B]]
	; GCN-DAG: v_mov_b32_e32 [[V_B:v[0-9]+]], [[B]]			; GCN: v_mov_b32_e32 [[V_A:v[0-9]+]], [[A]]
	; GCN: v_cmp_eq_u32_e64 vcc, [[COND]], 1			; GCN: v_cmp_eq_u32_e64 vcc, [[COND]], 1
	; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], [[V_B]], [[V_A]]			; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], [[V_B]], [[V_A]]
	; GCN: v_and_b32_e32 v{{[0-9]+}}, 1, [[SEL]]			; GCN: v_and_b32_e32 v{{[0-9]+}}, 1, [[SEL]]
	define amdgpu_kernel void @s_minmax_i1(i1 addrspace(1)* %out, i1 zeroext %cond, i1 zeroext %a, i1 zeroext %b) nounwind {			define amdgpu_kernel void @s_minmax_i1(i1 addrspace(1)* %out, [8 x i32], i1 zeroext %cond, i1 zeroext %a, i1 zeroext %b) nounwind {
	%cmp = icmp slt i1 %cond, false			%cmp = icmp slt i1 %cond, false
	%sel = select i1 %cmp, i1 %a, i1 %b			%sel = select i1 %cmp, i1 %a, i1 %b
	store i1 %sel, i1 addrspace(1)* %out, align 4			store i1 %sel, i1 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/select-opt.ll

Show First 20 Lines • Show All 128 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @opt_select_i64_or_cmp_f32(i64 addrspace(1)* %out, float %a, float %b, float %c, i64 %x, i64 %y) #0 {
%fcmp1 = fcmp one float %a, %c		%fcmp1 = fcmp one float %a, %c
%or = or i1 %fcmp0, %fcmp1		%or = or i1 %fcmp0, %fcmp1
%select = select i1 %or, i64 %x, i64 %y		%select = select i1 %or, i64 %x, i64 %y
store i64 %select, i64 addrspace(1)* %out		store i64 %select, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}regression:		; GCN-LABEL: {{^}}regression:
; GCN: v_cmp_neq_f32_e64		; GCN: v_cmp_neq_f32_e64 s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}, 1.0
; GCN: v_cmp_neq_f32_e64 {{[^,]*}}, s{{[0-9]+}}, 0		; GCN: v_cmp_neq_f32_e32 vcc, 0, v{{[0-9]+}}
		; GCN: v_cmp_eq_f32_e32 vcc, 0, v{{[0-9]+}}
; GCN: v_cmp_ne_u32_e32 vcc, 0, v{{[0-9]+}}		; GCN: v_cmp_ne_u32_e32 vcc, 0, v{{[0-9]+}}

define amdgpu_kernel void @regression(float addrspace(1)* %out, float %c0, float %c1) #0 {		define amdgpu_kernel void @regression(float addrspace(1)* %out, float %c0, float %c1) #0 {
entry:		entry:
%cmp0 = fcmp oeq float %c0, 1.0		%cmp0 = fcmp oeq float %c0, 1.0
br i1 %cmp0, label %if0, label %endif		br i1 %cmp0, label %if0, label %endif

if0:		if0:
Show All 15 Lines

test/CodeGen/AMDGPU/select.f16.ll

	Show All 18 Lines
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_f16(			define amdgpu_kernel void @select_f16(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c,			half addrspace(1)* %c,
	half addrspace(1)* %d) {			half addrspace(1)* %d) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%d.val = load half, half addrspace(1)* %d			%d.val = load volatile half, half addrspace(1)* %d
	%fcmp = fcmp olt half %a.val, %b.val			%fcmp = fcmp olt half %a.val, %b.val
	%r.val = select i1 %fcmp, half %c.val, half %d.val			%r.val = select i1 %fcmp, half %c.val, half %d.val
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}select_f16_imm_a:			; GCN-LABEL: {{^}}select_f16_imm_a:
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	Show All 10 Lines
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_f16_imm_a(			define amdgpu_kernel void @select_f16_imm_a(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c,			half addrspace(1)* %c,
	half addrspace(1)* %d) {			half addrspace(1)* %d) {
	entry:			entry:
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%d.val = load half, half addrspace(1)* %d			%d.val = load volatile half, half addrspace(1)* %d
	%fcmp = fcmp olt half 0xH3800, %b.val			%fcmp = fcmp olt half 0xH3800, %b.val
	%r.val = select i1 %fcmp, half %c.val, half %d.val			%r.val = select i1 %fcmp, half %c.val, half %d.val
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}select_f16_imm_b:			; GCN-LABEL: {{^}}select_f16_imm_b:
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	Show All 11 Lines
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_f16_imm_b(			define amdgpu_kernel void @select_f16_imm_b(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %c,			half addrspace(1)* %c,
	half addrspace(1)* %d) {			half addrspace(1)* %d) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%d.val = load half, half addrspace(1)* %d			%d.val = load volatile half, half addrspace(1)* %d
	%fcmp = fcmp olt half %a.val, 0xH3800			%fcmp = fcmp olt half %a.val, 0xH3800
	%r.val = select i1 %fcmp, half %c.val, half %d.val			%r.val = select i1 %fcmp, half %c.val, half %d.val
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}select_f16_imm_c:			; GCN-LABEL: {{^}}select_f16_imm_c:
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	Show All 12 Lines
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_f16_imm_c(			define amdgpu_kernel void @select_f16_imm_c(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %d) {			half addrspace(1)* %d) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%d.val = load half, half addrspace(1)* %d			%d.val = load volatile half, half addrspace(1)* %d
	%fcmp = fcmp olt half %a.val, %b.val			%fcmp = fcmp olt half %a.val, %b.val
	%r.val = select i1 %fcmp, half 0xH3800, half %d.val			%r.val = select i1 %fcmp, half 0xH3800, half %d.val
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}select_f16_imm_d:			; GCN-LABEL: {{^}}select_f16_imm_d:
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	Show All 11 Lines
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_f16_imm_d(			define amdgpu_kernel void @select_f16_imm_d(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c
	%fcmp = fcmp olt half %a.val, %b.val			%fcmp = fcmp olt half %a.val, %b.val
	%r.val = select i1 %fcmp, half %c.val, half 0xH3800			%r.val = select i1 %fcmp, half %c.val, half 0xH3800
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}select_v2f16:			; GCN-LABEL: {{^}}select_v2f16:
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	Show All 33 Lines
	; GCN-LABEL: {{^}}select_v2f16_imm_a:			; GCN-LABEL: {{^}}select_v2f16_imm_a:
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32

	; SI: v_cmp_lt_f32_e32 vcc, 0.5
	; SI: v_cndmask_b32_e32
	; SI: v_cmp_gt_f32_e32			; SI: v_cmp_gt_f32_e32
	; SI: v_cndmask_b32_e32			; SI: v_cndmask_b32_e32
				; SI: v_cmp_lt_f32_e32 vcc, 0.5
				; SI: v_cndmask_b32_e32

	; VI: v_cmp_lt_f16_e32			; VI: v_cmp_lt_f16_e32
	; VI: v_cndmask_b32_e32			; VI: v_cndmask_b32_e32
	; VI: v_cmp_gt_f16_e32			; VI: v_cmp_gt_f16_e32
	; VI: v_cndmask_b32_e32			; VI: v_cndmask_b32_e32

	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	Show All 16 Lines
	; GCN-LABEL: {{^}}select_v2f16_imm_b:			; GCN-LABEL: {{^}}select_v2f16_imm_b:
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32

	; SI: v_cmp_gt_f32_e32 vcc, 0.5
	; SI: v_cndmask_b32_e32
	; SI: v_cmp_lt_f32_e32			; SI: v_cmp_lt_f32_e32
	; SI: v_cndmask_b32_e32			; SI: v_cndmask_b32_e32
				; SI: v_cmp_gt_f32_e32 vcc, 0.5
				; SI: v_cndmask_b32_e32

	; VI: v_cmp_gt_f16_e32			; VI: v_cmp_gt_f16_e32
	; VI: v_cndmask_b32_e32			; VI: v_cndmask_b32_e32
	; VI: v_cmp_lt_f16_e32			; VI: v_cmp_lt_f16_e32
	; VI: v_cndmask_b32_e32			; VI: v_cndmask_b32_e32

	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	Show All 19 Lines
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32

	; SI: v_cmp_nlt_f32_e32			; SI: v_cmp_nlt_f32_e32
	; SI: v_cndmask_b32_e32			; SI: v_cndmask_b32_e32
	; SI: v_cmp_nlt_f32_e32			; SI: v_cmp_nlt_f32_e32
	; SI: v_cndmask_b32_e32			; SI-DAG: v_cndmask_b32_e32

	; VI: v_cmp_nlt_f16_e32			; VI: v_cmp_nlt_f16_e32
	; VI: v_cndmask_b32_e32			; VI: v_cndmask_b32_e32

	; VI: v_cmp_nlt_f16_e32			; VI: v_cmp_nlt_f16_e32
	; VI: v_cndmask_b32_e32			; VI: v_cndmask_b32_e32

	; SI: v_cvt_f16_f32_e32			; SI-DAG: v_cvt_f16_f32_e32
	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_v2f16_imm_c(			define amdgpu_kernel void @select_v2f16_imm_c(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	<2 x half> addrspace(1)* %b,			<2 x half> addrspace(1)* %b,
	<2 x half> addrspace(1)* %d) {			<2 x half> addrspace(1)* %d) {
	entry:			entry:
	%a.val = load <2 x half>, <2 x half> addrspace(1)* %a			%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/setcc-opt.ll

	Show First 20 Lines • Show All 174 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @cmp_sext_k_neg1(i1 addrspace(1)* %out, i8 addrspace(1)* %b.ptr) nounwind {			define amdgpu_kernel void @cmp_sext_k_neg1(i1 addrspace(1)* %out, i8 addrspace(1)* %b.ptr) nounwind {
	%b = load i8, i8 addrspace(1)* %b.ptr			%b = load i8, i8 addrspace(1)* %b.ptr
	%b.ext = sext i8 %b to i32			%b.ext = sext i8 %b to i32
	%icmp0 = icmp ne i32 %b.ext, -1			%icmp0 = icmp ne i32 %b.ext, -1
	store i1 %icmp0, i1 addrspace(1)* %out			store i1 %icmp0, i1 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}cmp_sext_k_neg1_i8_sext_arg:			; FUNC-LABEL: {{^}}v_cmp_sext_k_neg1_i8_sext_arg:
	; GCN: s_load_dword [[B:s[0-9]+]]			; GCN: v_cmp_ne_u32_e32 vcc, -1, v0
	; GCN: v_cmp_ne_u32_e64 [[CMP:s\[[0-9]+:[0-9]+\]]], [[B]], -1{{$}}			; GCN-NEXT: v_cndmask_b32_e64 [[SELECT:v[0-9]+]], 0, 1, vcc
	; GCN-NEXT: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, 1, [[CMP]]			; GCN: buffer_store_byte [[SELECT]]
	; GCN-NEXT: buffer_store_byte [[RESULT]]			define void @v_cmp_sext_k_neg1_i8_sext_arg(i8 signext %b) nounwind {
	; GCN: s_endpgm
	define amdgpu_kernel void @cmp_sext_k_neg1_i8_sext_arg(i1 addrspace(1)* %out, i8 signext %b) nounwind {
	%b.ext = sext i8 %b to i32			%b.ext = sext i8 %b to i32
	%icmp0 = icmp ne i32 %b.ext, -1			%icmp0 = icmp ne i32 %b.ext, -1
	store i1 %icmp0, i1 addrspace(1)* %out			store i1 %icmp0, i1 addrspace(1)* undef
	ret void			ret void
	}			}

	; FIXME: This ends up doing a buffer_load_ubyte, and and compare to			; FIXME: This ends up doing a buffer_load_ubyte, and and compare to
	; 255. Seems to be because of ordering problems when not allowing load widths to be reduced.			; 255. Seems to be because of ordering problems when not allowing load widths to be reduced.
	; Should do a buffer_load_sbyte and compare with -1			; Should do a buffer_load_sbyte and compare with -1

	; FUNC-LABEL: {{^}}cmp_sext_k_neg1_i8_arg:			; FUNC-LABEL: {{^}}cmp_sext_k_neg1_i8_arg:
	▲ Show 20 Lines • Show All 87 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sgpr-control-flow.ll

Show All 32 Lines	endif:
ret void		ret void
}		}

; SI-LABEL: {{^}}sgpr_if_else_salu_br_opt:		; SI-LABEL: {{^}}sgpr_if_else_salu_br_opt:
; SI: s_cmp_lg_u32		; SI: s_cmp_lg_u32
; SI: s_cbranch_scc0 [[IF:BB[0-9]+_[0-9]+]]		; SI: s_cbranch_scc0 [[IF:BB[0-9]+_[0-9]+]]

; SI: ; %bb.1: ; %else		; SI: ; %bb.1: ; %else
; SI: s_load_dword [[LOAD0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xe		; SI: s_load_dword [[LOAD0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x25
; SI: s_load_dword [[LOAD1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xf		; SI: s_load_dword [[LOAD1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2e
; SI-NOT: add		; SI-NOT: add
; SI: s_branch [[ENDIF:BB[0-9]+_[0-9]+]]		; SI: s_branch [[ENDIF:BB[0-9]+_[0-9]+]]

; SI: [[IF]]: ; %if		; SI: [[IF]]: ; %if
; SI: s_load_dword [[LOAD0]], s{{\[[0-9]+:[0-9]+\]}}, 0xc		; SI: s_load_dword [[LOAD0]], s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI: s_load_dword [[LOAD1]], s{{\[[0-9]+:[0-9]+\]}}, 0xd		; SI: s_load_dword [[LOAD1]], s{{\[[0-9]+:[0-9]+\]}}, 0x1c
; SI-NOT: add		; SI-NOT: add

; SI: [[ENDIF]]: ; %endif		; SI: [[ENDIF]]: ; %endif
; SI: s_add_i32 s{{[0-9]+}}, [[LOAD0]], [[LOAD1]]		; SI: s_add_i32 s{{[0-9]+}}, [[LOAD0]], [[LOAD1]]
; SI: buffer_store_dword		; SI: buffer_store_dword
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
define amdgpu_kernel void @sgpr_if_else_salu_br_opt(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %d, i32 %e) {		define amdgpu_kernel void @sgpr_if_else_salu_br_opt(i32 addrspace(1)* %out, [8 x i32], i32 %a, [8 x i32], i32 %b, [8 x i32], i32 %c, [8 x i32], i32 %d, [8 x i32], i32 %e) {
entry:		entry:
%0 = icmp eq i32 %a, 0		%cmp0 = icmp eq i32 %a, 0
br i1 %0, label %if, label %else		br i1 %cmp0, label %if, label %else

if:		if:
%1 = add i32 %b, %c		%add0 = add i32 %b, %c
br label %endif		br label %endif

else:		else:
%2 = add i32 %d, %e		%add1 = add i32 %d, %e
br label %endif		br label %endif

endif:		endif:
%3 = phi i32 [%1, %if], [%2, %else]		%phi = phi i32 [%add0, %if], [%add1, %else]
%4 = add i32 %3, %a		%add2 = add i32 %phi, %a
store i32 %4, i32 addrspace(1)* %out		store i32 %add2, i32 addrspace(1)* %out
ret void		ret void
}		}

; The two S_ADD instructions should write to different registers, since		; The two S_ADD instructions should write to different registers, since
; different threads will take different control flow paths.		; different threads will take different control flow paths.

; SI-LABEL: {{^}}sgpr_if_else_valu_br:		; SI-LABEL: {{^}}sgpr_if_else_valu_br:
; SI: s_add_i32 [[SGPR:s[0-9]+]]		; SI: s_add_i32 [[SGPR:s[0-9]+]]
▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/shl.ll

Show First 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @shl_v4i64(<4 x i64> addrspace(1)* %out, <4 x i64> addrspace(1)* %in) {
%b = load <4 x i64>, <4 x i64> addrspace(1)* %b_ptr		%b = load <4 x i64>, <4 x i64> addrspace(1)* %b_ptr
%result = shl <4 x i64> %a, %b		%result = shl <4 x i64> %a, %b
store <4 x i64> %result, <4 x i64> addrspace(1)* %out		store <4 x i64> %result, <4 x i64> addrspace(1)* %out
ret void		ret void
}		}

; Make sure load width gets reduced to i32 load.		; Make sure load width gets reduced to i32 load.
; GCN-LABEL: {{^}}s_shl_32_i64:		; GCN-LABEL: {{^}}s_shl_32_i64:
; GCN-DAG: s_load_dword [[LO_A:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb{{$}}		; GCN-DAG: s_load_dword [[LO_A:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x13{{$}}
; GCN-DAG: v_mov_b32_e32 v[[VLO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[VLO:[0-9]+]], 0{{$}}
; GCN-DAG: v_mov_b32_e32 v[[VHI:[0-9]+]], [[LO_A]]		; GCN-DAG: v_mov_b32_e32 v[[VHI:[0-9]+]], [[LO_A]]
; GCN: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}
define amdgpu_kernel void @s_shl_32_i64(i64 addrspace(1)* %out, i64 %a) {		define amdgpu_kernel void @s_shl_32_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
%result = shl i64 %a, 32		%result = shl i64 %a, 32
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_shl_32_i64:		; GCN-LABEL: {{^}}v_shl_32_i64:
; GCN-DAG: buffer_load_dword v[[LO_A:[0-9]+]],		; GCN-DAG: buffer_load_dword v[[LO_A:[0-9]+]],
; GCN-DAG: v_mov_b32_e32 v[[VLO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[VLO:[0-9]+]], 0{{$}}
▲ Show 20 Lines • Show All 213 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/shl.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,CIVI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,CIVI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,CIVI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,CIVI %s

	; GCN-LABEL: {{^}}s_shl_v2i16:			; GCN-LABEL: {{^}}s_shl_v2i16:
	; GFX9: s_load_dword [[LHS:s[0-9]+]]			; GFX9: s_load_dword [[LHS:s[0-9]+]]
	; GFX9: s_load_dword [[RHS:s[0-9]+]]			; GFX9: s_load_dword [[RHS:s[0-9]+]]
	; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]			; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]
	; GFX9: v_pk_lshlrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]			; GFX9: v_pk_lshlrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]

	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_load_dword s			; VI: s_load_dword s
	; VI: s_lshr_b32			; VI: s_lshr_b32
	; VI: s_lshr_b32			; VI: s_lshr_b32
	; VI: s_and_b32			; VI: s_and_b32
	; VI: s_and_b32			; VI: s_and_b32
				; VI: s_lshl_b32
				; VI: s_lshl_b32
				; VI: s_lshl_b32
	; VI: s_and_b32			; VI: s_and_b32
	; VI: s_or_b32			; VI: s_or_b32


	; CI: s_load_dword s			; CI: s_load_dword s
	; CI: s_load_dword s			; CI: s_load_dword s
	; CI: s_lshr_b32			; CI: s_lshr_b32
	; CI: s_and_b32			; CI: s_and_b32
	; CI: s_lshr_b32			; CI: s_lshr_b32
	; CI: s_lshl_b32			; CI: s_lshl_b32
	; CI: s_lshl_b32			; CI: s_lshl_b32
	; CI: s_lshl_b32			; CI: s_lshl_b32
	▲ Show 20 Lines • Show All 136 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/shl_add_constant.ll

Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @shl_2_add_999_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
%val = load i32, i32 addrspace(1)* %ptr, align 4		%val = load i32, i32 addrspace(1)* %ptr, align 4
%shl = add i32 %val, 999		%shl = add i32 %val, 999
%result = shl i32 %shl, 2		%result = shl i32 %shl, 2
store i32 %result, i32 addrspace(1)* %out, align 4		store i32 %result, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_add_shl_add_constant:		; FUNC-LABEL: {{^}}test_add_shl_add_constant:
; SI-DAG: s_load_dword [[X:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 s{{\[}}[[X:[0-9]+]]:[[Y:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[Y:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc		; SI-DAG: s_lshl_b32 [[SHL3:s[0-9]+]], s[[X]], 3
; SI-DAG: s_lshl_b32 [[SHL3:s[0-9]+]], [[X]], 3		; SI: s_add_i32 [[RESULT:s[0-9]+]], [[SHL3]], s[[Y]]
; SI: s_add_i32 [[RESULT:s[0-9]+]], [[SHL3]], [[Y]]
; SI: s_addk_i32 [[RESULT]], 0x3d8		; SI: s_addk_i32 [[RESULT]], 0x3d8
; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[RESULT]]		; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[RESULT]]
; SI: buffer_store_dword [[VRESULT]]		; SI: buffer_store_dword [[VRESULT]]
define amdgpu_kernel void @test_add_shl_add_constant(i32 addrspace(1)* %out, i32 %x, i32 %y) #0 {		define amdgpu_kernel void @test_add_shl_add_constant(i32 addrspace(1)* %out, [8 x i32], i32 %x, i32 %y) #0 {
%add.0 = add i32 %x, 123		%add.0 = add i32 %x, 123
%shl = shl i32 %add.0, 3		%shl = shl i32 %add.0, 3
%add.1 = add i32 %shl, %y		%add.1 = add i32 %shl, %y
store i32 %add.1, i32 addrspace(1)* %out, align 4		store i32 %add.1, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_add_shl_add_constant_inv:		; FUNC-LABEL: {{^}}test_add_shl_add_constant_inv:
; SI-DAG: s_load_dword [[X:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb		; SI-DAG: s_load_dwordx2 s{{\[}}[[X:[0-9]+]]:[[Y:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x13
; SI-DAG: s_load_dword [[Y:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc		; SI: s_lshl_b32 [[SHL3:s[0-9]+]], s[[X]], 3
; SI: s_lshl_b32 [[SHL3:s[0-9]+]], [[X]], 3		; SI: s_add_i32 [[TMP:s[0-9]+]], s[[Y]], [[SHL3]]
; SI: s_add_i32 [[TMP:s[0-9]+]], [[Y]], [[SHL3]]
; SI: s_addk_i32 [[TMP]], 0x3d8		; SI: s_addk_i32 [[TMP]], 0x3d8
; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[TMP]]		; SI: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[TMP]]
; SI: buffer_store_dword [[VRESULT]]		; SI: buffer_store_dword [[VRESULT]]

define amdgpu_kernel void @test_add_shl_add_constant_inv(i32 addrspace(1)* %out, i32 %x, i32 %y) #0 {		define amdgpu_kernel void @test_add_shl_add_constant_inv(i32 addrspace(1)* %out, [8 x i32], i32 %x, i32 %y) #0 {
%add.0 = add i32 %x, 123		%add.0 = add i32 %x, 123
%shl = shl i32 %add.0, 3		%shl = shl i32 %add.0, 3
%add.1 = add i32 %y, %shl		%add.1 = add i32 %y, %shl
store i32 %add.1, i32 addrspace(1)* %out, align 4		store i32 %add.1, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

attributes #0 = { nounwind }		attributes #0 = { nounwind }
attributes #1 = { nounwind readnone }		attributes #1 = { nounwind readnone }

test/CodeGen/AMDGPU/sign_extend.ll

	Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @v_sext_i32_to_i64(i64 addrspace(1)* %out, i32 addrspace(1)* %in) nounwind {			define amdgpu_kernel void @v_sext_i32_to_i64(i64 addrspace(1)* %out, i32 addrspace(1)* %in) nounwind {
	%val = load i32, i32 addrspace(1)* %in, align 4			%val = load i32, i32 addrspace(1)* %in, align 4
	%sext = sext i32 %val to i64			%sext = sext i32 %val to i64
	store i64 %sext, i64 addrspace(1)* %out, align 8			store i64 %sext, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_sext_i16_to_i64:			; GCN-LABEL: {{^}}s_sext_i16_to_i64:
				; GCN: s_load_dword [[VAL:s[0-9]+]]
	; GCN: s_bfe_i64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x100000			; GCN: s_bfe_i64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x100000
	define amdgpu_kernel void @s_sext_i16_to_i64(i64 addrspace(1)* %out, i16 %a) nounwind {			define amdgpu_kernel void @s_sext_i16_to_i64(i64 addrspace(1)* %out, i16 %a) nounwind {
	%sext = sext i16 %a to i64			%sext = sext i16 %a to i64
	store i64 %sext, i64 addrspace(1)* %out, align 8			store i64 %sext, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_sext_i1_to_i16:			; GCN-LABEL: {{^}}s_sext_i1_to_i16:
	▲ Show 20 Lines • Show All 164 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/smed3.ll

	Show First 20 Lines • Show All 364 Lines • ▼ Show 20 Lines
	}			}

	; FIXME: Should keep scalar or not promote			; FIXME: Should keep scalar or not promote
	; GCN-LABEL: {{^}}s_test_smed3_i16_pat_0:			; GCN-LABEL: {{^}}s_test_smed3_i16_pat_0:
	; GCN: s_sext_i32_i16			; GCN: s_sext_i32_i16
	; GCN: s_sext_i32_i16			; GCN: s_sext_i32_i16
	; GCN: s_sext_i32_i16			; GCN: s_sext_i32_i16
	; GCN: v_med3_i32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; GCN: v_med3_i32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	define amdgpu_kernel void @s_test_smed3_i16_pat_0(i16 addrspace(1)* %arg, i16 %x, i16 %y, i16 %z) #1 {			define amdgpu_kernel void @s_test_smed3_i16_pat_0(i16 addrspace(1)* %arg, [8 x i32], i16 %x, [8 x i32], i16 %y, [8 x i32], i16 %z) #1 {
	bb:			bb:
	%tmp0 = call i16 @smin16(i16 %x, i16 %y)			%tmp0 = call i16 @smin16(i16 %x, i16 %y)
	%tmp1 = call i16 @smax16(i16 %x, i16 %y)			%tmp1 = call i16 @smax16(i16 %x, i16 %y)
	%tmp2 = call i16 @smin16(i16 %tmp1, i16 %z)			%tmp2 = call i16 @smin16(i16 %tmp1, i16 %z)
	%tmp3 = call i16 @smax16(i16 %tmp0, i16 %tmp2)			%tmp3 = call i16 @smax16(i16 %tmp0, i16 %tmp2)
	store i16 %tmp3, i16 addrspace(1)* %arg			store i16 %tmp3, i16 addrspace(1)* %arg
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_test_smed3_i8_pat_0:			; GCN-LABEL: {{^}}s_test_smed3_i8_pat_0:
	; GCN: s_sext_i32_i8			; GCN: s_sext_i32_i8
	; GCN: s_sext_i32_i8			; GCN: s_sext_i32_i8
	; GCN: s_sext_i32_i8			; GCN: s_sext_i32_i8
	; GCN: v_med3_i32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; GCN: v_med3_i32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	define amdgpu_kernel void @s_test_smed3_i8_pat_0(i8 addrspace(1)* %arg, i8 %x, i8 %y, i8 %z) #1 {			define amdgpu_kernel void @s_test_smed3_i8_pat_0(i8 addrspace(1)* %arg, [8 x i32], i8 %x, [8 x i32], i8 %y, [8 x i32], i8 %z) #1 {
	bb:			bb:
	%tmp0 = call i8 @smin8(i8 %x, i8 %y)			%tmp0 = call i8 @smin8(i8 %x, i8 %y)
	%tmp1 = call i8 @smax8(i8 %x, i8 %y)			%tmp1 = call i8 @smax8(i8 %x, i8 %y)
	%tmp2 = call i8 @smin8(i8 %tmp1, i8 %z)			%tmp2 = call i8 @smin8(i8 %tmp1, i8 %z)
	%tmp3 = call i8 @smax8(i8 %tmp0, i8 %tmp2)			%tmp3 = call i8 @smax8(i8 %tmp0, i8 %tmp2)
	store i8 %tmp3, i8 addrspace(1)* %arg			store i8 %tmp3, i8 addrspace(1)* %arg
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 85 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sminmax.ll

	Show First 20 Lines • Show All 187 Lines • ▼ Show 20 Lines
	}			}

	; FUNC-LABEL: {{^}}s_min_max_i32:			; FUNC-LABEL: {{^}}s_min_max_i32:
	; GCN: s_load_dword [[VAL0:s[0-9]+]]			; GCN: s_load_dword [[VAL0:s[0-9]+]]
	; GCN: s_load_dword [[VAL1:s[0-9]+]]			; GCN: s_load_dword [[VAL1:s[0-9]+]]

	; GCN-DAG: s_min_i32 s{{[0-9]+}}, [[VAL0]], [[VAL1]]			; GCN-DAG: s_min_i32 s{{[0-9]+}}, [[VAL0]], [[VAL1]]
	; GCN-DAG: s_max_i32 s{{[0-9]+}}, [[VAL0]], [[VAL1]]			; GCN-DAG: s_max_i32 s{{[0-9]+}}, [[VAL0]], [[VAL1]]
	define amdgpu_kernel void @s_min_max_i32(i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, i32 %val0, i32 %val1) nounwind {			define amdgpu_kernel void @s_min_max_i32(i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, [8 x i32], i32 %val0, [8 x i32], i32 %val1) nounwind {
	%cond0 = icmp sgt i32 %val0, %val1			%cond0 = icmp sgt i32 %val0, %val1
	%sel0 = select i1 %cond0, i32 %val0, i32 %val1			%sel0 = select i1 %cond0, i32 %val0, i32 %val1
	%sel1 = select i1 %cond0, i32 %val1, i32 %val0			%sel1 = select i1 %cond0, i32 %val1, i32 %val0

	store volatile i32 %sel0, i32 addrspace(1)* %out0, align 4			store volatile i32 %sel0, i32 addrspace(1)* %out0, align 4
	store volatile i32 %sel1, i32 addrspace(1)* %out1, align 4			store volatile i32 %sel1, i32 addrspace(1)* %out1, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 57 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sminmax.v2i16.ll

; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX9,GCN %s		; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX9,GCN %s
; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=VI,CIVI,GCN %s		; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=VI,CIVI,GCN %s
; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=CI,CIVI,GCN %s		; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=CI,CIVI,GCN %s

; GCN-LABEL: {{^}}s_abs_v2i16:		; GCN-LABEL: {{^}}s_abs_v2i16:
; GFX9: s_load_dword [[VAL:s[0-9]+]]		; GFX9: s_load_dword [[VAL:s[0-9]+]]
; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]		; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]
; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]		; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]
; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2		; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2

; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16		; CIVI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
; VI: s_sub_i32		; CIVI: s_sub_i32
; VI: s_sub_i32		; CIVI: s_sub_i32
; VI: s_max_i32		; CIVI: s_max_i32
; VI: s_max_i32		; CIVI: s_max_i32
; SI: s_add_i32		; CIVI: s_add_i32
; SI: s_add_i32		; CIVI: s_add_i32
; SI: s_and_b32		; CIVI: s_and_b32
; SI: s_or_b32		; CIVI: s_or_b32

; CI-NOT: {{buffer\|flat}}_load
; CI: s_load_dword s
; CI-NOT: {{buffer\|flat}}_load
; CI: s_lshr_b32
; CI: s_ashr_i32
; CI: s_sext_i32_i16
; CI: s_sub_i32
; CI: s_sub_i32
; CI: s_sext_i32_i16
; CI: s_sext_i32_i16
; CI: s_max_i32
; CI: s_max_i32
; CI: s_lshl_b32
; CI: s_add_i32
; CI: s_add_i32
; CI: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0xffff
; CI: s_or_b32

define amdgpu_kernel void @s_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %val) #0 {		define amdgpu_kernel void @s_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %val) #0 {
%neg = sub <2 x i16> zeroinitializer, %val		%neg = sub <2 x i16> zeroinitializer, %val
%cond = icmp sgt <2 x i16> %val, %neg		%cond = icmp sgt <2 x i16> %val, %neg
%res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg		%res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg
%res2 = add <2 x i16> %res, <i16 2, i16 2>		%res2 = add <2 x i16> %res, <i16 2, i16 2>
store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}
Show All 9 Lines
; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}		; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}		; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}		; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}
; VI: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[TWO]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[TWO]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NOT: v_and_b32		; VI-NOT: v_and_b32
; VI: v_or_b32_e32		; VI: v_or_b32_e32

		; CI: buffer_load_dword v
		; CI: v_lshrrev_b32_e32
		; CI: v_sub_i32_e32
		; CI: v_bfe_i32
		; CI: v_bfe_i32
		; CI: v_max_i32
		; CI: v_max_i32
		; CI: v_add_i32
		; CI: v_add_i32
		; CI: v_or_b32
define amdgpu_kernel void @v_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {		define amdgpu_kernel void @v_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.in = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %src, i32 %tid		%gep.in = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %src, i32 %tid
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%val = load <2 x i16>, <2 x i16> addrspace(1)* %gep.in, align 4		%val = load <2 x i16>, <2 x i16> addrspace(1)* %gep.in, align 4
%neg = sub <2 x i16> zeroinitializer, %val		%neg = sub <2 x i16> zeroinitializer, %val
%cond = icmp sgt <2 x i16> %val, %neg		%cond = icmp sgt <2 x i16> %val, %neg
%res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg		%res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg
Show All 38 Lines	define amdgpu_kernel void @v_abs_v2i16_2(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {
store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_abs_v4i16:		; GCN-LABEL: {{^}}s_abs_v4i16:
; GFX9: s_load_dwordx2 s{{\[}}[[VAL0:[0-9]+]]:[[VAL1:[0-9]+]]{{\]}}, s[0:1], 0x2c		; GFX9: s_load_dwordx2 s{{\[}}[[VAL0:[0-9]+]]:[[VAL1:[0-9]+]]{{\]}}, s[0:1], 0x2c
; GFX9-DAG: v_pk_sub_i16 [[SUB0:v[0-9]+]], 0, s[[VAL0]]		; GFX9-DAG: v_pk_sub_i16 [[SUB0:v[0-9]+]], 0, s[[VAL0]]
; GFX9-DAG: v_pk_sub_i16 [[SUB1:v[0-9]+]], 0, s[[VAL1]]		; GFX9-DAG: v_pk_sub_i16 [[SUB1:v[0-9]+]], 0, s[[VAL1]]

; GFX9-DAG: v_pk_max_i16 [[MAX0:v[0-9]+]], s[[VAL0]], [[SUB0]]		; GFX9-DAG: v_pk_max_i16 [[MAX0:v[0-9]+]], s[[VAL0]], [[SUB0]]
; GFX9-DAG: v_pk_max_i16 [[MAX1:v[0-9]+]], s[[VAL1]], [[SUB1]]		; GFX9-DAG: v_pk_max_i16 [[MAX1:v[0-9]+]], s[[VAL1]], [[SUB1]]

; GFX9-DAG: v_pk_add_u16 [[ADD0:v[0-9]+]], [[MAX0]], 2 op_sel_hi:[1,0]		; GFX9-DAG: v_pk_add_u16 [[ADD0:v[0-9]+]], [[MAX0]], 2 op_sel_hi:[1,0]
; GFX9-DAG: v_pk_add_u16 [[ADD1:v[0-9]+]], [[MAX1]], 2 op_sel_hi:[1,0]		; GFX9-DAG: v_pk_add_u16 [[ADD1:v[0-9]+]], [[MAX1]], 2 op_sel_hi:[1,0]
define amdgpu_kernel void @s_abs_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> %val) #0 {		define amdgpu_kernel void @s_abs_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> %val) #0 {
%z0 = insertelement <4 x i16> undef, i16 0, i16 0		%z0 = insertelement <4 x i16> undef, i16 0, i16 0
%z1 = insertelement <4 x i16> %z0, i16 0, i16 1		%z1 = insertelement <4 x i16> %z0, i16 0, i16 1
%z2 = insertelement <4 x i16> %z1, i16 0, i16 2		%z2 = insertelement <4 x i16> %z1, i16 0, i16 2
%z3 = insertelement <4 x i16> %z2, i16 0, i16 3		%z3 = insertelement <4 x i16> %z2, i16 0, i16 3
%t0 = insertelement <4 x i16> undef, i16 2, i16 0		%t0 = insertelement <4 x i16> undef, i16 2, i16 0
▲ Show 20 Lines • Show All 115 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/smrd.ll

Show All 40 Lines	entry:
store i32 %tmp1, i32 addrspace(1)* %out		store i32 %tmp1, i32 addrspace(1)* %out
ret void		ret void
}		}

; SMRD load with a 64-bit offset		; SMRD load with a 64-bit offset
; GCN-LABEL: {{^}}smrd3:		; GCN-LABEL: {{^}}smrd3:
; FIXME: There are too many copies here because we don't fold immediates		; FIXME: There are too many copies here because we don't fold immediates
; through REG_SEQUENCE		; through REG_SEQUENCE
; SI: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[{{[0-9]:[0-9]}}], 0xb ; encoding: [0x0b		; SI: s_load_dwordx2 s[{{[0-9]:[0-9]}}], s[{{[0-9]:[0-9]}}], 0x13 ; encoding: [0x13
; TODO: Add VI checks		; TODO: Add VI checks
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @smrd3(i32 addrspace(1)* %out, i32 addrspace(4)* %ptr) #0 {		define amdgpu_kernel void @smrd3(i32 addrspace(1)* %out, [8 x i32], i32 addrspace(4)* %ptr) #0 {
entry:		entry:
%tmp = getelementptr i32, i32 addrspace(4)* %ptr, i64 4294967296		%tmp = getelementptr i32, i32 addrspace(4)* %ptr, i64 4294967296
%tmp1 = load i32, i32 addrspace(4)* %tmp		%tmp1 = load i32, i32 addrspace(4)* %tmp
store i32 %tmp1, i32 addrspace(1)* %out		store i32 %tmp1, i32 addrspace(1)* %out
ret void		ret void
}		}

; SMRD load with the largest possible immediate offset on VI		; SMRD load with the largest possible immediate offset on VI
▲ Show 20 Lines • Show All 290 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sra.ll

Show First 20 Lines • Show All 225 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @ashr_v4i64(<4 x i64> addrspace(1)* %out, <4 x i64> addrspace(1)* %in) {
%a = load <4 x i64>, <4 x i64> addrspace(1)* %in		%a = load <4 x i64>, <4 x i64> addrspace(1)* %in
%b = load <4 x i64>, <4 x i64> addrspace(1)* %b_ptr		%b = load <4 x i64>, <4 x i64> addrspace(1)* %b_ptr
%result = ashr <4 x i64> %a, %b		%result = ashr <4 x i64> %a, %b
store <4 x i64> %result, <4 x i64> addrspace(1)* %out		store <4 x i64> %result, <4 x i64> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_ashr_32_i64:		; GCN-LABEL: {{^}}s_ashr_32_i64:
; GCN: s_load_dword s[[HI:[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}		; GCN: s_load_dword s[[HI:[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0x14\|0x50}}
; GCN: s_ashr_i32 s[[SHIFT:[0-9]+]], s[[HI]], 31		; GCN: s_ashr_i32 s[[SHIFT:[0-9]+]], s[[HI]], 31
; GCN: s_add_u32 s{{[0-9]+}}, s[[HI]], s{{[0-9]+}}		; GCN: s_add_u32 s{{[0-9]+}}, s[[HI]], s{{[0-9]+}}
; GCN: s_addc_u32 s{{[0-9]+}}, s[[SHIFT]], s{{[0-9]+}}		; GCN: s_addc_u32 s{{[0-9]+}}, s[[SHIFT]], s{{[0-9]+}}
define amdgpu_kernel void @s_ashr_32_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {		define amdgpu_kernel void @s_ashr_32_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a, [8 x i32], i64 %b) {
%result = ashr i64 %a, 32		%result = ashr i64 %a, 32
%add = add i64 %result, %b		%add = add i64 %result, %b
store i64 %add, i64 addrspace(1)* %out		store i64 %add, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_ashr_32_i64:		; GCN-LABEL: {{^}}v_ashr_32_i64:
; SI: buffer_load_dword v[[HI:[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4		; SI: buffer_load_dword v[[HI:[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4
; VI: flat_load_dword v[[HI:[0-9]+]]		; VI: flat_load_dword v[[HI:[0-9]+]]
; GCN: v_ashrrev_i32_e32 v[[SHIFT:[0-9]+]], 31, v[[HI]]		; GCN: v_ashrrev_i32_e32 v[[SHIFT:[0-9]+]], 31, v[[HI]]
; GCN: {{buffer\|flat}}_store_dwordx2 {{.*}}v{{\[}}[[HI]]:[[SHIFT]]{{\]}}		; GCN: {{buffer\|flat}}_store_dwordx2 {{.*}}v{{\[}}[[HI]]:[[SHIFT]]{{\]}}
define amdgpu_kernel void @v_ashr_32_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) {		define amdgpu_kernel void @v_ashr_32_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) {
%tid = call i32 @llvm.r600.read.tidig.x() #0		%tid = call i32 @llvm.r600.read.tidig.x() #0
%gep.in = getelementptr i64, i64 addrspace(1)* %in, i32 %tid		%gep.in = getelementptr i64, i64 addrspace(1)* %in, i32 %tid
%gep.out = getelementptr i64, i64 addrspace(1)* %out, i32 %tid		%gep.out = getelementptr i64, i64 addrspace(1)* %out, i32 %tid
%a = load i64, i64 addrspace(1)* %gep.in		%a = load i64, i64 addrspace(1)* %gep.in
%result = ashr i64 %a, 32		%result = ashr i64 %a, 32
store i64 %result, i64 addrspace(1)* %gep.out		store i64 %result, i64 addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_ashr_63_i64:		; GCN-LABEL: {{^}}s_ashr_63_i64:
; GCN: s_load_dword s[[HI:[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}		; GCN: s_load_dword s[[HI:[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0x14\|0x50}}
; GCN: s_ashr_i32 s[[SHIFT:[0-9]+]], s[[HI]], 31		; GCN: s_ashr_i32 s[[SHIFT:[0-9]+]], s[[HI]], 31
; GCN: s_add_u32 {{s[0-9]+}}, s[[SHIFT]], {{s[0-9]+}}		; GCN: s_add_u32 {{s[0-9]+}}, s[[SHIFT]], {{s[0-9]+}}
; GCN: s_addc_u32 {{s[0-9]+}}, s[[SHIFT]], {{s[0-9]+}}		; GCN: s_addc_u32 {{s[0-9]+}}, s[[SHIFT]], {{s[0-9]+}}
define amdgpu_kernel void @s_ashr_63_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {		define amdgpu_kernel void @s_ashr_63_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a, [8 x i32], i64 %b) {
%result = ashr i64 %a, 63		%result = ashr i64 %a, 63
%add = add i64 %result, %b		%add = add i64 %result, %b
store i64 %add, i64 addrspace(1)* %out		store i64 %add, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_ashr_63_i64:		; GCN-LABEL: {{^}}v_ashr_63_i64:
; SI: buffer_load_dword v[[HI:[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4		; SI: buffer_load_dword v[[HI:[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4
Show All 15 Lines

test/CodeGen/AMDGPU/srl.ll

Show First 20 Lines • Show All 183 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @lshr_v4i64(<4 x i64> addrspace(1)* %out, <4 x i64> addrspace(1)* %in) {
%b = load <4 x i64>, <4 x i64> addrspace(1)* %b_ptr		%b = load <4 x i64>, <4 x i64> addrspace(1)* %b_ptr
%result = lshr <4 x i64> %a, %b		%result = lshr <4 x i64> %a, %b
store <4 x i64> %result, <4 x i64> addrspace(1)* %out		store <4 x i64> %result, <4 x i64> addrspace(1)* %out
ret void		ret void
}		}

; Make sure load width gets reduced to i32 load.		; Make sure load width gets reduced to i32 load.
; GCN-LABEL: {{^}}s_lshr_32_i64:		; GCN-LABEL: {{^}}s_lshr_32_i64:
; GCN-DAG: s_load_dword [[HI_A:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc{{$}}		; GCN-DAG: s_load_dword [[HI_A:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x14{{$}}
; GCN-DAG: v_mov_b32_e32 v[[VHI:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[VHI:[0-9]+]], 0{{$}}
; GCN-DAG: v_mov_b32_e32 v[[VLO:[0-9]+]], [[HI_A]]		; GCN-DAG: v_mov_b32_e32 v[[VLO:[0-9]+]], [[HI_A]]
; GCN: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}
define amdgpu_kernel void @s_lshr_32_i64(i64 addrspace(1)* %out, i64 %a) {		define amdgpu_kernel void @s_lshr_32_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
%result = lshr i64 %a, 32		%result = lshr i64 %a, 32
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_lshr_32_i64:		; GCN-LABEL: {{^}}v_lshr_32_i64:
; GCN-DAG: buffer_load_dword v[[HI_A:[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4		; GCN-DAG: buffer_load_dword v[[HI_A:[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4
; GCN-DAG: v_mov_b32_e32 v[[VHI1:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[VHI1:[0-9]+]], 0{{$}}
Show All 13 Lines

test/CodeGen/AMDGPU/store-weird-sizes.ll

	Show All 12 Lines


	define void @local_store_i56(i56 addrspace(3)* %ptr, i56 %arg) #0 {			define void @local_store_i56(i56 addrspace(3)* %ptr, i56 %arg) #0 {
	store i56 %arg, i56 addrspace(3)* %ptr, align 8			store i56 %arg, i56 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}local_store_i55:			; GCN-LABEL: {{^}}local_store_i55:
	; CIVI-DAG: ds_write_b8 v0, v{{[0-9]+}} offset:6			; CIVI-DAG: ds_write_b8 v{{[0-9]+}}, v{{[0-9]+}} offset:6
	; CIVI-DAG: ds_write_b16 v0, v{{[0-9]+}} offset:4			; CIVI-DAG: ds_write_b16 v{{[0-9]+}}, v{{[0-9]+}} offset:4
	; CIVI-DAG: ds_write_b32 v0, v{{[0-9]+$}}			; CIVI-DAG: ds_write_b32 v{{[0-9]+}}, v{{[0-9]+$}}

	; GFX9-DAG: ds_write_b8_d16_hi v0, v{{[0-9]+}} offset:6			; GFX9-DAG: ds_write_b8_d16_hi v0, v{{[0-9]+}} offset:6
	; GFX9-DAG: ds_write_b16 v0, v{{[0-9]+}} offset:4			; GFX9-DAG: ds_write_b16 v0, v{{[0-9]+}} offset:4
	; GFX9-DAG: ds_write_b32 v0, v{{[0-9]+$}}			; GFX9-DAG: ds_write_b32 v0, v{{[0-9]+$}}
	define amdgpu_kernel void @local_store_i55(i55 addrspace(3)* %ptr, i55 %arg) #0 {			define amdgpu_kernel void @local_store_i55(i55 addrspace(3)* %ptr, i55 %arg) #0 {
	store i55 %arg, i55 addrspace(3)* %ptr, align 8			store i55 %arg, i55 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}
	Show All 35 Lines

test/CodeGen/AMDGPU/sub.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,GFX89,FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,GFX89,FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89,FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89,FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=EG,FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=EG,FUNC %s

	declare i32 @llvm.r600.read.tidig.x() readnone			declare i32 @llvm.r600.read.tidig.x() readnone

	; FUNC-LABEL: {{^}}s_sub_i32:			; FUNC-LABEL: {{^}}s_sub_i32:
	; GCN: s_load_dword [[A:s[0-9]+]]			; GCN: s_load_dwordx2
	; GCN: s_load_dword [[B:s[0-9]+]]			; GCN: s_load_dwordx2 s{{\[}}[[A:[0-9]+]]:[[B:[0-9]+]]{{\]}}
	; GCN: s_sub_i32 s{{[0-9]+}}, [[A]], [[B]]			; GCN: s_sub_i32 s{{[0-9]+}}, s[[A]], s[[B]]
	define amdgpu_kernel void @s_sub_i32(i32 addrspace(1)* %out, i32 %a, i32 %b) {			define amdgpu_kernel void @s_sub_i32(i32 addrspace(1)* %out, i32 %a, i32 %b) {
	%result = sub i32 %a, %b			%result = sub i32 %a, %b
	store i32 %result, i32 addrspace(1)* %out			store i32 %result, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}s_sub_imm_i32:			; FUNC-LABEL: {{^}}s_sub_imm_i32:
	; GCN: s_load_dword [[A:s[0-9]+]]			; GCN: s_load_dword [[A:s[0-9]+]]
	▲ Show 20 Lines • Show All 228 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/subreg-coalescer-undef-use.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -o - %s \| FileCheck %s			; RUN: llc -march=amdgcn -mcpu=tahiti -o - %s \| FileCheck %s
	; Don't crash when the use of an undefined value is only detected by the			; Don't crash when the use of an undefined value is only detected by the
	; register coalescer because it is hidden with subregister insert/extract.			; register coalescer because it is hidden with subregister insert/extract.
	target triple="amdgcn--"			target triple="amdgcn--"

	; CHECK-LABEL: foobar:			; CHECK-LABEL: foobar:
	; CHECK: s_load_dword s2, s[0:1], 0x9			; CHECK: s_load_dwordx2 s[2:3], s[0:1], 0x9
	; CHECK-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb			; CHECK-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: v_mbcnt_lo_u32_b32_e64
	; CHECK: v_mbcnt_lo_u32_b32_e64
	; CHECK-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; CHECK-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; CHECK-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; BB0_1:
	; CHECK: s_load_dword s0, s[0:1], 0xa
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; BB0_2:			; CHECK-NEXT: v_mov_b32_e32 v1, s3
				; CHECK-NEXT: s_and_saveexec_b64 s[2:3], vcc

				; CHECK: BB0_1:
				; CHECK-NEXT: ; kill: def $vgpr0_vgpr1 killed $sgpr2_sgpr3 killed $exec
				; CHECK-NEXT: ; implicit-def: $vgpr0_vgpr1_vgpr2_vgpr3

				; CHECK: BB0_2:
	; CHECK: s_or_b64 exec, exec, s[2:3]			; CHECK: s_or_b64 exec, exec, s[2:3]
	; CHECK-NEXT: s_mov_b32 s7, 0xf000			; CHECK-NEXT: s_mov_b32 s3, 0xf000
	; CHECK-NEXT: s_mov_b32 s6, -1			; CHECK-NEXT: s_mov_b32 s2, -1
	; CHECK-NEXT: buffer_store_dword v1, off, s[4:7], 0			; CHECK-NEXT: buffer_store_dword v1, off, s[0:3], 0
	; CHECK-NEXT: s_endpgm			; CHECK-NEXT: s_endpgm
	define amdgpu_kernel void @foobar(float %a0, float %a1, float addrspace(1)* %out) nounwind {			define amdgpu_kernel void @foobar(float %a0, float %a1, float addrspace(1)* %out) nounwind {
	entry:			entry:
	%v0 = insertelement <4 x float> undef, float %a0, i32 0			%v0 = insertelement <4 x float> undef, float %a0, i32 0
	%tid = call i32 @llvm.amdgcn.mbcnt.lo(i32 -1, i32 0) #0			%tid = call i32 @llvm.amdgcn.mbcnt.lo(i32 -1, i32 0) #0
	%cnd = icmp eq i32 %tid, 0			%cnd = icmp eq i32 %tid, 0
	br i1 %cnd, label %ift, label %ife			br i1 %cnd, label %ift, label %ife

	Show All 14 Lines

test/CodeGen/AMDGPU/trunc-store-i1.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs< %s \| FileCheck -check-prefix=SI %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs< %s \| FileCheck -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s


	; SI-LABEL: {{^}}global_truncstore_i32_to_i1:			; GCN-LABEL: {{^}}global_truncstore_i32_to_i1:
	; SI: s_load_dword [[LOAD:s[0-9]+]],			; GCN: s_load_dword [[LOAD:s[0-9]+]],
	; SI: s_and_b32 [[SREG:s[0-9]+]], [[LOAD]], 1			; GCN: s_and_b32 [[SREG:s[0-9]+]], [[LOAD]], 1
	; SI: v_mov_b32_e32 [[VREG:v[0-9]+]], [[SREG]]			; GCN: v_mov_b32_e32 [[VREG:v[0-9]+]], [[SREG]]
	; SI: buffer_store_byte [[VREG]],			; GCN: buffer_store_byte [[VREG]],
	define amdgpu_kernel void @global_truncstore_i32_to_i1(i1 addrspace(1)* %out, i32 %val) nounwind {			define amdgpu_kernel void @global_truncstore_i32_to_i1(i1 addrspace(1)* %out, i32 %val) nounwind {
	%trunc = trunc i32 %val to i1			%trunc = trunc i32 %val to i1
	store i1 %trunc, i1 addrspace(1)* %out, align 1			store i1 %trunc, i1 addrspace(1)* %out, align 1
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}global_truncstore_i64_to_i1:			; GCN-LABEL: {{^}}global_truncstore_i64_to_i1:
	; SI: buffer_store_byte			; GCN: buffer_store_byte
	define amdgpu_kernel void @global_truncstore_i64_to_i1(i1 addrspace(1)* %out, i64 %val) nounwind {			define amdgpu_kernel void @global_truncstore_i64_to_i1(i1 addrspace(1)* %out, i64 %val) nounwind {
	%trunc = trunc i64 %val to i1			%trunc = trunc i64 %val to i1
	store i1 %trunc, i1 addrspace(1)* %out, align 1			store i1 %trunc, i1 addrspace(1)* %out, align 1
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_arg_global_truncstore_i16_to_i1:			; FIXME: VGPR on VI
	; SI: s_load_dword [[LOAD:s[0-9]+]],			; GCN-LABEL: {{^}}s_arg_global_truncstore_i16_to_i1:
	; SI: s_and_b32 [[SREG:s[0-9]+]], [[LOAD]], 1			; GCN: s_load_dword [[LOAD:s[0-9]+]],
	; SI: v_mov_b32_e32 [[VREG:v[0-9]+]], [[SREG]]			; GCN: s_and_b32 [[SREG:s[0-9]+]], [[LOAD]], 1
	; SI: buffer_store_byte [[VREG]],			; GCN: v_mov_b32_e32 [[VREG:v[0-9]+]], [[SREG]]
				; GCN: buffer_store_byte [[VREG]],
	define amdgpu_kernel void @s_arg_global_truncstore_i16_to_i1(i1 addrspace(1)* %out, i16 %val) nounwind {			define amdgpu_kernel void @s_arg_global_truncstore_i16_to_i1(i1 addrspace(1)* %out, i16 %val) nounwind {
	%trunc = trunc i16 %val to i1			%trunc = trunc i16 %val to i1
	store i1 %trunc, i1 addrspace(1)* %out, align 1			store i1 %trunc, i1 addrspace(1)* %out, align 1
	ret void			ret void
	}			}
	; SI-LABEL: {{^}}global_truncstore_i16_to_i1:			; GCN-LABEL: {{^}}global_truncstore_i16_to_i1:
	define amdgpu_kernel void @global_truncstore_i16_to_i1(i1 addrspace(1)* %out, i16 %val0, i16 %val1) nounwind {			define amdgpu_kernel void @global_truncstore_i16_to_i1(i1 addrspace(1)* %out, i16 %val0, i16 %val1) nounwind {
	%add = add i16 %val0, %val1			%add = add i16 %val0, %val1
	%trunc = trunc i16 %add to i1			%trunc = trunc i16 %add to i1
	store i1 %trunc, i1 addrspace(1)* %out, align 1			store i1 %trunc, i1 addrspace(1)* %out, align 1
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/trunc.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -verify-machineinstrs< %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -verify-machineinstrs< %s \| FileCheck -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=cypress < %s \| FileCheck -check-prefix=EG %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=cypress < %s \| FileCheck -enable-var-scope -check-prefix=EG %s

	declare i32 @llvm.r600.read.tidig.x() nounwind readnone			declare i32 @llvm.r600.read.tidig.x() nounwind readnone

	define amdgpu_kernel void @trunc_i64_to_i32_store(i32 addrspace(1)* %out, i64 %in) {			define amdgpu_kernel void @trunc_i64_to_i32_store(i32 addrspace(1)* %out, [8 x i32], i64 %in) {
	; GCN-LABEL: {{^}}trunc_i64_to_i32_store:			; GCN-LABEL: {{^}}trunc_i64_to_i32_store:
	; GCN: s_load_dword [[SLOAD:s[0-9]+]], s[0:1],			; GCN: s_load_dword [[SLOAD:s[0-9]+]], s[0:1],
	; GCN: v_mov_b32_e32 [[VLOAD:v[0-9]+]], [[SLOAD]]			; GCN: v_mov_b32_e32 [[VLOAD:v[0-9]+]], [[SLOAD]]
	; SI: buffer_store_dword [[VLOAD]]			; SI: buffer_store_dword [[VLOAD]]
	; VI: flat_store_dword v[{{[0-9:]+}}], [[VLOAD]]			; VI: flat_store_dword v[{{[0-9:]+}}], [[VLOAD]]

	; EG-LABEL: {{^}}trunc_i64_to_i32_store:			; EG-LABEL: {{^}}trunc_i64_to_i32_store:
	; EG: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1			; EG: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
	; EG: LSHR			; EG: LSHR
	; EG-NEXT: 2(			; EG-NEXT: 2(

	%result = trunc i64 %in to i32 store i32 %result, i32 addrspace(1)* %out, align 4			%result = trunc i64 %in to i32 store i32 %result, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}trunc_load_shl_i64:			; GCN-LABEL: {{^}}trunc_load_shl_i64:
	; GCN-DAG: s_load_dwordx2			; GCN-DAG: s_load_dwordx2
	; GCN-DAG: s_load_dword [[SREG:s[0-9]+]],			; GCN-DAG: s_load_dword [[SREG:s[0-9]+]],
	; GCN: s_lshl_b32 [[SHL:s[0-9]+]], [[SREG]], 2			; GCN: s_lshl_b32 [[SHL:s[0-9]+]], [[SREG]], 2
	; GCN: v_mov_b32_e32 [[VSHL:v[0-9]+]], [[SHL]]			; GCN: v_mov_b32_e32 [[VSHL:v[0-9]+]], [[SHL]]
	; SI: buffer_store_dword [[VSHL]]			; SI: buffer_store_dword [[VSHL]]
	; VI: flat_store_dword v[{{[0-9:]+}}], [[VSHL]]			; VI: flat_store_dword v[{{[0-9:]+}}], [[VSHL]]

	define amdgpu_kernel void @trunc_load_shl_i64(i32 addrspace(1)* %out, i64 %a) {			define amdgpu_kernel void @trunc_load_shl_i64(i32 addrspace(1)* %out, [8 x i32], i64 %a) {
	%b = shl i64 %a, 2			%b = shl i64 %a, 2
	%result = trunc i64 %b to i32			%result = trunc i64 %b to i32
	store i32 %result, i32 addrspace(1)* %out, align 4			store i32 %result, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}trunc_shl_i64:			; GCN-LABEL: {{^}}trunc_shl_i64:
	; SI: s_load_dwordx2 s{{\[}}[[LO_SREG:[0-9]+]]:{{[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xd			; SI: s_load_dwordx2 s{{\[}}[[LO_SREG:[0-9]+]]:{{[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xd
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @sgpr_trunc_i32_to_i1(i32 addrspace(1)* %out, i32 %a) {			define amdgpu_kernel void @sgpr_trunc_i32_to_i1(i32 addrspace(1)* %out, i32 %a) {
	%trunc = trunc i32 %a to i1			%trunc = trunc i32 %a to i1
	%result = select i1 %trunc, i32 1, i32 0			%result = select i1 %trunc, i32 1, i32 0
	store i32 %result, i32 addrspace(1)* %out, align 4			store i32 %result, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_trunc_i64_to_i1:			; GCN-LABEL: {{^}}s_trunc_i64_to_i1:
	; SI: s_load_dwordx2 s{{\[}}[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0xb			; SI: s_load_dwordx2 s{{\[}}[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x13
	; VI: s_load_dwordx2 s{{\[}}[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x2c			; VI: s_load_dwordx2 s{{\[}}[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x4c
	; GCN: s_and_b32 [[MASKED:s[0-9]+]], 1, s[[SLO]]			; GCN: s_and_b32 [[MASKED:s[0-9]+]], 1, s[[SLO]]
	; GCN: v_cmp_eq_u32_e64 s{{\[}}[[VLO:[0-9]+]]:[[VHI:[0-9]+]]], [[MASKED]], 1{{$}}			; GCN: v_cmp_eq_u32_e64 s{{\[}}[[VLO:[0-9]+]]:[[VHI:[0-9]+]]], [[MASKED]], 1{{$}}
	; GCN: v_cndmask_b32_e64 {{v[0-9]+}}, -12, 63, s{{\[}}[[VLO]]:[[VHI]]]			; GCN: v_cndmask_b32_e64 {{v[0-9]+}}, -12, 63, s{{\[}}[[VLO]]:[[VHI]]]
	define amdgpu_kernel void @s_trunc_i64_to_i1(i32 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @s_trunc_i64_to_i1(i32 addrspace(1)* %out, [8 x i32], i64 %x) {
	%trunc = trunc i64 %x to i1			%trunc = trunc i64 %x to i1
	%sel = select i1 %trunc, i32 63, i32 -12			%sel = select i1 %trunc, i32 63, i32 -12
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_trunc_i64_to_i1:			; GCN-LABEL: {{^}}v_trunc_i64_to_i1:
	; SI: buffer_load_dwordx2 v{{\[}}[[VLO:[0-9]+]]:{{[0-9]+\]}}			; SI: buffer_load_dwordx2 v{{\[}}[[VLO:[0-9]+]]:{{[0-9]+\]}}
	Show All 15 Lines

test/CodeGen/AMDGPU/udivrem.ll

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SI-DAG: v_subrev_{{[iu]}}32_e32 [[Remainder_S_Den:v[0-9]+]],			; SI-DAG: v_subrev_{{[iu]}}32_e32 [[Remainder_S_Den:v[0-9]+]],
	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: v_cndmask_b32_e64
	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: v_cndmask_b32_e64
	; SI-DAG: v_add_{{[iu]}}32_e32 [[Remainder_A_Den:v[0-9]+]],			; SI-DAG: v_add_{{[iu]}}32_e32 [[Remainder_A_Den:v[0-9]+]],
	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: v_cndmask_b32_e64
	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: v_cndmask_b32_e64
	; SI-NOT: v_and_b32			; SI-NOT: v_and_b32
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @test_udivrem(i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, i32 %x, i32 %y) {			define amdgpu_kernel void @test_udivrem(i32 addrspace(1)* %out0, [8 x i32], i32 addrspace(1)* %out1, [8 x i32], i32 %x, [8 x i32], i32 %y) {
	%result0 = udiv i32 %x, %y			%result0 = udiv i32 %x, %y
	store i32 %result0, i32 addrspace(1)* %out0			store i32 %result0, i32 addrspace(1)* %out0
	%result1 = urem i32 %x, %y			%result1 = urem i32 %x, %y
	store i32 %result1, i32 addrspace(1)* %out1			store i32 %result1, i32 addrspace(1)* %out1
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_udivrem_v2:			; FUNC-LABEL: {{^}}test_udivrem_v2:
	▲ Show 20 Lines • Show All 279 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/umed3.ll

Show First 20 Lines • Show All 362 Lines • ▼ Show 20 Lines	bb:
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_umed3_i16_pat_0:		; GCN-LABEL: {{^}}s_test_umed3_i16_pat_0:
; GCN: s_and_b32		; GCN: s_and_b32
; GCN: s_and_b32		; GCN: s_and_b32
; GCN: s_and_b32		; GCN: s_and_b32
; GCN: v_med3_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: v_med3_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @s_test_umed3_i16_pat_0(i16 addrspace(1)* %arg, i16 %x, i16 %y, i16 %z) #1 {		define amdgpu_kernel void @s_test_umed3_i16_pat_0(i16 addrspace(1)* %arg, [8 x i32], i16 %x, [8 x i32], i16 %y, [8 x i32], i16 %z) #1 {
bb:		bb:
%tmp0 = call i16 @umin16(i16 %x, i16 %y)		%tmp0 = call i16 @umin16(i16 %x, i16 %y)
%tmp1 = call i16 @umax16(i16 %x, i16 %y)		%tmp1 = call i16 @umax16(i16 %x, i16 %y)
%tmp2 = call i16 @umin16(i16 %tmp1, i16 %z)		%tmp2 = call i16 @umin16(i16 %tmp1, i16 %z)
%tmp3 = call i16 @umax16(i16 %tmp0, i16 %tmp2)		%tmp3 = call i16 @umax16(i16 %tmp0, i16 %tmp2)
store i16 %tmp3, i16 addrspace(1)* %arg		store i16 %tmp3, i16 addrspace(1)* %arg
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_umed3_i8_pat_0:		; GCN-LABEL: {{^}}s_test_umed3_i8_pat_0:
; GCN: s_and_b32		; GCN: s_and_b32
; GCN: s_and_b32		; GCN: s_and_b32
; GCN: s_and_b32		; GCN: s_and_b32
; GCN: v_med3_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: v_med3_u32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @s_test_umed3_i8_pat_0(i8 addrspace(1)* %arg, i8 %x, i8 %y, i8 %z) #1 {		define amdgpu_kernel void @s_test_umed3_i8_pat_0(i8 addrspace(1)* %arg, [8 x i32], i8 %x, [8 x i32], i8 %y, [8 x i32], i8 %z) #1 {
bb:		bb:
%tmp0 = call i8 @umin8(i8 %x, i8 %y)		%tmp0 = call i8 @umin8(i8 %x, i8 %y)
%tmp1 = call i8 @umax8(i8 %x, i8 %y)		%tmp1 = call i8 @umax8(i8 %x, i8 %y)
%tmp2 = call i8 @umin8(i8 %tmp1, i8 %z)		%tmp2 = call i8 @umin8(i8 %tmp1, i8 %z)
%tmp3 = call i8 @umax8(i8 %tmp0, i8 %tmp2)		%tmp3 = call i8 @umax8(i8 %tmp0, i8 %tmp2)
store i8 %tmp3, i8 addrspace(1)* %arg		store i8 %tmp3, i8 addrspace(1)* %arg
ret void		ret void
}		}
▲ Show 20 Lines • Show All 121 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/unaligned-load-store.ll

	Show First 20 Lines • Show All 436 Lines • ▼ Show 20 Lines
	}			}

	; SI-LABEL: {{^}}constant_align2_load_i64:			; SI-LABEL: {{^}}constant_align2_load_i64:
	; ALIGNED: buffer_load_ushort			; ALIGNED: buffer_load_ushort
	; ALIGNED: buffer_load_ushort			; ALIGNED: buffer_load_ushort
	; ALIGNED: buffer_load_ushort			; ALIGNED: buffer_load_ushort
	; ALIGNED: buffer_load_ushort			; ALIGNED: buffer_load_ushort

	; UNALIGNED: s_load_dwordx2			; UNALIGNED: s_load_dwordx4
	; UNALIGNED: buffer_store_dwordx2			; UNALIGNED: buffer_store_dwordx2
	define amdgpu_kernel void @constant_align2_load_i64(i64 addrspace(4)* %p, i64 addrspace(1)* %r) #0 {			define amdgpu_kernel void @constant_align2_load_i64(i64 addrspace(4)* %p, i64 addrspace(1)* %r) #0 {
	%v = load i64, i64 addrspace(4)* %p, align 2			%v = load i64, i64 addrspace(4)* %p, align 2
	store i64 %v, i64 addrspace(1)* %r, align 4			store i64 %v, i64 addrspace(1)* %r, align 4
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}constant_align4_load_i64:			; SI-LABEL: {{^}}constant_align4_load_i64:
	▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/uniform-cfg.ll

Show First 20 Lines • Show All 189 Lines • ▼ Show 20 Lines	if.else: ; preds = %entry
br label %if.end		br label %if.end

if.end: ; preds = %if.else, %if.then		if.end: ; preds = %if.else, %if.then
ret void		ret void
}		}

; GCN-LABEL: {{^}}uniform_if_else:		; GCN-LABEL: {{^}}uniform_if_else:
; GCN: s_cmp_lg_u32 s{{[0-9]+}}, 0		; GCN: s_cmp_lg_u32 s{{[0-9]+}}, 0
; GCN-NEXT: s_cbranch_scc0 [[IF_LABEL:[0-9_A-Za-z]+]]		; GCN: s_cbranch_scc0 [[IF_LABEL:[0-9_A-Za-z]+]]

; GCN: v_mov_b32_e32 [[IMM_REG:v[0-9]+]], 2		; GCN: v_mov_b32_e32 [[IMM_REG:v[0-9]+]], 2
; GCN: s_branch [[ENDIF_LABEL:[0-9_A-Za-z]+]]		; GCN: s_branch [[ENDIF_LABEL:[0-9_A-Za-z]+]]

; GCN: [[IF_LABEL]]:		; GCN: [[IF_LABEL]]:
; GCN-NEXT: v_mov_b32_e32 [[IMM_REG]], 1		; GCN-NEXT: v_mov_b32_e32 [[IMM_REG]], 1

; GCN-NEXT: [[ENDIF_LABEL]]:		; GCN-NEXT: [[ENDIF_LABEL]]:
Show All 36 Lines	IF:
store i32 %1, i32 addrspace(1)* %out		store i32 %1, i32 addrspace(1)* %out
br label %ENDIF		br label %ENDIF

ENDIF: ; preds = %IF, %main_body		ENDIF: ; preds = %IF, %main_body
ret void		ret void
}		}

; GCN-LABEL: {{^}}icmp_users_different_blocks:		; GCN-LABEL: {{^}}icmp_users_different_blocks:
; GCN: s_load_dword [[COND:s[0-9]+]]		; GCN: s_load_dwordx2 s{{\[}}[[COND0:[0-9]+]]:[[COND1:[0-9]+]]{{\]}}
; GCN: s_cmp_lt_i32 [[COND]], 1		; GCN: s_cmp_lt_i32 s[[COND0]], 1
; GCN: s_cbranch_scc1 [[EXIT:[A-Za-z0-9_]+]]		; GCN: s_cbranch_scc1 [[EXIT:[A-Za-z0-9_]+]]
; GCN: v_cmp_gt_i32_e64 {{[^,]*}}, [[COND]], 0{{$}}		; GCN: v_cmp_gt_i32_e64 {{[^,]*}}, s[[COND1]], 0{{$}}
; GCN: s_cbranch_vccz [[BODY:[A-Za-z0-9_]+]]		; GCN: s_cbranch_vccz [[BODY:[A-Za-z0-9_]+]]
; GCN: {{^}}[[EXIT]]:		; GCN: {{^}}[[EXIT]]:
; GCN: s_endpgm		; GCN: s_endpgm
; GCN: {{^}}[[BODY]]:		; GCN: {{^}}[[BODY]]:
; GCN: buffer_store		; GCN: buffer_store
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @icmp_users_different_blocks(i32 %cond0, i32 %cond1, i32 addrspace(1)* %out) {		define amdgpu_kernel void @icmp_users_different_blocks(i32 %cond0, i32 %cond1, i32 addrspace(1)* %out) {
bb:		bb:
▲ Show 20 Lines • Show All 164 Lines • ▼ Show 20 Lines

bb9: ; preds = %bb8, %bb4		bb9: ; preds = %bb8, %bb4
ret void		ret void
}		}

; GCN-LABEL: {{^}}uniform_if_scc_i64_eq:		; GCN-LABEL: {{^}}uniform_if_scc_i64_eq:
; VI-DAG: s_cmp_eq_u64 s{{\[[0-9]+:[0-9]+\]}}, 0		; VI-DAG: s_cmp_eq_u64 s{{\[[0-9]+:[0-9]+\]}}, 0
; GCN-DAG: s_mov_b32 [[S_VAL:s[0-9]+]], 0		; GCN-DAG: s_mov_b32 [[S_VAL:s[0-9]+]], 0
		; SI-DAG: v_cmp_eq_u64_e64
; SI: v_cmp_eq_u64_e64
; SI: s_cbranch_vccnz [[IF_LABEL:[0-9_A-Za-z]+]]		; SI: s_cbranch_vccnz [[IF_LABEL:[0-9_A-Za-z]+]]

; VI: s_cbranch_scc1 [[IF_LABEL:[0-9_A-Za-z]+]]		; VI: s_cbranch_scc1 [[IF_LABEL:[0-9_A-Za-z]+]]

; Fall-through to the else		; Fall-through to the else
; GCN: s_mov_b32 [[S_VAL]], 1		; GCN: s_mov_b32 [[S_VAL]], 1

; GCN: [[IF_LABEL]]:		; GCN: [[IF_LABEL]]:
Show All 15 Lines	done:
store i32 %value, i32 addrspace(1)* %out		store i32 %value, i32 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}uniform_if_scc_i64_ne:		; GCN-LABEL: {{^}}uniform_if_scc_i64_ne:
; VI-DAG: s_cmp_lg_u64 s{{\[[0-9]+:[0-9]+\]}}, 0		; VI-DAG: s_cmp_lg_u64 s{{\[[0-9]+:[0-9]+\]}}, 0
; GCN-DAG: s_mov_b32 [[S_VAL:s[0-9]+]], 0		; GCN-DAG: s_mov_b32 [[S_VAL:s[0-9]+]], 0

; SI: v_cmp_ne_u64_e64		; SI-DAG: v_cmp_ne_u64_e64
; SI: s_cbranch_vccnz [[IF_LABEL:[0-9_A-Za-z]+]]		; SI: s_cbranch_vccnz [[IF_LABEL:[0-9_A-Za-z]+]]

; VI: s_cbranch_scc1 [[IF_LABEL:[0-9_A-Za-z]+]]		; VI: s_cbranch_scc1 [[IF_LABEL:[0-9_A-Za-z]+]]

; Fall-through to the else		; Fall-through to the else
; GCN: s_mov_b32 [[S_VAL]], 1		; GCN: s_mov_b32 [[S_VAL]], 1

; GCN: [[IF_LABEL]]:		; GCN: [[IF_LABEL]]:
Show All 12 Lines

done:		done:
%value = phi i32 [0, %if], [1, %else]		%value = phi i32 [0, %if], [1, %else]
store i32 %value, i32 addrspace(1)* %out		store i32 %value, i32 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}uniform_if_scc_i64_sgt:		; GCN-LABEL: {{^}}uniform_if_scc_i64_sgt:
; GCN: s_mov_b32 [[S_VAL:s[0-9]+]], 0		; GCN-DAG: s_mov_b32 [[S_VAL:s[0-9]+]], 0
; GCN: v_cmp_gt_i64_e64		; GCN-DAG: v_cmp_gt_i64_e64
; GCN: s_cbranch_vccnz [[IF_LABEL:[0-9_A-Za-z]+]]		; GCN: s_cbranch_vccnz [[IF_LABEL:[0-9_A-Za-z]+]]

; Fall-through to the else		; Fall-through to the else
; GCN: s_mov_b32 [[S_VAL]], 1		; GCN: s_mov_b32 [[S_VAL]], 1

; GCN: [[IF_LABEL]]:		; GCN: [[IF_LABEL]]:
; GCN: v_mov_b32_e32 [[V_VAL:v[0-9]+]], [[S_VAL]]		; GCN: v_mov_b32_e32 [[V_VAL:v[0-9]+]], [[S_VAL]]
; GCN: buffer_store_dword [[V_VAL]]		; GCN: buffer_store_dword [[V_VAL]]
▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/use-sgpr-multiple-times.ll

	Show All 22 Lines
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_sgpr_use_three_ternary_op(float addrspace(1)* %out, float %a) #0 {			define amdgpu_kernel void @test_sgpr_use_three_ternary_op(float addrspace(1)* %out, float %a) #0 {
	%fma = call float @llvm.fma.f32(float %a, float %a, float %a) #1			%fma = call float @llvm.fma.f32(float %a, float %a, float %a) #1
	store float %fma, float addrspace(1)* %out, align 4			store float %fma, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_a_b:			; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_a_b:
	; SI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; SI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; VI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], s[[SGPR1]]
	; VI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; GCN: v_fma_f32 [[RESULT:v[0-9]+]], s[[SGPR0]], s[[SGPR0]], [[VGPR1]]
	; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], [[SGPR1]]
	; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR0]], [[SGPR0]], [[VGPR1]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_a_a_b(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_a_a_b(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma = call float @llvm.fma.f32(float %a, float %a, float %b) #1			%fma = call float @llvm.fma.f32(float %a, float %a, float %b) #1
	store float %fma, float addrspace(1)* %out, align 4			store float %fma, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_use_s_v_s:			; GCN-LABEL: {{^}}test_use_s_v_s:
	; GCN-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SA:[0-9]+]]:[[SB:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}
	; GCN-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}
	; SI: buffer_load_dword [[VA0:v[0-9]+]]			; SI: buffer_load_dword [[VA0:v[0-9]+]]
	; SI-NEXT: buffer_load_dword [[VA1:v[0-9]+]]			; SI-NEXT: buffer_load_dword [[VA1:v[0-9]+]]

	; GCN-NOT: v_mov_b32			; GCN-NOT: v_mov_b32

	; VI: buffer_load_dword [[VA0:v[0-9]+]]			; VI: buffer_load_dword [[VA0:v[0-9]+]]
	; VI-NEXT: buffer_load_dword [[VA1:v[0-9]+]]			; VI-NEXT: buffer_load_dword [[VA1:v[0-9]+]]

	; GCN-NOT: v_mov_b32			; GCN-NOT: v_mov_b32
	; GCN: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]			; GCN: v_mov_b32_e32 [[VB:v[0-9]+]], s[[SB]]
	; GCN-NOT: v_mov_b32			; GCN-NOT: v_mov_b32

	; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[SA]], [[VA0]], [[VB]]			; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], s[[SA]], [[VA0]], [[VB]]
	; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[SA]], [[VA1]], [[VB]]			; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], s[[SA]], [[VA1]], [[VB]]
	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	; GCN: buffer_store_dword [[RESULT1]]			; GCN: buffer_store_dword [[RESULT1]]
	define amdgpu_kernel void @test_use_s_v_s(float addrspace(1)* %out, float %a, float %b, float addrspace(1)* %in) #0 {			define amdgpu_kernel void @test_use_s_v_s(float addrspace(1)* %out, float %a, float %b, float addrspace(1)* %in) #0 {
	%va0 = load volatile float, float addrspace(1)* %in			%va0 = load volatile float, float addrspace(1)* %in
	%va1 = load volatile float, float addrspace(1)* %in			%va1 = load volatile float, float addrspace(1)* %in
	%fma0 = call float @llvm.fma.f32(float %a, float %va0, float %b) #1			%fma0 = call float @llvm.fma.f32(float %a, float %va0, float %b) #1
	%fma1 = call float @llvm.fma.f32(float %a, float %va1, float %b) #1			%fma1 = call float @llvm.fma.f32(float %a, float %va1, float %b) #1
	store volatile float %fma0, float addrspace(1)* %out			store volatile float %fma0, float addrspace(1)* %out
	store volatile float %fma1, float addrspace(1)* %out			store volatile float %fma1, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_b_a:			; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_b_a:
	; SI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; SI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; VI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], s[[SGPR1]]
	; VI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; GCN: v_fma_f32 [[RESULT:v[0-9]+]], s[[SGPR0]], [[VGPR1]], s[[SGPR0]]
	; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], [[SGPR1]]
	; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR0]], [[VGPR1]], [[SGPR0]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_a_b_a(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_a_b_a(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma = call float @llvm.fma.f32(float %a, float %b, float %a) #1			%fma = call float @llvm.fma.f32(float %a, float %b, float %a) #1
	store float %fma, float addrspace(1)* %out, align 4			store float %fma, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_b_a_a:			; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_b_a_a:
	; SI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; SI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; VI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], s[[SGPR1]]
	; VI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[VGPR1]], s[[SGPR0]], s[[SGPR0]]
	; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], [[SGPR1]]
	; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[VGPR1]], [[SGPR0]], [[SGPR0]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_b_a_a(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_b_a_a(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma = call float @llvm.fma.f32(float %b, float %a, float %a) #1			%fma = call float @llvm.fma.f32(float %b, float %a, float %a) #1
	store float %fma, float addrspace(1)* %out, align 4			store float %fma, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_a_imm:			; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_a_imm:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_k_s(float addrspace(1)* %out, float %a) #0 {			define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_k_s(float addrspace(1)* %out, float %a) #0 {
	%fma = call float @llvm.fma.f32(float 1024.0, float 1024.0, float %a) #1			%fma = call float @llvm.fma.f32(float 1024.0, float 1024.0, float %a) #1
	store float %fma, float addrspace(1)* %out			store float %fma, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_k_k_s_x2:			; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_k_k_s_x2:
	; GCN-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; SI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; GCN-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}			; VI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000			; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000
	; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[VK]], [[VK]], [[SGPR0]]			; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[VK]], [[VK]], s[[SGPR0]]
	; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[VK]], [[VK]], [[SGPR1]]			; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[VK]], [[VK]], s[[SGPR1]]
	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	; GCN: buffer_store_dword [[RESULT1]]			; GCN: buffer_store_dword [[RESULT1]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_k_s_x2(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_k_s_x2(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma0 = call float @llvm.fma.f32(float 1024.0, float 1024.0, float %a) #1			%fma0 = call float @llvm.fma.f32(float 1024.0, float 1024.0, float %a) #1
	%fma1 = call float @llvm.fma.f32(float 1024.0, float 1024.0, float %b) #1			%fma1 = call float @llvm.fma.f32(float 1024.0, float 1024.0, float %b) #1
	store volatile float %fma0, float addrspace(1)* %out			store volatile float %fma0, float addrspace(1)* %out
	store volatile float %fma1, float addrspace(1)* %out			store volatile float %fma1, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_k_s_k:			; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_k_s_k:
	; GCN-DAG: s_load_dword [[SGPR:s[0-9]+]]			; GCN-DAG: s_load_dword [[SGPR:s[0-9]+]]
	; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000			; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000
	; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR]], [[VK]], [[VK]]			; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR]], [[VK]], [[VK]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_s_k(float addrspace(1)* %out, float %a) #0 {			define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_s_k(float addrspace(1)* %out, float %a) #0 {
	%fma = call float @llvm.fma.f32(float 1024.0, float %a, float 1024.0) #1			%fma = call float @llvm.fma.f32(float 1024.0, float %a, float 1024.0) #1
	store float %fma, float addrspace(1)* %out			store float %fma, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_k_s_k_x2:			; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_k_s_k_x2:
	; GCN-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; SI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; GCN-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}			; VI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000			; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000
	; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[SGPR0]], [[VK]], [[VK]]			; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], s[[SGPR0]], [[VK]], [[VK]]
	; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[SGPR1]], [[VK]], [[VK]]			; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], s[[SGPR1]], [[VK]], [[VK]]
	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	; GCN: buffer_store_dword [[RESULT1]]			; GCN: buffer_store_dword [[RESULT1]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_s_k_x2(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_literal_use_twice_ternary_op_k_s_k_x2(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma0 = call float @llvm.fma.f32(float 1024.0, float %a, float 1024.0) #1			%fma0 = call float @llvm.fma.f32(float 1024.0, float %a, float 1024.0) #1
	%fma1 = call float @llvm.fma.f32(float 1024.0, float %b, float 1024.0) #1			%fma1 = call float @llvm.fma.f32(float 1024.0, float %b, float 1024.0) #1
	store volatile float %fma0, float addrspace(1)* %out			store volatile float %fma0, float addrspace(1)* %out
	store volatile float %fma1, float addrspace(1)* %out			store volatile float %fma1, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_s_k_k:			; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_s_k_k:
	; GCN-DAG: s_load_dword [[SGPR:s[0-9]+]]			; GCN-DAG: s_load_dword [[SGPR:s[0-9]+]]
	; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000			; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000
	; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR]], [[VK]], [[VK]]			; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR]], [[VK]], [[VK]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_literal_use_twice_ternary_op_s_k_k(float addrspace(1)* %out, float %a) #0 {			define amdgpu_kernel void @test_literal_use_twice_ternary_op_s_k_k(float addrspace(1)* %out, float %a) #0 {
	%fma = call float @llvm.fma.f32(float %a, float 1024.0, float 1024.0) #1			%fma = call float @llvm.fma.f32(float %a, float 1024.0, float 1024.0) #1
	store float %fma, float addrspace(1)* %out			store float %fma, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_s_k_k_x2:			; GCN-LABEL: {{^}}test_literal_use_twice_ternary_op_s_k_k_x2:
	; GCN-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; SI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; GCN-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}			; VI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000			; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x44800000
	; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[SGPR0]], [[VK]], [[VK]]			; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], s[[SGPR0]], [[VK]], [[VK]]
	; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[SGPR1]], [[VK]], [[VK]]			; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], s[[SGPR1]], [[VK]], [[VK]]
	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	; GCN: buffer_store_dword [[RESULT1]]			; GCN: buffer_store_dword [[RESULT1]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_literal_use_twice_ternary_op_s_k_k_x2(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_literal_use_twice_ternary_op_s_k_k_x2(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma0 = call float @llvm.fma.f32(float %a, float 1024.0, float 1024.0) #1			%fma0 = call float @llvm.fma.f32(float %a, float 1024.0, float 1024.0) #1
	%fma1 = call float @llvm.fma.f32(float %b, float 1024.0, float 1024.0) #1			%fma1 = call float @llvm.fma.f32(float %b, float 1024.0, float 1024.0) #1
	store volatile float %fma0, float addrspace(1)* %out			store volatile float %fma0, float addrspace(1)* %out
	store volatile float %fma1, float addrspace(1)* %out			store volatile float %fma1, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_s0_s1_k_f32:			; GCN-LABEL: {{^}}test_s0_s1_k_f32:
	; GCN-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; SI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; GCN-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}			; VI-DAG: s_load_dwordx2 s{{\[}}[[SGPR0:[0-9]+]]:[[SGPR1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; GCN-DAG: v_mov_b32_e32 [[VK0:v[0-9]+]], 0x44800000			; GCN-DAG: v_mov_b32_e32 [[VK0:v[0-9]+]], 0x44800000
	; GCN-DAG: v_mov_b32_e32 [[VS1:v[0-9]+]], [[SGPR1]]			; GCN-DAG: v_mov_b32_e32 [[VS1:v[0-9]+]], s[[SGPR1]]

	; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[SGPR0]], [[VS1]], [[VK0]]			; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], s[[SGPR0]], [[VS1]], [[VK0]]
	; GCN-DAG: v_mov_b32_e32 [[VK1:v[0-9]+]], 0x45800000			; GCN-DAG: v_mov_b32_e32 [[VK1:v[0-9]+]], 0x45800000
	; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[SGPR0]], [[VS1]], [[VK1]]			; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], s[[SGPR0]], [[VS1]], [[VK1]]

	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	; GCN: buffer_store_dword [[RESULT1]]			; GCN: buffer_store_dword [[RESULT1]]
	define amdgpu_kernel void @test_s0_s1_k_f32(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_s0_s1_k_f32(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma0 = call float @llvm.fma.f32(float %a, float %b, float 1024.0) #1			%fma0 = call float @llvm.fma.f32(float %a, float %b, float 1024.0) #1
	%fma1 = call float @llvm.fma.f32(float %a, float %b, float 4096.0) #1			%fma1 = call float @llvm.fma.f32(float %a, float %b, float 4096.0) #1
	store volatile float %fma0, float addrspace(1)* %out			store volatile float %fma0, float addrspace(1)* %out
	store volatile float %fma1, float addrspace(1)* %out			store volatile float %fma1, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Immediate in SGPRs just copied to VGPRs			; FIXME: Immediate in SGPRs just copied to VGPRs
	; GCN-LABEL: {{^}}test_s0_s1_k_f64:			; GCN-LABEL: {{^}}test_s0_s1_k_f64:
	; GCN-DAG: s_load_dwordx2 [[SGPR0:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; GCN-DAG: s_load_dwordx2 [[SGPR0:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
	; GCN-DAG: s_load_dwordx2 s{{\[}}[[SGPR1_SUB0:[0-9]+]]:[[SGPR1_SUB1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xd\|0x34}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SGPR1_SUB0:[0-9]+]]:[[SGPR1_SUB1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x1d\|0x74}}
	; GCN-DAG: v_mov_b32_e32 v[[VK0_SUB1:[0-9]+]], 0x40900000			; GCN-DAG: v_mov_b32_e32 v[[VK0_SUB1:[0-9]+]], 0x40900000
	; GCN-DAG: v_mov_b32_e32 v[[VZERO:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[VZERO:[0-9]+]], 0{{$}}

	; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB0:[0-9]+]], s[[SGPR1_SUB0]]			; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB0:[0-9]+]], s[[SGPR1_SUB0]]
	; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB1:[0-9]+]], s[[SGPR1_SUB1]]			; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB1:[0-9]+]], s[[SGPR1_SUB1]]
	; GCN: v_fma_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], [[SGPR0]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, v{{\[}}[[VZERO]]:[[VK0_SUB1]]{{\]}}			; GCN: v_fma_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], [[SGPR0]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, v{{\[}}[[VZERO]]:[[VK0_SUB1]]{{\]}}

	; Same zero component is re-used for half of each immediate.			; Same zero component is re-used for half of each immediate.
	; GCN: v_mov_b32_e32 v[[VK1_SUB1:[0-9]+]], 0x40b00000			; GCN: v_mov_b32_e32 v[[VK1_SUB1:[0-9]+]], 0x40b00000
	; GCN: v_fma_f64 [[RESULT1:v\[[0-9]+:[0-9]+\]]], [[SGPR0]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, v{{\[}}[[VZERO]]:[[VK1_SUB1]]{{\]}}			; GCN: v_fma_f64 [[RESULT1:v\[[0-9]+:[0-9]+\]]], [[SGPR0]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, v{{\[}}[[VZERO]]:[[VK1_SUB1]]{{\]}}

	; GCN: buffer_store_dwordx2 [[RESULT0]]			; GCN: buffer_store_dwordx2 [[RESULT0]]
	; GCN: buffer_store_dwordx2 [[RESULT1]]			; GCN: buffer_store_dwordx2 [[RESULT1]]
	define amdgpu_kernel void @test_s0_s1_k_f64(double addrspace(1)* %out, double %a, double %b) #0 {			define amdgpu_kernel void @test_s0_s1_k_f64(double addrspace(1)* %out, [8 x i32], double %a, [8 x i32], double %b) #0 {
	%fma0 = call double @llvm.fma.f64(double %a, double %b, double 1024.0) #1			%fma0 = call double @llvm.fma.f64(double %a, double %b, double 1024.0) #1
	%fma1 = call double @llvm.fma.f64(double %a, double %b, double 4096.0) #1			%fma1 = call double @llvm.fma.f64(double %a, double %b, double 4096.0) #1
	store volatile double %fma0, double addrspace(1)* %out			store volatile double %fma0, double addrspace(1)* %out
	store volatile double %fma1, double addrspace(1)* %out			store volatile double %fma1, double addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }
	attributes #1 = { nounwind readnone }			attributes #1 = { nounwind readnone }

test/CodeGen/AMDGPU/v_cndmask.ll

Show All 36 Lines	define amdgpu_kernel void @v_cnd_nan(float addrspace(1)* %out, i32 %c, float %f) #0 {
ret void		ret void
}		}

; Test different compare and select operand types for optimal code		; Test different compare and select operand types for optimal code
; shrinking.		; shrinking.
; (select (cmp (sgprX, constant)), constant, sgprZ)		; (select (cmp (sgprX, constant)), constant, sgprZ)

; GCN-LABEL: {{^}}fcmp_sgprX_k0_select_k1_sgprZ_f32:		; GCN-LABEL: {{^}}fcmp_sgprX_k0_select_k1_sgprZ_f32:
; GCN: s_load_dword [[X:s[0-9]+]]		; GCN: s_load_dwordx2
; GCN: s_load_dword [[Z:s[0-9]+]]		; GCN: s_load_dwordx2 s{{\[}}[[X:[0-9]+]]:[[Z:[0-9]+]]{{\]}}
; GCN-DAG: v_cmp_nlg_f32_e64 vcc, [[X]], 0		; GCN-DAG: v_cmp_nlg_f32_e64 vcc, s[[X]], 0
; GCN-DAG: v_mov_b32_e32 [[VZ:v[0-9]+]], [[Z]]		; GCN-DAG: v_mov_b32_e32 [[VZ:v[0-9]+]], s[[Z]]
; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[VZ]], vcc		; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[VZ]], vcc
define amdgpu_kernel void @fcmp_sgprX_k0_select_k1_sgprZ_f32(float addrspace(1)* %out, float %x, float %z) #0 {		define amdgpu_kernel void @fcmp_sgprX_k0_select_k1_sgprZ_f32(float addrspace(1)* %out, [8 x i32], float %x, float %z) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%setcc = fcmp one float %x, 0.0		%setcc = fcmp one float %x, 0.0
%select = select i1 %setcc, float 1.0, float %z		%select = select i1 %setcc, float 1.0, float %z
store float %select, float addrspace(1)* %out.gep		store float %select, float addrspace(1)* %out.gep
ret void		ret void
}		}
Show All 9 Lines	define amdgpu_kernel void @fcmp_sgprX_k0_select_k1_sgprX_f32(float addrspace(1)* %out, float %x) #0 {
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%setcc = fcmp one float %x, 0.0		%setcc = fcmp one float %x, 0.0
%select = select i1 %setcc, float 1.0, float %x		%select = select i1 %setcc, float 1.0, float %x
store float %select, float addrspace(1)* %out.gep		store float %select, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}fcmp_sgprX_k0_select_k0_sgprZ_f32:		; GCN-LABEL: {{^}}fcmp_sgprX_k0_select_k0_sgprZ_f32:
; GCN-DAG: s_load_dword [[X:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; GCN-DAG: s_load_dwordx2 s{{\[}}[[X:[0-9]+]]:[[Z:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; GCN-DAG: s_load_dword [[Z:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}		; GCN-DAG: v_cmp_nlg_f32_e64 vcc, s[[X]], 0
; GCN-DAG: v_cmp_nlg_f32_e64 vcc, [[X]], 0		; GCN-DAG: v_mov_b32_e32 [[VZ:v[0-9]+]], s[[Z]]
; GCN-DAG: v_mov_b32_e32 [[VZ:v[0-9]+]], [[Z]]
; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, 0, [[VZ]], vcc		; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, 0, [[VZ]], vcc
define amdgpu_kernel void @fcmp_sgprX_k0_select_k0_sgprZ_f32(float addrspace(1)* %out, float %x, float %z) #0 {		define amdgpu_kernel void @fcmp_sgprX_k0_select_k0_sgprZ_f32(float addrspace(1)* %out, [8 x i32], float %x, float %z) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%setcc = fcmp one float %x, 0.0		%setcc = fcmp one float %x, 0.0
%select = select i1 %setcc, float 0.0, float %z		%select = select i1 %setcc, float 0.0, float %z
store float %select, float addrspace(1)* %out.gep		store float %select, float addrspace(1)* %out.gep
ret void		ret void
}		}
▲ Show 20 Lines • Show All 220 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @icmp_vgprX_k0_select_k1_vgprZ_i1(i1 addrspace(1)* %out, i32 addrspace(1)* %x.ptr, i1 addrspace(1)* %z.ptr) #0 {
%setcc = icmp slt i32 %x, 0		%setcc = icmp slt i32 %x, 0
%select = select i1 %setcc, i1 true, i1 %z		%select = select i1 %setcc, i1 true, i1 %z
store i1 %select, i1 addrspace(1)* %out.gep		store i1 %select, i1 addrspace(1)* %out.gep
ret void		ret void
}		}

; Different types compared vs. selected		; Different types compared vs. selected
; GCN-LABEL: {{^}}fcmp_vgprX_k0_selectf64_k1_vgprZ_f32:		; GCN-LABEL: {{^}}fcmp_vgprX_k0_selectf64_k1_vgprZ_f32:
; GCN: {{buffer\|flat}}_load_dword [[X:v[0-9]+]]		; GCN-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3ff00000
; GCN: {{buffer\|flat}}_load_dwordx2		; GCN-DAG: {{buffer\|flat}}_load_dword [[X:v[0-9]+]]
		; GCN-DAG: {{buffer\|flat}}_load_dwordx2

; GCN: v_mov_b32_e32 [[K:v[0-9]+]], 0x3ff00000
; GCN: v_cmp_le_f32_e32 vcc, 0, [[X]]		; GCN: v_cmp_le_f32_e32 vcc, 0, [[X]]
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, [[K]], v{{[0-9]+}}, vcc		; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, [[K]], v{{[0-9]+}}, vcc
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}, vcc		; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}, vcc
define amdgpu_kernel void @fcmp_vgprX_k0_selectf64_k1_vgprZ_f32(double addrspace(1)* %out, float addrspace(1)* %x.ptr, double addrspace(1)* %z.ptr) #0 {		define amdgpu_kernel void @fcmp_vgprX_k0_selectf64_k1_vgprZ_f32(double addrspace(1)* %out, float addrspace(1)* %x.ptr, double addrspace(1)* %z.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%x.gep = getelementptr inbounds float, float addrspace(1)* %x.ptr, i64 %tid.ext		%x.gep = getelementptr inbounds float, float addrspace(1)* %x.ptr, i64 %tid.ext
%z.gep = getelementptr inbounds double, double addrspace(1)* %z.ptr, i64 %tid.ext		%z.gep = getelementptr inbounds double, double addrspace(1)* %z.ptr, i64 %tid.ext
▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/v_mac_f16.ll

Show First 20 Lines • Show All 344 Lines • ▼ Show 20 Lines	entry:
%r.val = fadd <2 x half> %t.val, %c.val		%r.val = fadd <2 x half> %t.val, %c.val

store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}mac_v2f16_same_add:		; GCN-LABEL: {{^}}mac_v2f16_same_add:
; SI: v_mad_f32 v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; SI: v_mad_f32 v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; SI: v_mad_f32 v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; SI: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; SI: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
		; SI: v_mad_f32 v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; SI: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; SI: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}

; VI-DAG: v_mac_f16_sdwa v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI-DAG: v_mac_f16_sdwa v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI-DAG: v_mad_f16 v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI-DAG: v_mad_f16 v{{[0-9]}}, v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}

; GCN: s_endpgm		; GCN: s_endpgm
Show All 22 Lines	entry:
store <2 x half> %r1.val, <2 x half> addrspace(1)* %r1		store <2 x half> %r1.val, <2 x half> addrspace(1)* %r1
ret void		ret void
}		}

; GCN-LABEL: {{^}}mac_v2f16_neg_a:		; GCN-LABEL: {{^}}mac_v2f16_neg_a:
; SI: v_cvt_f32_f16_e32 [[CVT0:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT0:v[0-9]+]], {{v[0-9]+}}
; SI: v_cvt_f32_f16_e32 [[CVT1:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT1:v[0-9]+]], {{v[0-9]+}}

; SI-DAG: v_mad_f32 v{{[0-9]+}}, -[[CVT0]], v{{[0-9]+}}, v{{[0-9]+}}		; SI: v_mad_f32 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; SI-DAG: v_mad_f32 v{{[0-9]+}}, -v{{[0-9]+}}, [[CVT1]], v{{[0-9]+}}		; SI: v_mad_f32 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}

; VI-NOT: v_mac_f16		; VI-NOT: v_mac_f16
; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @mac_v2f16_neg_a(		define amdgpu_kernel void @mac_v2f16_neg_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
Show All 10 Lines	entry:

store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}mac_v2f16_neg_b		; GCN-LABEL: {{^}}mac_v2f16_neg_b
; SI: v_cvt_f32_f16_e32 [[CVT0:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT0:v[0-9]+]], {{v[0-9]+}}
; SI: v_cvt_f32_f16_e32 [[CVT1:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT1:v[0-9]+]], {{v[0-9]+}}
; SI-DAG: v_mad_f32 v{{[0-9]+}}, -[[CVT0]], v{{[0-9]+}}, v{{[0-9]+}}		; SI: v_mad_f32 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; SI-DAG: v_mad_f32 v{{[0-9]+}}, -v{{[0-9]+}}, [[CVT1]], v{{[0-9]+}}		; SI: v_mad_f32 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}


; VI-NOT: v_mac_f16		; VI-NOT: v_mac_f16
; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_mad_f16 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @mac_v2f16_neg_b(		define amdgpu_kernel void @mac_v2f16_neg_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
Show All 16 Lines
; GCN-LABEL: {{^}}mac_v2f16_neg_c:		; GCN-LABEL: {{^}}mac_v2f16_neg_c:
; SI: v_cvt_f32_f16_e32 [[CVT0:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT0:v[0-9]+]], {{v[0-9]+}}
; SI: v_cvt_f32_f16_e32 [[CVT1:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT1:v[0-9]+]], {{v[0-9]+}}
; SI: v_cvt_f32_f16_e32 [[CVT2:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT2:v[0-9]+]], {{v[0-9]+}}
; SI: v_cvt_f32_f16_e32 [[CVT3:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT3:v[0-9]+]], {{v[0-9]+}}
; SI: v_cvt_f32_f16_e32 [[CVT4:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT4:v[0-9]+]], {{v[0-9]+}}
; SI: v_cvt_f32_f16_e32 [[CVT5:v[0-9]+]], {{v[0-9]+}}		; SI: v_cvt_f32_f16_e32 [[CVT5:v[0-9]+]], {{v[0-9]+}}

; SI-DAG: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -[[CVT2]]		; SI-DAG: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}
; SI-DAG: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -[[CVT5]]		; SI-DAG: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}

; VI-NOT: v_mac_f16		; VI-NOT: v_mac_f16
; VI: v_mad_f16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}		; VI: v_mad_f16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}
; VI: v_mad_f16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}		; VI: v_mad_f16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @mac_v2f16_neg_c(		define amdgpu_kernel void @mac_v2f16_neg_c(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
▲ Show 20 Lines • Show All 215 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/v_madak_f16.ll

	Show All 29 Lines
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @madak_f16_use_2(			define amdgpu_kernel void @madak_f16_use_2(
	half addrspace(1)* %r0,			half addrspace(1)* %r0,
	half addrspace(1)* %r1,			half addrspace(1)* %r1,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	entry:			entry:
	%a.val = load half, half addrspace(1)* %a			%a.val = load volatile half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load volatile half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load volatile half, half addrspace(1)* %c

	%t0.val = fmul half %a.val, %b.val			%t0.val = fmul half %a.val, %b.val
	%t1.val = fmul half %a.val, %c.val			%t1.val = fmul half %a.val, %c.val
	%r0.val = fadd half %t0.val, 10.0			%r0.val = fadd half %t0.val, 10.0
	%r1.val = fadd half %t1.val, 10.0			%r1.val = fadd half %t1.val, 10.0

	store half %r0.val, half addrspace(1)* %r0			store half %r0.val, half addrspace(1)* %r0
	store half %r1.val, half addrspace(1)* %r1			store half %r1.val, half addrspace(1)* %r1
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/xor.ll

; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=SI -check-prefix=FUNC %s
; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=SI -check-prefix=FUNC %s
; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s		; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -enable-var-scope -check-prefix=EG -check-prefix=FUNC %s


; FUNC-LABEL: {{^}}xor_v2i32:		; FUNC-LABEL: {{^}}xor_v2i32:
; EG: XOR_INT {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}		; EG: XOR_INT {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
; EG: XOR_INT {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}		; EG: XOR_INT {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}

; SI: v_xor_b32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; SI: v_xor_b32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
; SI: v_xor_b32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; SI: v_xor_b32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
Show All 23 Lines	define amdgpu_kernel void @xor_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> addrspace(1)* %in0, <4 x i32> addrspace(1)* %in1) {
%result = xor <4 x i32> %a, %b		%result = xor <4 x i32> %a, %b
store <4 x i32> %result, <4 x i32> addrspace(1)* %out		store <4 x i32> %result, <4 x i32> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}xor_i1:		; FUNC-LABEL: {{^}}xor_i1:
; EG: XOR_INT {{\** *}}{{T[0-9]+\.[XYZW]}}, {{PS\|PV\.[XYZW]}}, {{PS\|PV\.[XYZW]}}		; EG: XOR_INT {{\** *}}{{T[0-9]+\.[XYZW]}}, {{PS\|PV\.[XYZW]}}, {{PS\|PV\.[XYZW]}}

; SI-DAG: v_cmp_le_f32_e32 [[CMP0:vcc]], 0, {{v[0-9]+}}		; SI-DAG: v_cmp_le_f32_e32 [[CMP0:vcc]], 1.0, {{v[0-9]+}}
; SI-DAG: v_cmp_le_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]], 1.0, {{v[0-9]+}}		; SI-DAG: v_cmp_le_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]], 0, {{v[0-9]+}}
; SI: s_xor_b64 [[XOR:vcc]], [[CMP0]], [[CMP1]]		; SI: s_xor_b64 [[XOR:vcc]], [[CMP1]], [[CMP0]]
; SI: v_cndmask_b32_e32 [[RESULT:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}		; SI: v_cndmask_b32_e32 [[RESULT:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
; SI: buffer_store_dword [[RESULT]]		; SI: buffer_store_dword [[RESULT]]
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @xor_i1(float addrspace(1)* %out, float addrspace(1)* %in0, float addrspace(1)* %in1) {		define amdgpu_kernel void @xor_i1(float addrspace(1)* %out, float addrspace(1)* %in0, float addrspace(1)* %in1) {
%a = load float, float addrspace(1) * %in0		%a = load float, float addrspace(1) * %in0
%b = load float, float addrspace(1) * %in1		%b = load float, float addrspace(1) * %in1
%acmp = fcmp oge float %a, 0.000000e+00		%acmp = fcmp oge float %a, 0.000000e+00
%bcmp = fcmp oge float %b, 1.000000e+00		%bcmp = fcmp oge float %b, 1.000000e+00
▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines

endif:		endif:
%3 = phi i64 [%1, %if], [%2, %else]		%3 = phi i64 [%1, %if], [%2, %else]
store i64 %3, i64 addrspace(1)* %out		store i64 %3, i64 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}scalar_xor_literal_i64:		; FUNC-LABEL: {{^}}scalar_xor_literal_i64:
; SI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; SI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x9\|0x24}}
; SI-DAG: s_xor_b32 s[[RES_HI:[0-9]+]], s[[HI]], 0xf237b		; SI-DAG: s_xor_b32 s[[RES_HI:[0-9]+]], s{{[0-9]+}}, 0xf237b
; SI-DAG: s_xor_b32 s[[RES_LO:[0-9]+]], s[[LO]], 0x3039		; SI-DAG: s_xor_b32 s[[RES_LO:[0-9]+]], s{{[0-9]+}}, 0x3039
; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_LO]]		; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_LO]]
; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_HI]]		; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[RES_HI]]
define amdgpu_kernel void @scalar_xor_literal_i64(i64 addrspace(1)* %out, i64 %a) {		define amdgpu_kernel void @scalar_xor_literal_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
%or = xor i64 %a, 4261135838621753		%or = xor i64 %a, 4261135838621753
store i64 %or, i64 addrspace(1)* %out		store i64 %or, i64 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}scalar_xor_literal_multi_use_i64:		; FUNC-LABEL: {{^}}scalar_xor_literal_multi_use_i64:
; SI: s_load_dwordx2 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; SI: s_load_dwordx4 s{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; SI-DAG: s_mov_b32 s[[K_HI:[0-9]+]], 0xf237b		; SI-DAG: s_mov_b32 s[[K_HI:[0-9]+]], 0xf237b
; SI-DAG: s_movk_i32 s[[K_LO:[0-9]+]], 0x3039		; SI-DAG: s_movk_i32 s[[K_LO:[0-9]+]], 0x3039
; SI: s_xor_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[K_LO]]:[[K_HI]]{{\]}}		; SI: s_xor_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[K_LO]]:[[K_HI]]{{\]}}

; SI: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_LO]]		; SI: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_LO]]
; SI: s_addc_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_HI]]		; SI: s_addc_u32 s{{[0-9]+}}, s{{[0-9]+}}, s[[K_HI]]
define amdgpu_kernel void @scalar_xor_literal_multi_use_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {		define amdgpu_kernel void @scalar_xor_literal_multi_use_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a, i64 %b) {
%or = xor i64 %a, 4261135838621753		%or = xor i64 %a, 4261135838621753
store i64 %or, i64 addrspace(1)* %out		store i64 %or, i64 addrspace(1)* %out

%foo = add i64 %b, 4261135838621753		%foo = add i64 %b, 4261135838621753
store volatile i64 %foo, i64 addrspace(1)* undef		store volatile i64 %foo, i64 addrspace(1)* undef
ret void		ret void
}		}

; FUNC-LABEL: {{^}}scalar_xor_inline_imm_i64:		; FUNC-LABEL: {{^}}scalar_xor_inline_imm_i64:
; SI: s_load_dwordx2 s{{\[}}[[VAL_LO:[0-9]+]]:[[VAL_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; SI: s_load_dwordx2 s{{\[}}[[VAL_LO:[0-9]+]]:[[VAL_HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; SI-NOT: xor_b32		; SI-NOT: xor_b32
; SI: s_xor_b32 s[[VAL_LO]], s[[VAL_LO]], 63		; SI: s_xor_b32 s[[VAL_LO]], s{{[0-9]+}}, 63
; SI-NOT: xor_b32		; SI-NOT: xor_b32
; SI: v_mov_b32_e32 v[[VLO:[0-9]+]], s[[VAL_LO]]		; SI: v_mov_b32_e32 v[[VLO:[0-9]+]], s{{[0-9]+}}
; SI-NOT: xor_b32		; SI-NOT: xor_b32
; SI: v_mov_b32_e32 v[[VHI:[0-9]+]], s[[VAL_HI]]		; SI: v_mov_b32_e32 v[[VHI:[0-9]+]], s{{[0-9]+}}
; SI-NOT: xor_b32		; SI-NOT: xor_b32
; SI: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}		; SI: buffer_store_dwordx2 v{{\[}}[[VLO]]:[[VHI]]{{\]}}
define amdgpu_kernel void @scalar_xor_inline_imm_i64(i64 addrspace(1)* %out, i64 %a) {		define amdgpu_kernel void @scalar_xor_inline_imm_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
%or = xor i64 %a, 63		%or = xor i64 %a, 63
store i64 %or, i64 addrspace(1)* %out		store i64 %or, i64 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}scalar_xor_neg_inline_imm_i64:		; FUNC-LABEL: {{^}}scalar_xor_neg_inline_imm_i64:
; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; SI: s_load_dwordx2 [[VAL:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; SI: s_xor_b64 [[VAL]], [[VAL]], -8		; SI: s_xor_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, -8
define amdgpu_kernel void @scalar_xor_neg_inline_imm_i64(i64 addrspace(1)* %out, i64 %a) {		define amdgpu_kernel void @scalar_xor_neg_inline_imm_i64(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
%or = xor i64 %a, -8		%or = xor i64 %a, -8
store i64 %or, i64 addrspace(1)* %out		store i64 %or, i64 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}vector_xor_i64_neg_inline_imm:		; FUNC-LABEL: {{^}}vector_xor_i64_neg_inline_imm:
; SI: buffer_load_dwordx2 v{{\[}}[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]{{\]}},		; SI: buffer_load_dwordx2 v{{\[}}[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]{{\]}},
; SI: v_xor_b32_e32 {{v[0-9]+}}, -8, v[[LO_VREG]]		; SI: v_xor_b32_e32 {{v[0-9]+}}, -8, v[[LO_VREG]]
Show All 20 Lines

test/CodeGen/AMDGPU/zero_extend.ll

	; RUN: llc < %s -march=amdgcn -verify-machineinstrs \| FileCheck %s --check-prefix=SI			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc < %s -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs \| FileCheck %s --check-prefix=SI			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s
	; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck %s --check-prefix=R600			; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 %s

	; R600: {{^}}s_mad_zext_i32_to_i64:			; R600: {{^}}s_mad_zext_i32_to_i64:
	; R600: MEM_RAT_CACHELESS STORE_RAW			; R600: MEM_RAT_CACHELESS STORE_RAW
	; R600: MEM_RAT_CACHELESS STORE_RAW			; R600: MEM_RAT_CACHELESS STORE_RAW

	; SI: {{^}}s_mad_zext_i32_to_i64:			; GCN: {{^}}s_mad_zext_i32_to_i64:
	; SI: v_mov_b32_e32 v[[V_ZERO:[0-9]]], 0{{$}}			; GCN: v_mov_b32_e32 v[[V_ZERO:[0-9]]], 0{{$}}
	; SI: buffer_store_dwordx2 v[0:[[V_ZERO]]{{\]}}			; GCN: buffer_store_dwordx2 v[0:[[V_ZERO]]{{\]}}
	define amdgpu_kernel void @s_mad_zext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) #0 {			define amdgpu_kernel void @s_mad_zext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) #0 {
	entry:			entry:
	%tmp0 = mul i32 %a, %b			%tmp0 = mul i32 %a, %b
	%tmp1 = add i32 %tmp0, %c			%tmp1 = add i32 %tmp0, %c
	%tmp2 = zext i32 %tmp1 to i64			%tmp2 = zext i32 %tmp1 to i64
	store i64 %tmp2, i64 addrspace(1)* %out			store i64 %tmp2, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_cmp_zext_i1_to_i32			; GCN-LABEL: {{^}}s_cmp_zext_i1_to_i32
	; SI: v_cndmask_b32			; GCN: v_cndmask_b32
	define amdgpu_kernel void @s_cmp_zext_i1_to_i32(i32 addrspace(1)* %out, i32 %a, i32 %b) #0 {			define amdgpu_kernel void @s_cmp_zext_i1_to_i32(i32 addrspace(1)* %out, i32 %a, i32 %b) #0 {
	entry:			entry:
	%tmp0 = icmp eq i32 %a, %b			%tmp0 = icmp eq i32 %a, %b
	%tmp1 = zext i1 %tmp0 to i32			%tmp1 = zext i1 %tmp0 to i32
	store i32 %tmp1, i32 addrspace(1)* %out			store i32 %tmp1, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_arg_zext_i1_to_i64:			; GCN-LABEL: {{^}}s_arg_zext_i1_to_i64:
	define amdgpu_kernel void @s_arg_zext_i1_to_i64(i64 addrspace(1)* %out, i1 zeroext %arg) #0 {			define amdgpu_kernel void @s_arg_zext_i1_to_i64(i64 addrspace(1)* %out, i1 zeroext %arg) #0 {
	%ext = zext i1 %arg to i64			%ext = zext i1 %arg to i64
	store i64 %ext, i64 addrspace(1)* %out, align 8			store i64 %ext, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_cmp_zext_i1_to_i64:			; GCN-LABEL: {{^}}s_cmp_zext_i1_to_i64:
	; SI: s_mov_b32 s{{[0-9]+}}, 0			; GCN: s_mov_b32 s{{[0-9]+}}, 0
	; SI: v_cmp_eq_u32			; GCN: v_cmp_eq_u32
	; SI: v_cndmask_b32			; GCN: v_cndmask_b32
	define amdgpu_kernel void @s_cmp_zext_i1_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b) #0 {			define amdgpu_kernel void @s_cmp_zext_i1_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b) #0 {
	%cmp = icmp eq i32 %a, %b			%cmp = icmp eq i32 %a, %b
	%ext = zext i1 %cmp to i64			%ext = zext i1 %cmp to i64
	store i64 %ext, i64 addrspace(1)* %out, align 8			store i64 %ext, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_cmp_zext_i1_to_i16			; FIXME: Why different commute?
	; SI: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, 1, vcc			; GCN-LABEL: {{^}}s_cmp_zext_i1_to_i16
	; SI: buffer_store_short [[RESULT]]			; GCN: s_load_dword [[A:s[0-9]+]]
	define amdgpu_kernel void @s_cmp_zext_i1_to_i16(i16 addrspace(1)* %out, i16 zeroext %a, i16 zeroext %b) #0 {			; GCN: s_load_dword [[B:s[0-9]+]]

				; SI: v_mov_b32_e32 [[V_A:v[0-9]+]], [[A]]
				; SI: v_cmp_eq_u32_e32 vcc, [[B]], [[V_A]]

				; VI: v_mov_b32_e32 [[V_B:v[0-9]+]], [[B]]
				; VI: v_cmp_eq_u32_e32 vcc, [[A]], [[V_B]]

				; GCN: v_cndmask_b32_e64 [[RESULT:v[0-9]+]], 0, 1, vcc
				; GCN: buffer_store_short [[RESULT]]
				define amdgpu_kernel void @s_cmp_zext_i1_to_i16(i16 addrspace(1)* %out, [8 x i32], i16 zeroext %a, [8 x i32], i16 zeroext %b) #0 {
	%tmp0 = icmp eq i16 %a, %b			%tmp0 = icmp eq i16 %a, %b
	%tmp1 = zext i1 %tmp0 to i16			%tmp1 = zext i1 %tmp0 to i16
	store i16 %tmp1, i16 addrspace(1)* %out			store i16 %tmp1, i16 addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Add pass to lower kernel arguments to loadsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 152847

lib/Target/AMDGPU/AMDGPU.h

lib/Target/AMDGPU/AMDGPULowerKernelArguments.cpp

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

lib/Target/AMDGPU/CMakeLists.txt

test/CodeGen/AMDGPU/GlobalISel/smrd.ll

test/CodeGen/AMDGPU/add_i64.ll

test/CodeGen/AMDGPU/amdhsa-trap-num-sgprs.ll

test/CodeGen/AMDGPU/and.ll

test/CodeGen/AMDGPU/ashr.v2i16.ll

test/CodeGen/AMDGPU/atomic_cmp_swap_local.ll

test/CodeGen/AMDGPU/attr-amdgpu-num-sgpr-spill-to-smem.ll

test/CodeGen/AMDGPU/attr-amdgpu-num-sgpr.ll

test/CodeGen/AMDGPU/basic-branch.ll

test/CodeGen/AMDGPU/bfe-patterns.ll

test/CodeGen/AMDGPU/bfi_int.ll

test/CodeGen/AMDGPU/br_cc.f16.ll

test/CodeGen/AMDGPU/branch-relaxation.ll

test/CodeGen/AMDGPU/code-object-v3.ll

test/CodeGen/AMDGPU/ctlz.ll

test/CodeGen/AMDGPU/ctlz_zero_undef.ll

test/CodeGen/AMDGPU/ctpop.ll

test/CodeGen/AMDGPU/ctpop16.ll

test/CodeGen/AMDGPU/ctpop64.ll

test/CodeGen/AMDGPU/extract_vector_elt-f16.ll

test/CodeGen/AMDGPU/extract_vector_elt-i16.ll

test/CodeGen/AMDGPU/extract_vector_elt-i8.ll

test/CodeGen/AMDGPU/fabs.f16.ll

test/CodeGen/AMDGPU/fabs.f64.ll

test/CodeGen/AMDGPU/fabs.ll

test/CodeGen/AMDGPU/fadd.f16.ll

test/CodeGen/AMDGPU/fcmp.f16.ll

test/CodeGen/AMDGPU/fcopysign.f16.ll

test/CodeGen/AMDGPU/fcopysign.f32.ll

test/CodeGen/AMDGPU/fcopysign.f64.ll

test/CodeGen/AMDGPU/fma.ll

test/CodeGen/AMDGPU/fmin_legacy.ll

test/CodeGen/AMDGPU/fmul-2-combine-multi-use.ll

test/CodeGen/AMDGPU/fmul.f16.ll

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

test/CodeGen/AMDGPU/fneg-fabs.f64.ll

test/CodeGen/AMDGPU/fneg-fabs.ll

test/CodeGen/AMDGPU/fneg.f64.ll

test/CodeGen/AMDGPU/frame-index-amdgiz.ll

test/CodeGen/AMDGPU/fsub.f16.ll

test/CodeGen/AMDGPU/global_smrd.ll

test/CodeGen/AMDGPU/half.ll

test/CodeGen/AMDGPU/hsa-metadata-kernel-code-props.ll

test/CodeGen/AMDGPU/imm.ll

test/CodeGen/AMDGPU/immv216.ll

test/CodeGen/AMDGPU/insert_vector_elt.ll

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

test/CodeGen/AMDGPU/kernel-args.ll

test/CodeGen/AMDGPU/llvm.amdgcn.buffer.store.format.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.class.f16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.class.ll

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pk.i16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pk.u16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pknorm.i16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pknorm.u16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pkrtz.ll

test/CodeGen/AMDGPU/llvm.amdgcn.div.fixup.f16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.div.fixup.ll

test/CodeGen/AMDGPU/llvm.amdgcn.div.fmas.ll

test/CodeGen/AMDGPU/llvm.amdgcn.div.scale.ll

test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.d16.ll

test/CodeGen/AMDGPU/llvm.ceil.f16.ll

test/CodeGen/AMDGPU/llvm.cos.f16.ll

test/CodeGen/AMDGPU/llvm.dbg.value.ll

test/CodeGen/AMDGPU/llvm.floor.f16.ll

test/CodeGen/AMDGPU/llvm.fma.f16.ll

test/CodeGen/AMDGPU/llvm.fmuladd.f16.ll

test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

test/CodeGen/AMDGPU/llvm.minnum.f16.ll

AMDGPU: Add pass to lower kernel arguments to loads
ClosedPublic