This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/CodeGen/GlobalISel/
-
llvm/
-
CodeGen/
-
GlobalISel/
1/1
CallLowering.h
-
lib/
-
CodeGen/GlobalISel/
-
GlobalISel/
2/4
CallLowering.cpp
-
Target/
-
AArch64/GISel/
-
GISel/
1/1
AArch64CallLowering.cpp
-
AMDGPU/
-
AMDGPUCallLowering.cpp
-
ARM/
-
ARMCallLowering.cpp
-
X86/
-
X86CallLowering.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/GlobalISel/
-
GlobalISel/
-
arm64-callingconv-ios.ll
-
arm64-callingconv.ll
-
arm64-irtranslator.ll
-
call-translator.ll
1/3
irtranslator-reductions.ll
-
AMDGPU/GlobalISel/
-
GlobalISel/
-
andn2.ll
-
ashr.ll
-
bswap.ll
-
dummy-target.ll
-
fdiv.f16.ll
-
fma.ll
-
fpow.ll
-
fshl.ll
-
fshr.ll
-
irtranslator-call.ll
-
irtranslator-function-args.ll
-
lshr.ll
-
orn2.ll
-
roundeven.ll
-
saddsat.ll
-
shl-ext-reduce.ll
-
shl.ll
-
ssubsat.ll
-
uaddsat.ll
-
usubsat.ll
-
xnor.ll
-
ARM/GlobalISel/
-
GlobalISel/
-
arm-irtranslator.ll
-
arm-isel.ll
-
arm-legalize-vfp4.mir
-
arm-param-lowering.ll
-
arm-unsupported.ll
-
X86/GlobalISel/
-
GlobalISel/
-
add-scalar.ll
-
callingconv.ll
-
ext.ll
-
irtranslator-callingconv.ll
-
memop-scalar-x32.ll

Differential D101234

GlobalISel: Use DAG call lowering infrastructure in a more compatible way
ClosedPublic

Authored by arsenm on Apr 24 2021, 9:07 AM.

Download Raw Diff

Details

Reviewers

aemerson
paquette
bogner
dsanders
cdevadas
aditya_nandakumar

Summary

GlobalISel: Use DAG call lowering infrastructure in a more compatible way

Unfortunately the current call lowering code is built on top of the
legacy MVT/DAG based code. However, GlobalISel was not using it the
same way. In short, the DAG passes legalized types to the assignment
function, and GlobalISel was passing the original raw type if it was
simple.

I do believe the DAG lowering is conceptually broken since it requires
picking a type up front before knowing how/where the value will be
passed. This ends up being a problem for AArch64, which wants to pass
i1/i8/i16 values as a different size if passed on the stack or in
registers.

The argument type decision is split across 3 different places which is
hard to follow. SelectionDAG builder uses
getRegisterTypeForCallingConv to pick a legal type, tablegen gives the
illusion of controlling the type, and the target may have additional
hacks in the C++ part of the call lowering. AArch64 hacks around this
by not using the standard AnalyzeFormalArguments and special casing
i1/i8/i16 by looking at the underlying type of the original IR
argument.

I believe people have generally assumed the calling convention code is
processing the original types, and I've discovered a number of dead
paths in several targets.

x86 actually relies on the opposite behavior from AArch64, and relies
on x86_32 and x86_64 sharing calling convention code where the 64-bit
cases implicitly do not work on x86_32 due to using the pre-legalized
types.

AMDGPU targets without legal i16/f16 have always used a broken ABI
that promotes to i32/f32. GlobalISel accidentally fixed this to be the
ABI we should have, but this fixes it so we're using the worse ABI
that is compatible with the DAG. Ideally we would fix the DAG to match
the old GlobalISel behavior, but I don't wish to fight that battle.

A new native GlobalISel call lowering framework should let the target
process the incoming types directly.

CCValAssigns select a "ValVT" and "LocVT" but the meanings of these
aren't entirely clear. Different targets don't use them consistently,
even within their own call lowering code. My current belief is the
intent was "ValVT" is supposed to be the legalized value type to use
in the end, and and LocVT was supposed to be the ABI passed type
(which is also legalized).

With the default CCState::Analyze functions always passing the same
type for these arguments, these only differ when the TableGen part of
the lowering decide to promote the type from one legal type to
another. AArch64's i1/i8/i16 hack ends up inverting the meanings of
these values, so I had to add an additional hack to let the target
interpret how large the argument memory is.

Since targets don't consistently interpret ValVT and LocVT, this
doesn't produce quite equivalent code to the initial DAG
lowerings. I've opted to consistently interpret LocVT as the in-memory
size for stack passed values, and ValVT as the register type to assign
from that memory. We therefore produce extending loads directly out of
the IRTranslator, whereas the DAG would emit regular loads of smaller
values. This will also produce loads/stores that are wider than the
argument value if the allocated stack slot is larger (and there will
be undef padding bytes). If we had the optimizations to reduce
load/stores based on truncated values, this wouldn't produce a
different end result.

Since ValVT/LocVT are more consistently interpreted, we now will emit
more G_BITCASTS as requested by the CCAssignFn. For example AArch64
was directly assigning types to some physical vector registers which
according to the tablegen spec should have been casted to a vector
with a different element type.

This also moves the responsibility for inserting
G_ASSERT_SEXT/G_ASSERT_ZEXT from the target ValueHandlers into the
generic code, which is closer to how SelectionDAGBuilder works.

I had to xfail an x86 test since I don't see a quick way to fix it
right now (I filed bug 50035 for this). It's broken independently of
this change, and only triggers since now we end up with more ands
which hit the improperly handled selection pattern.

I also observed that FP arguments that need promotion (e.g. f16 passed
as f32) are broken, and use regular G_TRUNC and G_ANYEXT.

TLDR; the current call lowering infrastructure is bad and nobody has
ever understood how it chooses types.

Diff Detail

Event Timeline

arsenm created this revision.Apr 24 2021, 9:07 AM

Herald added subscribers: kerbowa, pengfei, hiraditya and 5 others. · View Herald TranscriptApr 24 2021, 9:07 AM

arsenm requested review of this revision.Apr 24 2021, 9:07 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 24 2021, 9:07 AM

Herald added a subscriber: wdng. · View Herald Transcript

Cleanup variable names and drop unused overload

arsenm added parent revisions: D100709: X86/GlobalISel: Rely on default assignValueToRe, D100708: GlobalISel: Relax verification of physical register copy types.Apr 24 2021, 9:15 AM

arsenm added a child revision: D101238: X86/GlobalISel: Use generic version of splitToValueTypes.Apr 24 2021, 9:42 AM

Harbormaster completed remote builds in B100762: Diff 340287.Apr 24 2021, 9:44 AM

Harbormaster completed remote builds in B100764: Diff 340290.Apr 24 2021, 10:10 AM

foad added a subscriber: foad.Apr 26 2021, 1:45 AM

gandhi21299 added a subscriber: gandhi21299.May 2 2021, 2:36 PM

ping

paquette added inline comments.May 4 2021, 9:43 AM

llvm/include/llvm/CodeGen/GlobalISel/CallLowering.h
222–226	Missing )
llvm/lib/CodeGen/GlobalISel/CallLowering.cpp
310	Commented-out param?
1122	Why is `SrcTy.isPointer() == DstTy.isPointer()` not allowed?

arsenm added inline comments.May 4 2021, 10:45 AM

llvm/lib/CodeGen/GlobalISel/CallLowering.cpp
1122	The whole point of the function is to hack around using LLTs on top of the MVT infrastructure. One of these types is derived from an MVT and therefore can never be a pointer. If both were pointers, they would have to have the same address space to use a plain copy, and would be handled by the early exit for exact type match

aemerson added inline comments.May 4 2021, 10:57 AM

llvm/lib/CodeGen/GlobalISel/CallLowering.cpp
1122	I think because to cast between different pointer address spaces you need an explicit G_ADDRSPACE_CAST.
llvm/lib/Target/AArch64/GISel/AArch64CallLowering.cpp
227	This is identical to the other override. Can you factor it out?
llvm/test/CodeGen/AArch64/GlobalISel/irtranslator-reductions.ll
12–15	Why is this changing?

arsenm added inline comments.May 4 2021, 11:00 AM

llvm/test/CodeGen/AArch64/GlobalISel/irtranslator-reductions.ll
12–15	According to the tablegen calling convention definition, <4 x s32> is supposed to be bitcasted to <2 x s64>. This was silently ignoring this before and directly assigning the physreg to the result type

aemerson added inline comments.May 4 2021, 11:30 AM

llvm/test/CodeGen/AArch64/GlobalISel/irtranslator-reductions.ll
12–15	Ah right, this is <4 x f32> not <4 x i32>.

Address comments

Harbormaster completed remote builds in B102609: Diff 342864.May 4 2021, 2:23 PM

aemerson accepted this revision.May 5 2021, 11:41 AM

This revision is now accepted and ready to land.May 5 2021, 11:41 AM

fa0b93b5a0866aad3ce517daab6cd91cc67823ad

This seems to have broken the following code for AArch64, could you take a look?

target datalayout = "e-m:o-i64:64-i128:128-n32:64-S128"
target triple = "arm64e-apple-ios14.0.0"

declare <3 x float> @bar(float)

define void @foo(float %a, float %b) {
entry:
  %call = call <3 x float> @bar(float undef)
  ret void
}

In D101234#2758550, @aemerson wrote:
This seems to have broken the following code for AArch64, could you take a look?
target datalayout = "e-m:o-i64:64-i128:128-n32:64-S128"
target triple = "arm64e-apple-ios14.0.0"

declare <3 x float> @bar(float)

define void @foo(float %a, float %b) {
entry:
  %call = call <3 x float> @bar(float undef)
  ret void
}

I went ahead and committed a fix anyway in 80c534a8f97fef050ebbe3411413018abd2ca2ae. A post-commit check is welcome though.

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

GlobalISel/

CallLowering.h

13 lines

lib/

CodeGen/

GlobalISel/

CallLowering.cpp

143 lines

Target/

AArch64/

GISel/

AArch64CallLowering.cpp

146 lines

AMDGPU/

AMDGPUCallLowering.cpp

5 lines

ARM/

ARMCallLowering.cpp

2 lines

X86/

X86CallLowering.cpp

2 lines

test/

CodeGen/

AArch64/

GlobalISel/

arm64-callingconv-ios.ll

14 lines

arm64-callingconv.ll

60 lines

arm64-irtranslator.ll

5 lines

call-translator.ll

3 lines

irtranslator-reductions.ll

25 lines

AMDGPU/

GlobalISel/

76 lines

46 lines

40 lines

41 lines

451 lines

77 lines

73 lines

179 lines

291 lines

10 lines

irtranslator-function-args.ll

15 lines

42 lines

72 lines

52 lines

35 lines

12 lines

35 lines

37 lines

28 lines

24 lines

7 lines

ARM/

GlobalISel/

arm-irtranslator.ll

30 lines

arm-isel.ll

4 lines

arm-legalize-vfp4.mir

4 lines

arm-param-lowering.ll

13 lines

arm-unsupported.ll

2 lines

X86/

GlobalISel/

add-scalar.ll

12 lines

callingconv.ll

6 lines

ext.ll

2 lines

irtranslator-callingconv.ll

42 lines

memop-scalar-x32.ll

8 lines

Diff 342864

llvm/include/llvm/CodeGen/GlobalISel/CallLowering.h

Show First 20 Lines • Show All 159 Lines • ▼ Show 20 Lines	struct ValueHandler {
/// stack-based object. This is either based on a FrameIndex or		/// stack-based object. This is either based on a FrameIndex or
/// direct SP manipulation, depending on the context. \p MPO		/// direct SP manipulation, depending on the context. \p MPO
/// should be initialized to an appropriate description of the		/// should be initialized to an appropriate description of the
/// address created.		/// address created.
virtual Register getStackAddress(uint64_t Size, int64_t Offset,		virtual Register getStackAddress(uint64_t Size, int64_t Offset,
MachinePointerInfo &MPO,		MachinePointerInfo &MPO,
ISD::ArgFlagsTy Flags) = 0;		ISD::ArgFlagsTy Flags) = 0;

		/// Return the in-memory size to write for the argument at \p VA. This may
		/// be smaller than the allocated stack slot size.
		///
		/// This is overridable primarily for targets to maintain compatibility with
		/// hacks around the existing DAG call lowering infrastructure.
		virtual uint64_t getStackValueStoreSize(const CCValAssign &VA) const;

/// The specified value has been assigned to a physical register,		/// The specified value has been assigned to a physical register,
/// handle the appropriate COPY (either to or from) and mark any		/// handle the appropriate COPY (either to or from) and mark any
/// relevant uses/defines as needed.		/// relevant uses/defines as needed.
virtual void assignValueToReg(Register ValVReg, Register PhysReg,		virtual void assignValueToReg(Register ValVReg, Register PhysReg,
CCValAssign &VA) = 0;		CCValAssign &VA) = 0;

/// The specified value has been assigned to a stack		/// The specified value has been assigned to a stack
/// location. Load or store it there, with appropriate extension		/// location. Load or store it there, with appropriate extension
Show All 31 Lines	copyArgumentMemory(const ArgInfo &Arg, Register DstPtr, Register SrcPtr,
const MachinePointerInfo &SrcPtrInfo, Align SrcAlign,		const MachinePointerInfo &SrcPtrInfo, Align SrcAlign,
uint64_t MemSize, CCValAssign &VA) const;		uint64_t MemSize, CCValAssign &VA) const;

/// Extend a register to the location type given in VA, capped at extending		/// Extend a register to the location type given in VA, capped at extending
/// to at most MaxSize bits. If MaxSizeBits is 0 then no maximum is set.		/// to at most MaxSize bits. If MaxSizeBits is 0 then no maximum is set.
Register extendRegister(Register ValReg, CCValAssign &VA,		Register extendRegister(Register ValReg, CCValAssign &VA,
unsigned MaxSizeBits = 0);		unsigned MaxSizeBits = 0);

virtual bool assignArg(unsigned ValNo, MVT ValVT, MVT LocVT,		/// Wrap call to (typically tablegenerated CCAssignFn). This may be
		/// overridden to track additional state information as arguments are
		/// assigned or apply target specific hacks around the legacy
		/// infrastructure.
		virtual bool assignArg(unsigned ValNo, EVT OrigVT, MVT ValVT, MVT LocVT,
		paquetteUnsubmitted Done Reply Inline Actions Missing ) paquette: Missing )
CCValAssign::LocInfo LocInfo, const ArgInfo &Info,		CCValAssign::LocInfo LocInfo, const ArgInfo &Info,
ISD::ArgFlagsTy Flags, CCState &State) {		ISD::ArgFlagsTy Flags, CCState &State) {
return AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);		return AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);
}		}

MachineIRBuilder &MIRBuilder;		MachineIRBuilder &MIRBuilder;
MachineRegisterInfo &MRI;		MachineRegisterInfo &MRI;
CCAssignFn *AssignFn;		CCAssignFn *AssignFn;
▲ Show 20 Lines • Show All 275 Lines • Show Last 20 Lines

llvm/lib/CodeGen/GlobalISel/CallLowering.cpp

Show First 20 Lines • Show All 300 Lines • ▼ Show 20 Lines	mergeVectorRegsToResultRegs(MachineIRBuilder &B, ArrayRef<Register> DstRegs,
return B.buildUnmerge(PadDstRegs, UnmergeSrcReg);		return B.buildUnmerge(PadDstRegs, UnmergeSrcReg);
}		}

/// Create a sequence of instructions to combine pieces split into register		/// Create a sequence of instructions to combine pieces split into register
/// typed values to the original IR value. \p OrigRegs contains the destination		/// typed values to the original IR value. \p OrigRegs contains the destination
/// value registers of type \p LLTy, and \p Regs contains the legalized pieces		/// value registers of type \p LLTy, and \p Regs contains the legalized pieces
/// with type \p PartLLT. This is used for incoming values (physregs to vregs).		/// with type \p PartLLT. This is used for incoming values (physregs to vregs).
static void buildCopyFromRegs(MachineIRBuilder &B, ArrayRef<Register> OrigRegs,		static void buildCopyFromRegs(MachineIRBuilder &B, ArrayRef<Register> OrigRegs,
ArrayRef<Register> Regs, LLT LLTy, LLT PartLLT) {		ArrayRef<Register> Regs, LLT LLTy, LLT PartLLT,
		const ISD::ArgFlagsTy Flags) {
		paquetteUnsubmitted Done Reply Inline Actions Commented-out param? paquette: Commented-out param?
MachineRegisterInfo &MRI = *B.getMRI();		MachineRegisterInfo &MRI = *B.getMRI();

// We could just insert a regular copy, but this is unreachable at the moment.		if (PartLLT == LLTy) {
assert(LLTy != PartLLT && "identical part types shouldn't reach here");		// We should have avoided introducing a new virtual register, and just
		// directly assigned here.
		assert(OrigRegs[0] == Regs[0]);
		return;
		}

		if (PartLLT.getSizeInBits() == LLTy.getSizeInBits() && OrigRegs.size() == 1 &&
		Regs.size() == 1) {
		B.buildBitcast(OrigRegs[0], Regs[0]);
		return;
		}

if (PartLLT.isVector() == LLTy.isVector() &&		if (PartLLT.isVector() == LLTy.isVector() &&
PartLLT.getScalarSizeInBits() > LLTy.getScalarSizeInBits()) {		PartLLT.getScalarSizeInBits() > LLTy.getScalarSizeInBits() &&
assert(OrigRegs.size() == 1 && Regs.size() == 1);		OrigRegs.size() == 1 && Regs.size() == 1) {
B.buildTrunc(OrigRegs[0], Regs[0]);		Register SrcReg = Regs[0];

		LLT LocTy = MRI.getType(SrcReg);

		if (Flags.isSExt()) {
		SrcReg = B.buildAssertSExt(LocTy, SrcReg,
		LLTy.getScalarSizeInBits()).getReg(0);
		} else if (Flags.isZExt()) {
		SrcReg = B.buildAssertZExt(LocTy, SrcReg,
		LLTy.getScalarSizeInBits()).getReg(0);
		}

		B.buildTrunc(OrigRegs[0], SrcReg);
return;		return;
}		}

if (!LLTy.isVector() && !PartLLT.isVector()) {		if (!LLTy.isVector() && !PartLLT.isVector()) {
assert(OrigRegs.size() == 1);		assert(OrigRegs.size() == 1);
LLT OrigTy = MRI.getType(OrigRegs[0]);		LLT OrigTy = MRI.getType(OrigRegs[0]);

unsigned SrcSize = PartLLT.getSizeInBits() * Regs.size();		unsigned SrcSize = PartLLT.getSizeInBits() * Regs.size();
if (SrcSize == OrigTy.getSizeInBits())		if (SrcSize == OrigTy.getSizeInBits())
B.buildMerge(OrigRegs[0], Regs);		B.buildMerge(OrigRegs[0], Regs);
else {		else {
auto Widened = B.buildMerge(LLT::scalar(SrcSize), Regs);		auto Widened = B.buildMerge(LLT::scalar(SrcSize), Regs);
B.buildTrunc(OrigRegs[0], Widened);		B.buildTrunc(OrigRegs[0], Widened);
}		}

return;		return;
}		}

if (PartLLT.isVector()) {		if (PartLLT.isVector()) {
assert(OrigRegs.size() == 1 &&		assert(OrigRegs.size() == 1);
LLTy.getScalarType() == PartLLT.getElementType());
		if (LLTy.getScalarType() == PartLLT.getElementType()) {
mergeVectorRegsToResultRegs(B, OrigRegs, Regs);		mergeVectorRegsToResultRegs(B, OrigRegs, Regs);
		} else {
		SmallVector<Register> CastRegs(Regs.size());
		unsigned I = 0;
		LLT GCDTy = getGCDType(LLTy, PartLLT);

		// We are both splitting a vector, and bitcasting its element types. Cast
		// the source pieces into the appropriate number of pieces with the result
		// element type.
		for (Register SrcReg : Regs)
		CastRegs[I++] = B.buildBitcast(GCDTy, SrcReg).getReg(0);
		mergeVectorRegsToResultRegs(B, OrigRegs, CastRegs);
		}

return;		return;
}		}

assert(LLTy.isVector() && !PartLLT.isVector());		assert(LLTy.isVector() && !PartLLT.isVector());

LLT DstEltTy = LLTy.getElementType();		LLT DstEltTy = LLTy.getElementType();

// Pointer information was discarded. We'll need to coerce some register types		// Pointer information was discarded. We'll need to coerce some register types
▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines	bool CallLowering::handleAssignments(CCState &CCInfo,
MachineFunction &MF = MIRBuilder.getMF();		MachineFunction &MF = MIRBuilder.getMF();
MachineRegisterInfo &MRI = MF.getRegInfo();		MachineRegisterInfo &MRI = MF.getRegInfo();
const Function &F = MF.getFunction();		const Function &F = MF.getFunction();
const DataLayout &DL = F.getParent()->getDataLayout();		const DataLayout &DL = F.getParent()->getDataLayout();

unsigned NumArgs = Args.size();		unsigned NumArgs = Args.size();
for (unsigned i = 0; i != NumArgs; ++i) {		for (unsigned i = 0; i != NumArgs; ++i) {
EVT CurVT = EVT::getEVT(Args[i].Ty);		EVT CurVT = EVT::getEVT(Args[i].Ty);
if (CurVT.isSimple() &&
!Handler.assignArg(i, CurVT.getSimpleVT(), CurVT.getSimpleVT(),
CCValAssign::Full, Args[i], Args[i].Flags[0],
CCInfo))
continue;

MVT NewVT = TLI->getRegisterTypeForCallingConv(		MVT NewVT = TLI->getRegisterTypeForCallingConv(
F.getContext(), CCInfo.getCallingConv(), EVT(CurVT));		F.getContext(), CCInfo.getCallingConv(), CurVT);

// If we need to split the type over multiple regs, check it's a scenario		// If we need to split the type over multiple regs, check it's a scenario
// we currently support.		// we currently support.
unsigned NumParts = TLI->getNumRegistersForCallingConv(		unsigned NumParts = TLI->getNumRegistersForCallingConv(
F.getContext(), CCInfo.getCallingConv(), CurVT);		F.getContext(), CCInfo.getCallingConv(), CurVT);

if (NumParts == 1) {		if (NumParts == 1) {
// Try to use the register type if we couldn't assign the VT.		// Try to use the register type if we couldn't assign the VT.
if (Handler.assignArg(i, NewVT, NewVT, CCValAssign::Full, Args[i],		if (Handler.assignArg(i, CurVT, NewVT, NewVT, CCValAssign::Full, Args[i],
Args[i].Flags[0], CCInfo))		Args[i].Flags[0], CCInfo))
return false;		return false;
continue;		continue;
}		}

// For incoming arguments (physregs to vregs), we could have values in		// For incoming arguments (physregs to vregs), we could have values in
// physregs (or memlocs) which we want to extract and copy to vregs.		// physregs (or memlocs) which we want to extract and copy to vregs.
// During this, we might have to deal with the LLT being split across		// During this, we might have to deal with the LLT being split across
Show All 24 Lines	for (unsigned Part = 0; Part < NumParts; ++Part) {
// split parts, so that can't be tested.		// split parts, so that can't be tested.
if (OrigFlags.isReturned() &&		if (OrigFlags.isReturned() &&
(NumParts * NewVT.getSizeInBits() != CurVT.getSizeInBits())) {		(NumParts * NewVT.getSizeInBits() != CurVT.getSizeInBits())) {
Flags.setReturned(false);		Flags.setReturned(false);
}		}
}		}

Args[i].Flags.push_back(Flags);		Args[i].Flags.push_back(Flags);
if (Handler.assignArg(i, NewVT, NewVT, CCValAssign::Full, Args[i],		if (Handler.assignArg(i, CurVT, NewVT, NewVT, CCValAssign::Full, Args[i],
Args[i].Flags[Part], CCInfo)) {		Args[i].Flags[Part], CCInfo)) {
// Still couldn't assign this smaller part type for some reason.		// Still couldn't assign this smaller part type for some reason.
return false;		return false;
}		}
}		}
}		}

for (unsigned i = 0, j = 0; i != NumArgs; ++i, ++j) {		for (unsigned i = 0, j = 0; i != NumArgs; ++i, ++j) {
assert(j < ArgLocs.size() && "Skipped too many arg locs");		assert(j < ArgLocs.size() && "Skipped too many arg locs");
CCValAssign &VA = ArgLocs[j];		CCValAssign &VA = ArgLocs[j];
assert(VA.getValNo() == i && "Location doesn't correspond to current arg");		assert(VA.getValNo() == i && "Location doesn't correspond to current arg");

if (VA.needsCustom()) {		if (VA.needsCustom()) {
unsigned NumArgRegs =		unsigned NumArgRegs =
Handler.assignCustomValue(Args[i], makeArrayRef(ArgLocs).slice(j));		Handler.assignCustomValue(Args[i], makeArrayRef(ArgLocs).slice(j));
if (!NumArgRegs)		if (!NumArgRegs)
return false;		return false;
j += NumArgRegs;		j += NumArgRegs;
continue;		continue;
}		}

const EVT VAVT = VA.getValVT();		const MVT ValVT = VA.getValVT();
const LLT NewLLT(VAVT.getSimpleVT());		const MVT LocVT = VA.getLocVT();

		const LLT LocTy(LocVT);
		const LLT ValTy(ValVT);
		const LLT NewLLT = Handler.isIncomingArgumentHandler() ? LocTy : ValTy;
		const EVT OrigVT = EVT::getEVT(Args[i].Ty);
const LLT OrigTy = getLLTForType(*Args[i].Ty, DL);		const LLT OrigTy = getLLTForType(*Args[i].Ty, DL);

// Expected to be multiple regs for a single incoming arg.		// Expected to be multiple regs for a single incoming arg.
// There should be Regs.size() ArgLocs per argument.		// There should be Regs.size() ArgLocs per argument.
// This should be the same as getNumRegistersForCallingConv		// This should be the same as getNumRegistersForCallingConv
const unsigned NumParts = Args[i].Flags.size();		const unsigned NumParts = Args[i].Flags.size();

// Now split the registers into the assigned types.		// Now split the registers into the assigned types.
Args[i].OrigRegs.assign(Args[i].Regs.begin(), Args[i].Regs.end());		Args[i].OrigRegs.assign(Args[i].Regs.begin(), Args[i].Regs.end());

if (NumParts != 1 \|\| NewLLT != OrigTy) {		if (NumParts != 1 \|\| NewLLT != OrigTy) {
// If we can't directly assign the register, we need one or more		// If we can't directly assign the register, we need one or more
// intermediate values.		// intermediate values.
Args[i].Regs.resize(NumParts);		Args[i].Regs.resize(NumParts);

// For each split register, create and assign a vreg that will store		// For each split register, create and assign a vreg that will store
// the incoming component of the larger value. These will later be		// the incoming component of the larger value. These will later be
// merged to form the final vreg.		// merged to form the final vreg.
for (unsigned Part = 0; Part < NumParts; ++Part)		for (unsigned Part = 0; Part < NumParts; ++Part)
Args[i].Regs[Part] = MRI.createGenericVirtualRegister(NewLLT);		Args[i].Regs[Part] = MRI.createGenericVirtualRegister(NewLLT);
}		}

const LLT VATy(VAVT.getSimpleVT());

assert((j + (NumParts - 1)) < ArgLocs.size() &&		assert((j + (NumParts - 1)) < ArgLocs.size() &&
"Too many regs for number of args");		"Too many regs for number of args");

// Coerce into outgoing value types before register assignment.		// Coerce into outgoing value types before register assignment.
if (!Handler.isIncomingArgumentHandler() && OrigTy != VATy) {		if (!Handler.isIncomingArgumentHandler() && OrigTy != ValTy) {
assert(Args[i].OrigRegs.size() == 1);		assert(Args[i].OrigRegs.size() == 1);
buildCopyToRegs(MIRBuilder, Args[i].Regs, Args[i].OrigRegs[0], OrigTy,		buildCopyToRegs(MIRBuilder, Args[i].Regs, Args[i].OrigRegs[0], OrigTy,
VATy, extendOpFromFlags(Args[i].Flags[0]));		ValTy, extendOpFromFlags(Args[i].Flags[0]));
}		}

for (unsigned Part = 0; Part < NumParts; ++Part) {		for (unsigned Part = 0; Part < NumParts; ++Part) {
Register ArgReg = Args[i].Regs[Part];		Register ArgReg = Args[i].Regs[Part];
// There should be Regs.size() ArgLocs per argument.		// There should be Regs.size() ArgLocs per argument.
VA = ArgLocs[j + Part];		VA = ArgLocs[j + Part];
const ISD::ArgFlagsTy Flags = Args[i].Flags[Part];		const ISD::ArgFlagsTy Flags = Args[i].Flags[Part];

if (VA.isMemLoc() && !Flags.isByVal()) {		if (VA.isMemLoc() && !Flags.isByVal()) {
// Individual pieces may have been spilled to the stack and others		// Individual pieces may have been spilled to the stack and others
// passed in registers.		// passed in registers.

// FIXME: Use correct address space for pointer size		// TODO: The memory size may be larger than the value we need to
EVT LocVT = VA.getValVT();		// store. We may need to adjust the offset for big endian targets.
unsigned MemSize = LocVT == MVT::iPTR ? DL.getPointerSize()		uint64_t MemSize = Handler.getStackValueStoreSize(VA);
: LocVT.getStoreSize();
unsigned Offset = VA.getLocMemOffset();
MachinePointerInfo MPO;		MachinePointerInfo MPO;
Register StackAddr =		Register StackAddr =
Handler.getStackAddress(MemSize, Offset, MPO, Flags);		Handler.getStackAddress(MemSize, VA.getLocMemOffset(), MPO, Flags);

Handler.assignValueToAddress(Args[i], Part, StackAddr, MemSize, MPO,		Handler.assignValueToAddress(Args[i], Part, StackAddr, MemSize, MPO,
VA);		VA);
continue;		continue;
}		}

if (VA.isMemLoc() && Flags.isByVal()) {		if (VA.isMemLoc() && Flags.isByVal()) {
assert(Args[i].Regs.size() == 1 &&		assert(Args[i].Regs.size() == 1 &&
"didn't expect split byval pointer");		"didn't expect split byval pointer");
Show All 35 Lines	for (unsigned Part = 0; Part < NumParts; ++Part) {
}		}
continue;		continue;
}		}

assert(!VA.needsCustom() && "custom loc should have been handled already");		assert(!VA.needsCustom() && "custom loc should have been handled already");

if (i == 0 && ThisReturnReg.isValid() &&		if (i == 0 && ThisReturnReg.isValid() &&
Handler.isIncomingArgumentHandler() &&		Handler.isIncomingArgumentHandler() &&
isTypeIsValidForThisReturn(VAVT)) {		isTypeIsValidForThisReturn(ValVT)) {
Handler.assignValueToReg(Args[i].Regs[i], ThisReturnReg, VA);		Handler.assignValueToReg(Args[i].Regs[i], ThisReturnReg, VA);
continue;		continue;
}		}

Handler.assignValueToReg(ArgReg, VA.getLocReg(), VA);		Handler.assignValueToReg(ArgReg, VA.getLocReg(), VA);
}		}

// Now that all pieces have been assigned, re-pack the register typed values		// Now that all pieces have been assigned, re-pack the register typed values
// into the original value typed registers.		// into the original value typed registers.
if (Handler.isIncomingArgumentHandler() && OrigTy != VATy) {		if (Handler.isIncomingArgumentHandler() && OrigVT != LocVT) {
// Merge the split registers into the expected larger result vregs of		// Merge the split registers into the expected larger result vregs of
// the original call.		// the original call.
buildCopyFromRegs(MIRBuilder, Args[i].OrigRegs, Args[i].Regs, OrigTy,		buildCopyFromRegs(MIRBuilder, Args[i].OrigRegs, Args[i].Regs, OrigTy,
VATy);		LocTy, Args[i].Flags[0]);
}		}

j += NumParts - 1;		j += NumParts - 1;
}		}

return true;		return true;
}		}

▲ Show 20 Lines • Show All 267 Lines • ▼ Show 20 Lines	for (unsigned i = 0, e = ArgLocs1.size(); i < e; ++i) {
// Loc1 wasn't a RegLoc, so they both must be MemLocs. Check if they match.		// Loc1 wasn't a RegLoc, so they both must be MemLocs. Check if they match.
if (Loc1.getLocMemOffset() != Loc2.getLocMemOffset())		if (Loc1.getLocMemOffset() != Loc2.getLocMemOffset())
return false;		return false;
}		}

return true;		return true;
}		}

		uint64_t CallLowering::ValueHandler::getStackValueStoreSize(
		const CCValAssign &VA) const {
		const EVT ValVT = VA.getValVT();
		if (ValVT != MVT::iPTR)
		return ValVT.getStoreSize();

		const DataLayout &DL = MIRBuilder.getDataLayout();

		/// FIXME: We need to get the correct pointer address space.
		return DL.getPointerSize();
		}

void CallLowering::ValueHandler::copyArgumentMemory(		void CallLowering::ValueHandler::copyArgumentMemory(
const ArgInfo &Arg, Register DstPtr, Register SrcPtr,		const ArgInfo &Arg, Register DstPtr, Register SrcPtr,
const MachinePointerInfo &DstPtrInfo, Align DstAlign,		const MachinePointerInfo &DstPtrInfo, Align DstAlign,
const MachinePointerInfo &SrcPtrInfo, Align SrcAlign, uint64_t MemSize,		const MachinePointerInfo &SrcPtrInfo, Align SrcAlign, uint64_t MemSize,
CCValAssign &VA) const {		CCValAssign &VA) const {
MachineFunction &MF = MIRBuilder.getMF();		MachineFunction &MF = MIRBuilder.getMF();
MachineMemOperand *SrcMMO = MF.getMachineMemOperand(		MachineMemOperand *SrcMMO = MF.getMachineMemOperand(
SrcPtrInfo,		SrcPtrInfo,
Show All 11 Lines	void CallLowering::ValueHandler::copyArgumentMemory(
auto SizeConst = MIRBuilder.buildConstant(SizeTy, MemSize);		auto SizeConst = MIRBuilder.buildConstant(SizeTy, MemSize);
MIRBuilder.buildMemCpy(DstPtr, SrcPtr, SizeConst, DstMMO, SrcMMO);		MIRBuilder.buildMemCpy(DstPtr, SrcPtr, SizeConst, DstMMO, SrcMMO);
}		}

Register CallLowering::ValueHandler::extendRegister(Register ValReg,		Register CallLowering::ValueHandler::extendRegister(Register ValReg,
CCValAssign &VA,		CCValAssign &VA,
unsigned MaxSizeBits) {		unsigned MaxSizeBits) {
LLT LocTy{VA.getLocVT()};		LLT LocTy{VA.getLocVT()};
LLT ValTy = MRI.getType(ValReg);		LLT ValTy{VA.getValVT()};

if (LocTy.getSizeInBits() == ValTy.getSizeInBits())		if (LocTy.getSizeInBits() == ValTy.getSizeInBits())
return ValReg;		return ValReg;

if (LocTy.isScalar() && MaxSizeBits && MaxSizeBits < LocTy.getSizeInBits()) {		if (LocTy.isScalar() && MaxSizeBits && MaxSizeBits < LocTy.getSizeInBits()) {
if (MaxSizeBits <= ValTy.getSizeInBits())		if (MaxSizeBits <= ValTy.getSizeInBits())
return ValReg;		return ValReg;
LocTy = LLT::scalar(MaxSizeBits);		LocTy = LLT::scalar(MaxSizeBits);
}		}
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	return MIRBuilder
.getReg(0);		.getReg(0);
break;		break;
}		}
default:		default:
return SrcReg;		return SrcReg;
}		}
}		}

		/// Check if we can use a basic COPY instruction between the two types.
		///
		/// We're currently building on top of the infrastructure using MVT, which loses
		/// pointer information in the CCValAssign. We accept copies from physical
		/// registers that have been reported as integers if it's to an equivalent sized
		/// pointer LLT.
		static bool isCopyCompatibleType(LLT SrcTy, LLT DstTy) {
		if (SrcTy == DstTy)
		return true;

		if (SrcTy.getSizeInBits() != DstTy.getSizeInBits())
		return false;

		SrcTy = SrcTy.getScalarType();
		DstTy = DstTy.getScalarType();

		return (SrcTy.isPointer() && DstTy.isScalar()) \|\|
		paquetteUnsubmitted Not Done Reply Inline Actions Why is `SrcTy.isPointer() == DstTy.isPointer()` not allowed? paquette: Why is `SrcTy.isPointer() == DstTy.isPointer()` not allowed?
		arsenmAuthorUnsubmitted Done Reply Inline Actions The whole point of the function is to hack around using LLTs on top of the MVT infrastructure. One of these types is derived from an MVT and therefore can never be a pointer. If both were pointers, they would have to have the same address space to use a plain copy, and would be handled by the early exit for exact type match arsenm: The whole point of the function is to hack around using LLTs on top of the MVT infrastructure.
		aemersonUnsubmitted Not Done Reply Inline Actions I think because to cast between different pointer address spaces you need an explicit G_ADDRSPACE_CAST. aemerson: I think because to cast between different pointer address spaces you need an explicit…
		(DstTy.isScalar() && SrcTy.isPointer());
		}

void CallLowering::IncomingValueHandler::assignValueToReg(Register ValVReg,		void CallLowering::IncomingValueHandler::assignValueToReg(Register ValVReg,
Register PhysReg,		Register PhysReg,
CCValAssign &VA) {		CCValAssign &VA) {
const LLT LocTy(VA.getLocVT());		const MVT LocVT = VA.getLocVT();
const LLT ValTy = MRI.getType(ValVReg);		const LLT LocTy(LocVT);
		const LLT RegTy = MRI.getType(ValVReg);

if (ValTy.getSizeInBits() == LocTy.getSizeInBits()) {		if (isCopyCompatibleType(RegTy, LocTy)) {
MIRBuilder.buildCopy(ValVReg, PhysReg);		MIRBuilder.buildCopy(ValVReg, PhysReg);
return;		return;
}		}

auto Copy = MIRBuilder.buildCopy(LocTy, PhysReg);		auto Copy = MIRBuilder.buildCopy(LocTy, PhysReg);
auto Hint = buildExtensionHint(VA, Copy.getReg(0), ValTy);		auto Hint = buildExtensionHint(VA, Copy.getReg(0), RegTy);
MIRBuilder.buildTrunc(ValVReg, Hint);		MIRBuilder.buildTrunc(ValVReg, Hint);
}		}

llvm/lib/Target/AArch64/GISel/AArch64CallLowering.cpp

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines

#define DEBUG_TYPE "aarch64-call-lowering"		#define DEBUG_TYPE "aarch64-call-lowering"

using namespace llvm;		using namespace llvm;

AArch64CallLowering::AArch64CallLowering(const AArch64TargetLowering &TLI)		AArch64CallLowering::AArch64CallLowering(const AArch64TargetLowering &TLI)
: CallLowering(&TLI) {}		: CallLowering(&TLI) {}

		static void applyStackPassedSmallTypeDAGHack(EVT OrigVT, MVT &ValVT,
		MVT &LocVT) {
		// If ValVT is i1/i8/i16, we should set LocVT to i8/i8/i16. This is a legacy
		// hack because the DAG calls the assignment function with pre-legalized
		// register typed values, not the raw type.
		//
		// This hack is not applied to return values which are not passed on the
		// stack.
		if (OrigVT == MVT::i1 \|\| OrigVT == MVT::i8)
		ValVT = LocVT = MVT::i8;
		else if (OrigVT == MVT::i16)
		ValVT = LocVT = MVT::i16;
		}

		// Account for i1/i8/i16 stack passed value hack
		static uint64_t getStackValueStoreSizeHack(const CCValAssign &VA) {
		const MVT ValVT = VA.getValVT();
		return (ValVT == MVT::i8 \|\| ValVT == MVT::i16) ? ValVT.getStoreSize()
		: VA.getLocVT().getStoreSize();
		}

namespace {		namespace {
struct IncomingArgHandler : public CallLowering::IncomingValueHandler {		struct IncomingArgHandler : public CallLowering::IncomingValueHandler {
IncomingArgHandler(MachineIRBuilder &MIRBuilder, MachineRegisterInfo &MRI,		IncomingArgHandler(MachineIRBuilder &MIRBuilder, MachineRegisterInfo &MRI,
CCAssignFn *AssignFn)		CCAssignFn *AssignFn)
: IncomingValueHandler(MIRBuilder, MRI, AssignFn), StackUsed(0) {}		: IncomingValueHandler(MIRBuilder, MRI, AssignFn), StackUsed(0) {}

Register getStackAddress(uint64_t Size, int64_t Offset,		Register getStackAddress(uint64_t Size, int64_t Offset,
MachinePointerInfo &MPO,		MachinePointerInfo &MPO,
ISD::ArgFlagsTy Flags) override {		ISD::ArgFlagsTy Flags) override {
auto &MFI = MIRBuilder.getMF().getFrameInfo();		auto &MFI = MIRBuilder.getMF().getFrameInfo();

// Byval is assumed to be writable memory, but other stack passed arguments		// Byval is assumed to be writable memory, but other stack passed arguments
// are not.		// are not.
const bool IsImmutable = !Flags.isByVal();		const bool IsImmutable = !Flags.isByVal();

int FI = MFI.CreateFixedObject(Size, Offset, IsImmutable);		int FI = MFI.CreateFixedObject(Size, Offset, IsImmutable);
MPO = MachinePointerInfo::getFixedStack(MIRBuilder.getMF(), FI);		MPO = MachinePointerInfo::getFixedStack(MIRBuilder.getMF(), FI);
auto AddrReg = MIRBuilder.buildFrameIndex(LLT::pointer(0, 64), FI);		auto AddrReg = MIRBuilder.buildFrameIndex(LLT::pointer(0, 64), FI);
StackUsed = std::max(StackUsed, Size + Offset);		StackUsed = std::max(StackUsed, Size + Offset);
return AddrReg.getReg(0);		return AddrReg.getReg(0);
}		}

		uint64_t getStackValueStoreSize(const CCValAssign &VA) const override {
		return getStackValueStoreSizeHack(VA);
		}

void assignValueToReg(Register ValVReg, Register PhysReg,		void assignValueToReg(Register ValVReg, Register PhysReg,
CCValAssign &VA) override {		CCValAssign &VA) override {
markPhysRegUsed(PhysReg);		markPhysRegUsed(PhysReg);
IncomingValueHandler::assignValueToReg(ValVReg, PhysReg, VA);		IncomingValueHandler::assignValueToReg(ValVReg, PhysReg, VA);
}		}

void assignValueToAddress(Register ValVReg, Register Addr, uint64_t MemSize,		void assignValueToAddress(Register ValVReg, Register Addr, uint64_t MemSize,
MachinePointerInfo &MPO, CCValAssign &VA) override {		MachinePointerInfo &MPO, CCValAssign &VA) override {
MachineFunction &MF = MIRBuilder.getMF();		MachineFunction &MF = MIRBuilder.getMF();

// The reported memory location may be wider than the value.		// The reported memory location may be wider than the value.
const LLT RegTy = MRI.getType(ValVReg);		const LLT RealRegTy = MRI.getType(ValVReg);
MemSize = std::min(static_cast<uint64_t>(RegTy.getSizeInBytes()), MemSize);		LLT ValTy(VA.getValVT());
		LLT LocTy(VA.getLocVT());

		// Fixup the types for the DAG compatibility hack.
		if (VA.getValVT() == MVT::i8 \|\| VA.getValVT() == MVT::i16)
		std::swap(ValTy, LocTy);

		MemSize = LocTy.getSizeInBytes();

auto MMO = MF.getMachineMemOperand(		auto MMO = MF.getMachineMemOperand(
MPO, MachineMemOperand::MOLoad \| MachineMemOperand::MOInvariant,		MPO, MachineMemOperand::MOLoad \| MachineMemOperand::MOInvariant,
MemSize, inferAlignFromPtrInfo(MF, MPO));		MemSize, inferAlignFromPtrInfo(MF, MPO));
const LLT LocVT = LLT{VA.getLocVT()};

if (RegTy.getScalarSizeInBits() < LocVT.getScalarSizeInBits()) {
auto LocInfo = VA.getLocInfo();
if (LocInfo == CCValAssign::LocInfo::ZExt) {
// We know the parameter is zero-extended. Perform a load into LocVT,
// and use G_ASSERT_ZEXT to communicate that this was zero-extended from
// the parameter type. Move down to the parameter type using G_TRUNC.
MIRBuilder.buildTrunc(
ValVReg, MIRBuilder.buildAssertZExt(
LocVT, MIRBuilder.buildLoad(LocVT, Addr, *MMO),
RegTy.getScalarSizeInBits()));
return;
}

if (LocInfo == CCValAssign::LocInfo::SExt) {
// Same as the ZExt case, but use G_ASSERT_SEXT instead.
MIRBuilder.buildTrunc(
ValVReg, MIRBuilder.buildAssertSExt(
LocVT, MIRBuilder.buildLoad(LocVT, Addr, *MMO),
RegTy.getScalarSizeInBits()));
return;
}
}

		if (RealRegTy.getSizeInBits() == ValTy.getSizeInBits()) {
// No extension information, or no extension necessary. Load into the		// No extension information, or no extension necessary. Load into the
// incoming parameter type directly.		// incoming parameter type directly.
MIRBuilder.buildLoad(ValVReg, Addr, *MMO);		MIRBuilder.buildLoad(ValVReg, Addr, *MMO);
		} else {
		auto Tmp = MIRBuilder.buildLoad(LocTy, Addr, *MMO);
		MIRBuilder.buildTrunc(ValVReg, Tmp);
		}
		}

		bool assignArg(unsigned ValNo, EVT OrigVT, MVT ValVT, MVT LocVT,
		CCValAssign::LocInfo LocInfo,
		const CallLowering::ArgInfo &Info, ISD::ArgFlagsTy Flags,
		CCState &State) override {
		applyStackPassedSmallTypeDAGHack(OrigVT, ValVT, LocVT);
		return AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);
}		}

/// How the physical register gets marked varies between formal		/// How the physical register gets marked varies between formal
/// parameters (it's a basic-block live-in), and a call instruction		/// parameters (it's a basic-block live-in), and a call instruction
/// (it's an implicit-def of the BL).		/// (it's an implicit-def of the BL).
virtual void markPhysRegUsed(MCRegister PhysReg) = 0;		virtual void markPhysRegUsed(MCRegister PhysReg) = 0;

uint64_t StackUsed;		uint64_t StackUsed;
Show All 30 Lines	ReturnedArgCallReturnHandler(MachineIRBuilder &MIRBuilder,
: CallReturnHandler(MIRBuilder, MRI, MIB, AssignFn) {}		: CallReturnHandler(MIRBuilder, MRI, MIB, AssignFn) {}

void markPhysRegUsed(MCRegister PhysReg) override {}		void markPhysRegUsed(MCRegister PhysReg) override {}
};		};

struct OutgoingArgHandler : public CallLowering::OutgoingValueHandler {		struct OutgoingArgHandler : public CallLowering::OutgoingValueHandler {
OutgoingArgHandler(MachineIRBuilder &MIRBuilder, MachineRegisterInfo &MRI,		OutgoingArgHandler(MachineIRBuilder &MIRBuilder, MachineRegisterInfo &MRI,
MachineInstrBuilder MIB, CCAssignFn *AssignFn,		MachineInstrBuilder MIB, CCAssignFn *AssignFn,
CCAssignFn *AssignFnVarArg, bool IsTailCall = false,		CCAssignFn *AssignFnVarArg, bool IsReturn,
int FPDiff = 0)		bool IsTailCall = false, int FPDiff = 0)
: OutgoingValueHandler(MIRBuilder, MRI, AssignFn), MIB(MIB),		: OutgoingValueHandler(MIRBuilder, MRI, AssignFn), MIB(MIB),
AssignFnVarArg(AssignFnVarArg), IsTailCall(IsTailCall), FPDiff(FPDiff),		AssignFnVarArg(AssignFnVarArg), IsReturn(IsReturn),
StackSize(0), SPReg(0),		IsTailCall(IsTailCall), FPDiff(FPDiff), StackSize(0), SPReg(0),
Subtarget(MIRBuilder.getMF().getSubtarget<AArch64Subtarget>()) {}		Subtarget(MIRBuilder.getMF().getSubtarget<AArch64Subtarget>()) {}

Register getStackAddress(uint64_t Size, int64_t Offset,		Register getStackAddress(uint64_t Size, int64_t Offset,
MachinePointerInfo &MPO,		MachinePointerInfo &MPO,
ISD::ArgFlagsTy Flags) override {		ISD::ArgFlagsTy Flags) override {
MachineFunction &MF = MIRBuilder.getMF();		MachineFunction &MF = MIRBuilder.getMF();
LLT p0 = LLT::pointer(0, 64);		LLT p0 = LLT::pointer(0, 64);
LLT s64 = LLT::scalar(64);		LLT s64 = LLT::scalar(64);
Show All 14 Lines	Register getStackAddress(uint64_t Size, int64_t Offset,
auto OffsetReg = MIRBuilder.buildConstant(s64, Offset);		auto OffsetReg = MIRBuilder.buildConstant(s64, Offset);

auto AddrReg = MIRBuilder.buildPtrAdd(p0, SPReg, OffsetReg);		auto AddrReg = MIRBuilder.buildPtrAdd(p0, SPReg, OffsetReg);

MPO = MachinePointerInfo::getStack(MF, Offset);		MPO = MachinePointerInfo::getStack(MF, Offset);
return AddrReg.getReg(0);		return AddrReg.getReg(0);
}		}

		/// We need to fixup the reported store size for certain value types because
		/// we invert the interpretation of ValVT and LocVT in certain cases. This is
		/// for compatability with the DAG call lowering implementation, which we're
		/// currently building on top of.
		uint64_t getStackValueStoreSize(const CCValAssign &VA) const override {
		aemersonUnsubmitted Done Reply Inline Actions This is identical to the other override. Can you factor it out? aemerson: This is identical to the other override. Can you factor it out?
		return getStackValueStoreSizeHack(VA);
		}

void assignValueToReg(Register ValVReg, Register PhysReg,		void assignValueToReg(Register ValVReg, Register PhysReg,
CCValAssign &VA) override {		CCValAssign &VA) override {
MIB.addUse(PhysReg, RegState::Implicit);		MIB.addUse(PhysReg, RegState::Implicit);
Register ExtReg = extendRegister(ValVReg, VA);		Register ExtReg = extendRegister(ValVReg, VA);
MIRBuilder.buildCopy(PhysReg, ExtReg);		MIRBuilder.buildCopy(PhysReg, ExtReg);
}		}

void assignValueToAddress(Register ValVReg, Register Addr, uint64_t Size,		void assignValueToAddress(Register ValVReg, Register Addr, uint64_t Size,
MachinePointerInfo &MPO, CCValAssign &VA) override {		MachinePointerInfo &MPO, CCValAssign &VA) override {
MachineFunction &MF = MIRBuilder.getMF();		MachineFunction &MF = MIRBuilder.getMF();
auto MMO = MF.getMachineMemOperand(MPO, MachineMemOperand::MOStore, Size,		auto MMO = MF.getMachineMemOperand(MPO, MachineMemOperand::MOStore, Size,
inferAlignFromPtrInfo(MF, MPO));		inferAlignFromPtrInfo(MF, MPO));
MIRBuilder.buildStore(ValVReg, Addr, *MMO);		MIRBuilder.buildStore(ValVReg, Addr, *MMO);
}		}

void assignValueToAddress(const CallLowering::ArgInfo &Arg, unsigned RegIndex,		void assignValueToAddress(const CallLowering::ArgInfo &Arg, unsigned RegIndex,
Register Addr, uint64_t Size,		Register Addr, uint64_t MemSize,
MachinePointerInfo &MPO, CCValAssign &VA) override {		MachinePointerInfo &MPO, CCValAssign &VA) override {
unsigned MaxSize = Size * 8;		unsigned MaxSize = MemSize * 8;
// For varargs, we always want to extend them to 8 bytes, in which case		// For varargs, we always want to extend them to 8 bytes, in which case
// we disable setting a max.		// we disable setting a max.
if (!Arg.IsFixed)		if (!Arg.IsFixed)
MaxSize = 0;		MaxSize = 0;

Register ValVReg = VA.getLocInfo() != CCValAssign::LocInfo::FPExt		Register ValVReg = Arg.Regs[RegIndex];
? extendRegister(Arg.Regs[RegIndex], VA, MaxSize)		if (VA.getLocInfo() != CCValAssign::LocInfo::FPExt) {
: Arg.Regs[0];		MVT LocVT = VA.getLocVT();
		MVT ValVT = VA.getValVT();

		if (VA.getValVT() == MVT::i8 \|\| VA.getValVT() == MVT::i16) {
		std::swap(ValVT, LocVT);
		MemSize = VA.getValVT().getStoreSize();
		}

// If we extended we might need to adjust the MMO's Size.		ValVReg = extendRegister(ValVReg, VA, MaxSize);
const LLT RegTy = MRI.getType(ValVReg);		const LLT RegTy = MRI.getType(ValVReg);
if (RegTy.getSizeInBytes() > Size)
Size = RegTy.getSizeInBytes();

assignValueToAddress(ValVReg, Addr, Size, MPO, VA);		if (RegTy.getSizeInBits() < LocVT.getSizeInBits())
		ValVReg = MIRBuilder.buildTrunc(RegTy, ValVReg).getReg(0);
		} else {
		// The store does not cover the full allocated stack slot.
		MemSize = VA.getValVT().getStoreSize();
		}

		assignValueToAddress(ValVReg, Addr, MemSize, MPO, VA);
}		}

bool assignArg(unsigned ValNo, MVT ValVT, MVT LocVT,		bool assignArg(unsigned ValNo, EVT OrigVT, MVT ValVT, MVT LocVT,
CCValAssign::LocInfo LocInfo,		CCValAssign::LocInfo LocInfo,
const CallLowering::ArgInfo &Info,		const CallLowering::ArgInfo &Info, ISD::ArgFlagsTy Flags,
ISD::ArgFlagsTy Flags,
CCState &State) override {		CCState &State) override {
bool Res;
bool IsCalleeWin = Subtarget.isCallingConvWin64(State.getCallingConv());		bool IsCalleeWin = Subtarget.isCallingConvWin64(State.getCallingConv());
bool UseVarArgsCCForFixed = IsCalleeWin && State.isVarArg();		bool UseVarArgsCCForFixed = IsCalleeWin && State.isVarArg();

		if (!State.isVarArg() && !UseVarArgsCCForFixed && !IsReturn)
		applyStackPassedSmallTypeDAGHack(OrigVT, ValVT, LocVT);

		bool Res;
if (Info.IsFixed && !UseVarArgsCCForFixed)		if (Info.IsFixed && !UseVarArgsCCForFixed)
Res = AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);		Res = AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);
else		else
Res = AssignFnVarArg(ValNo, ValVT, LocVT, LocInfo, Flags, State);		Res = AssignFnVarArg(ValNo, ValVT, LocVT, LocInfo, Flags, State);

StackSize = State.getNextStackOffset();		StackSize = State.getNextStackOffset();
return Res;		return Res;
}		}

MachineInstrBuilder MIB;		MachineInstrBuilder MIB;
CCAssignFn *AssignFnVarArg;		CCAssignFn *AssignFnVarArg;

		/// Track if this is used for a return instead of function argument
		/// passing. We apply a hack to i1/i8/i16 stack passed values, but do not use
		/// stack passed returns for them and cannot apply the type adjustment.
		bool IsReturn;
bool IsTailCall;		bool IsTailCall;

/// For tail calls, the byte offset of the call's argument area from the		/// For tail calls, the byte offset of the call's argument area from the
/// callee's. Unused elsewhere.		/// callee's. Unused elsewhere.
int FPDiff;		int FPDiff;
uint64_t StackSize;		uint64_t StackSize;

// Cache the SP register vreg if we need it more than once in this call site.		// Cache the SP register vreg if we need it more than once in this call site.
▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines	for (unsigned i = 0; i < SplitEVTs.size(); ++i) {
if (CurVReg != CurArgInfo.Regs[0]) {		if (CurVReg != CurArgInfo.Regs[0]) {
CurArgInfo.Regs[0] = CurVReg;		CurArgInfo.Regs[0] = CurVReg;
// Reset the arg flags after modifying CurVReg.		// Reset the arg flags after modifying CurVReg.
setArgFlags(CurArgInfo, AttributeList::ReturnIndex, DL, F);		setArgFlags(CurArgInfo, AttributeList::ReturnIndex, DL, F);
}		}
splitToValueTypes(CurArgInfo, SplitArgs, DL, CC);		splitToValueTypes(CurArgInfo, SplitArgs, DL, CC);
}		}

OutgoingArgHandler Handler(MIRBuilder, MRI, MIB, AssignFn, AssignFn);		OutgoingArgHandler Handler(MIRBuilder, MRI, MIB, AssignFn, AssignFn,
		/IsReturn/ true);
Success =		Success =
handleAssignments(MIRBuilder, SplitArgs, Handler, CC, F.isVarArg());		handleAssignments(MIRBuilder, SplitArgs, Handler, CC, F.isVarArg());
}		}

if (SwiftErrorVReg) {		if (SwiftErrorVReg) {
MIB.addUse(AArch64::X21, RegState::Implicit);		MIB.addUse(AArch64::X21, RegState::Implicit);
MIRBuilder.buildCopy(AArch64::X21, SwiftErrorVReg);		MIRBuilder.buildCopy(AArch64::X21, SwiftErrorVReg);
}		}
▲ Show 20 Lines • Show All 487 Lines • ▼ Show 20 Lines	if (!IsSibCall) {
// satisfy the same constraint.		// satisfy the same constraint.
assert(FPDiff % 16 == 0 && "unaligned stack on tail call");		assert(FPDiff % 16 == 0 && "unaligned stack on tail call");
}		}

const auto &Forwards = FuncInfo->getForwardedMustTailRegParms();		const auto &Forwards = FuncInfo->getForwardedMustTailRegParms();

// Do the actual argument marshalling.		// Do the actual argument marshalling.
OutgoingArgHandler Handler(MIRBuilder, MRI, MIB, AssignFnFixed,		OutgoingArgHandler Handler(MIRBuilder, MRI, MIB, AssignFnFixed,
AssignFnVarArg, true, FPDiff);		AssignFnVarArg, /IsReturn/ false,
		/IsTailCall/ true, FPDiff);
if (!handleAssignments(MIRBuilder, OutArgs, Handler, CalleeCC, Info.IsVarArg))		if (!handleAssignments(MIRBuilder, OutArgs, Handler, CalleeCC, Info.IsVarArg))
return false;		return false;

Mask = getMaskForArgs(OutArgs, Info, *TRI, MF);		Mask = getMaskForArgs(OutArgs, Info, *TRI, MF);

if (Info.IsVarArg && Info.IsMustTailCall) {		if (Info.IsVarArg && Info.IsMustTailCall) {
// Now we know what's being passed to the function. Add uses to the call for		// Now we know what's being passed to the function. Add uses to the call for
// the forwarded registers that we aren't passing as parameters. This will		// the forwarded registers that we aren't passing as parameters. This will
▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines	bool AArch64CallLowering::lowerCall(MachineIRBuilder &MIRBuilder,
MIB.add(Info.Callee);		MIB.add(Info.Callee);

// Tell the call which registers are clobbered.		// Tell the call which registers are clobbered.
const uint32_t *Mask;		const uint32_t *Mask;
const auto *TRI = MF.getSubtarget<AArch64Subtarget>().getRegisterInfo();		const auto *TRI = MF.getSubtarget<AArch64Subtarget>().getRegisterInfo();

// Do the actual argument marshalling.		// Do the actual argument marshalling.
OutgoingArgHandler Handler(MIRBuilder, MRI, MIB, AssignFnFixed,		OutgoingArgHandler Handler(MIRBuilder, MRI, MIB, AssignFnFixed,
AssignFnVarArg, false);		AssignFnVarArg, /IsReturn/ false);
if (!handleAssignments(MIRBuilder, OutArgs, Handler, Info.CallConv,		if (!handleAssignments(MIRBuilder, OutArgs, Handler, Info.CallConv,
Info.IsVarArg))		Info.IsVarArg))
return false;		return false;

Mask = getMaskForArgs(OutArgs, Info, *TRI, MF);		Mask = getMaskForArgs(OutArgs, Info, *TRI, MF);

if (MF.getSubtarget<AArch64Subtarget>().hasCustomCallingConv())		if (MF.getSubtarget<AArch64Subtarget>().hasCustomCallingConv())
TRI->UpdateCustomCallPreservedMask(MF, &Mask);		TRI->UpdateCustomCallPreservedMask(MF, &Mask);
▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp

Show First 20 Lines • Show All 73 Lines • ▼ Show 20 Lines	if (TRI->isSGPRReg(MRI, PhysReg)) {
.addReg(ExtReg);		.addReg(ExtReg);
ExtReg = ToSGPR.getReg(0);		ExtReg = ToSGPR.getReg(0);
}		}

MIRBuilder.buildCopy(PhysReg, ExtReg);		MIRBuilder.buildCopy(PhysReg, ExtReg);
MIB.addUse(PhysReg, RegState::Implicit);		MIB.addUse(PhysReg, RegState::Implicit);
}		}

bool assignArg(unsigned ValNo, MVT ValVT, MVT LocVT,		bool assignArg(unsigned ValNo, EVT OrigVT, MVT ValVT, MVT LocVT,
CCValAssign::LocInfo LocInfo,		CCValAssign::LocInfo LocInfo,
const CallLowering::ArgInfo &Info,		const CallLowering::ArgInfo &Info, ISD::ArgFlagsTy Flags,
ISD::ArgFlagsTy Flags,
CCState &State) override {		CCState &State) override {
return AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);		return AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);
}		}
};		};

struct AMDGPUIncomingArgHandler : public CallLowering::IncomingValueHandler {		struct AMDGPUIncomingArgHandler : public CallLowering::IncomingValueHandler {
uint64_t StackUsed = 0;		uint64_t StackUsed = 0;

▲ Show 20 Lines • Show All 981 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMCallLowering.cpp

Show First 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	if (!IsLittle)
std::swap(NewRegs[0], NewRegs[1]);		std::swap(NewRegs[0], NewRegs[1]);

assignValueToReg(NewRegs[0], VA.getLocReg(), VA);		assignValueToReg(NewRegs[0], VA.getLocReg(), VA);
assignValueToReg(NewRegs[1], NextVA.getLocReg(), NextVA);		assignValueToReg(NewRegs[1], NextVA.getLocReg(), NextVA);

return 1;		return 1;
}		}

bool assignArg(unsigned ValNo, MVT ValVT, MVT LocVT,		bool assignArg(unsigned ValNo, EVT OrigVT, MVT ValVT, MVT LocVT,
CCValAssign::LocInfo LocInfo,		CCValAssign::LocInfo LocInfo,
const CallLowering::ArgInfo &Info, ISD::ArgFlagsTy Flags,		const CallLowering::ArgInfo &Info, ISD::ArgFlagsTy Flags,
CCState &State) override {		CCState &State) override {
if (AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State))		if (AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State))
return true;		return true;

StackSize =		StackSize =
std::max(StackSize, static_cast<uint64_t>(State.getNextStackOffset()));		std::max(StackSize, static_cast<uint64_t>(State.getNextStackOffset()));
▲ Show 20 Lines • Show All 367 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86CallLowering.cpp

Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines	void assignValueToAddress(Register ValVReg, Register Addr, uint64_t Size,
Register ExtReg = extendRegister(ValVReg, VA);		Register ExtReg = extendRegister(ValVReg, VA);

auto *MMO = MF.getMachineMemOperand(MPO, MachineMemOperand::MOStore,		auto *MMO = MF.getMachineMemOperand(MPO, MachineMemOperand::MOStore,
VA.getLocVT().getStoreSize(),		VA.getLocVT().getStoreSize(),
inferAlignFromPtrInfo(MF, MPO));		inferAlignFromPtrInfo(MF, MPO));
MIRBuilder.buildStore(ExtReg, Addr, *MMO);		MIRBuilder.buildStore(ExtReg, Addr, *MMO);
}		}

bool assignArg(unsigned ValNo, MVT ValVT, MVT LocVT,		bool assignArg(unsigned ValNo, EVT OrigVT, MVT ValVT, MVT LocVT,
CCValAssign::LocInfo LocInfo,		CCValAssign::LocInfo LocInfo,
const CallLowering::ArgInfo &Info, ISD::ArgFlagsTy Flags,		const CallLowering::ArgInfo &Info, ISD::ArgFlagsTy Flags,
CCState &State) override {		CCState &State) override {
bool Res = AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);		bool Res = AssignFn(ValNo, ValVT, LocVT, LocInfo, Flags, State);
StackSize = State.getNextStackOffset();		StackSize = State.getNextStackOffset();

static const MCPhysReg XMMArgRegs[] = {X86::XMM0, X86::XMM1, X86::XMM2,		static const MCPhysReg XMMArgRegs[] = {X86::XMM0, X86::XMM1, X86::XMM2,
X86::XMM3, X86::XMM4, X86::XMM5,		X86::XMM3, X86::XMM4, X86::XMM5,
▲ Show 20 Lines • Show All 304 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/GlobalISel/arm64-callingconv-ios.ll

Show All 14 Lines	define void @test_varargs() {
; CHECK: [[C4:%[0-9]+]]:_(s16) = G_CONSTANT i16 1		; CHECK: [[C4:%[0-9]+]]:_(s16) = G_CONSTANT i16 1
; CHECK: [[C5:%[0-9]+]]:_(s32) = G_CONSTANT i32 4		; CHECK: [[C5:%[0-9]+]]:_(s32) = G_CONSTANT i32 4
; CHECK: [[C6:%[0-9]+]]:_(s32) = G_FCONSTANT float 1.000000e+00		; CHECK: [[C6:%[0-9]+]]:_(s32) = G_FCONSTANT float 1.000000e+00
; CHECK: [[C7:%[0-9]+]]:_(s64) = G_FCONSTANT double 2.000000e+00		; CHECK: [[C7:%[0-9]+]]:_(s64) = G_FCONSTANT double 2.000000e+00
; CHECK: ADJCALLSTACKDOWN 40, 0, implicit-def $sp, implicit $sp		; CHECK: ADJCALLSTACKDOWN 40, 0, implicit-def $sp, implicit $sp
; CHECK: $w0 = COPY [[C]](s32)		; CHECK: $w0 = COPY [[C]](s32)
; CHECK: $d0 = COPY [[C1]](s64)		; CHECK: $d0 = COPY [[C1]](s64)
; CHECK: $x1 = COPY [[C2]](s64)		; CHECK: $x1 = COPY [[C2]](s64)
		; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[C3]](s8)
; CHECK: [[COPY:%[0-9]+]]:_(p0) = COPY $sp		; CHECK: [[COPY:%[0-9]+]]:_(p0) = COPY $sp
; CHECK: [[C8:%[0-9]+]]:_(s64) = G_CONSTANT i64 0		; CHECK: [[C8:%[0-9]+]]:_(s64) = G_CONSTANT i64 0
; CHECK: [[PTR_ADD:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C8]](s64)		; CHECK: [[PTR_ADD:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C8]](s64)
; CHECK: [[ANYEXT:%[0-9]+]]:_(s64) = G_ANYEXT [[C3]](s8)		; CHECK: [[ANYEXT1:%[0-9]+]]:_(s64) = G_ANYEXT [[ANYEXT]](s32)
; CHECK: G_STORE [[ANYEXT]](s64), [[PTR_ADD]](p0) :: (store 8 into stack, align 1)		; CHECK: G_STORE [[ANYEXT1]](s64), [[PTR_ADD]](p0) :: (store 8 into stack, align 1)
		; CHECK: [[ANYEXT2:%[0-9]+]]:_(s32) = G_ANYEXT [[C4]](s16)
; CHECK: [[C9:%[0-9]+]]:_(s64) = G_CONSTANT i64 8		; CHECK: [[C9:%[0-9]+]]:_(s64) = G_CONSTANT i64 8
; CHECK: [[PTR_ADD1:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C9]](s64)		; CHECK: [[PTR_ADD1:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C9]](s64)
; CHECK: [[ANYEXT1:%[0-9]+]]:_(s64) = G_ANYEXT [[C4]](s16)		; CHECK: [[ANYEXT3:%[0-9]+]]:_(s64) = G_ANYEXT [[ANYEXT2]](s32)
; CHECK: G_STORE [[ANYEXT1]](s64), [[PTR_ADD1]](p0) :: (store 8 into stack + 8, align 1)		; CHECK: G_STORE [[ANYEXT3]](s64), [[PTR_ADD1]](p0) :: (store 8 into stack + 8, align 1)
; CHECK: [[C10:%[0-9]+]]:_(s64) = G_CONSTANT i64 16		; CHECK: [[C10:%[0-9]+]]:_(s64) = G_CONSTANT i64 16
; CHECK: [[PTR_ADD2:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C10]](s64)		; CHECK: [[PTR_ADD2:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C10]](s64)
; CHECK: [[ANYEXT2:%[0-9]+]]:_(s64) = G_ANYEXT [[C5]](s32)		; CHECK: [[ANYEXT4:%[0-9]+]]:_(s64) = G_ANYEXT [[C5]](s32)
; CHECK: G_STORE [[ANYEXT2]](s64), [[PTR_ADD2]](p0) :: (store 8 into stack + 16, align 1)		; CHECK: G_STORE [[ANYEXT4]](s64), [[PTR_ADD2]](p0) :: (store 8 into stack + 16, align 1)
; CHECK: [[C11:%[0-9]+]]:_(s64) = G_CONSTANT i64 24		; CHECK: [[C11:%[0-9]+]]:_(s64) = G_CONSTANT i64 24
; CHECK: [[PTR_ADD3:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C11]](s64)		; CHECK: [[PTR_ADD3:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C11]](s64)
; CHECK: G_STORE [[C6]](s32), [[PTR_ADD3]](p0) :: (store 4 into stack + 24, align 1)		; CHECK: G_STORE [[C6]](s32), [[PTR_ADD3]](p0) :: (store 4 into stack + 24, align 1)
; CHECK: [[C12:%[0-9]+]]:_(s64) = G_CONSTANT i64 32		; CHECK: [[C12:%[0-9]+]]:_(s64) = G_CONSTANT i64 32
; CHECK: [[PTR_ADD4:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C12]](s64)		; CHECK: [[PTR_ADD4:%[0-9]+]]:_(p0) = G_PTR_ADD [[COPY]], [[C12]](s64)
; CHECK: G_STORE [[C7]](s64), [[PTR_ADD4]](p0) :: (store 8 into stack + 32, align 1)		; CHECK: G_STORE [[C7]](s64), [[PTR_ADD4]](p0) :: (store 8 into stack + 32, align 1)
; CHECK: BL @varargs, csr_darwin_aarch64_aapcs, implicit-def $lr, implicit $sp, implicit $w0, implicit $d0, implicit $x1		; CHECK: BL @varargs, csr_darwin_aarch64_aapcs, implicit-def $lr, implicit $sp, implicit $w0, implicit $d0, implicit $x1
; CHECK: ADJCALLSTACKUP 40, 0, implicit-def $sp, implicit $sp		; CHECK: ADJCALLSTACKUP 40, 0, implicit-def $sp, implicit $sp
▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/GlobalISel/arm64-callingconv.ll

Show First 20 Lines • Show All 218 Lines • ▼ Show 20 Lines	define i32 @i8i16caller() nounwind readnone {
; CHECK: $w0 = COPY [[TRUNC]](s32)		; CHECK: $w0 = COPY [[TRUNC]](s32)
; CHECK: RET_ReallyLR implicit $w0		; CHECK: RET_ReallyLR implicit $w0
entry:		entry:
%call = tail call i64 @i8i16callee(i64 0, i64 1, i64 2, i8 signext 3, i16 signext 4, i64 5, i64 6, i64 7, i8 97, i16 98, i8 99, i8 100)		%call = tail call i64 @i8i16callee(i64 0, i64 1, i64 2, i8 signext 3, i16 signext 4, i64 5, i64 6, i64 7, i8 97, i16 98, i8 99, i8 100)
%conv = trunc i64 %call to i32		%conv = trunc i64 %call to i32
ret i32 %conv		ret i32 %conv
}		}

		define void @arg_v2i64(<2 x i64> %arg) {
		; CHECK-LABEL: name: arg_v2i64
		; CHECK: bb.1 (%ir-block.0):
		; CHECK: liveins: $q0
		; CHECK: [[COPY:%[0-9]+]]:_(<2 x s64>) = COPY $q0
		; CHECK: [[DEF:%[0-9]+]]:_(p0) = G_IMPLICIT_DEF
		; CHECK: G_STORE [[COPY]](<2 x s64>), [[DEF]](p0) :: (store 16 into `<2 x i64>* undef`)
		; CHECK: RET_ReallyLR
		store <2 x i64> %arg, <2 x i64>* undef
		ret void
		}

		define void @arg_v8i64(<8 x i64> %arg) {
		; CHECK-LABEL: name: arg_v8i64
		; CHECK: bb.1 (%ir-block.0):
		; CHECK: liveins: $q0, $q1, $q2, $q3
		; CHECK: [[COPY:%[0-9]+]]:_(<2 x s64>) = COPY $q0
		; CHECK: [[COPY1:%[0-9]+]]:_(<2 x s64>) = COPY $q1
		; CHECK: [[COPY2:%[0-9]+]]:_(<2 x s64>) = COPY $q2
		; CHECK: [[COPY3:%[0-9]+]]:_(<2 x s64>) = COPY $q3
		; CHECK: [[CONCAT_VECTORS:%[0-9]+]]:_(<8 x s64>) = G_CONCAT_VECTORS [[COPY]](<2 x s64>), [[COPY1]](<2 x s64>), [[COPY2]](<2 x s64>), [[COPY3]](<2 x s64>)
		; CHECK: [[DEF:%[0-9]+]]:_(p0) = G_IMPLICIT_DEF
		; CHECK: G_STORE [[CONCAT_VECTORS]](<8 x s64>), [[DEF]](p0) :: (store 64 into `<8 x i64>* undef`)
		; CHECK: RET_ReallyLR
		store <8 x i64> %arg, <8 x i64>* undef
		ret void
		}

		define void @arg_v4f32(<4 x float> %arg) {
		; CHECK-LABEL: name: arg_v4f32
		; CHECK: bb.1 (%ir-block.0):
		; CHECK: liveins: $q0
		; CHECK: [[COPY:%[0-9]+]]:_(<2 x s64>) = COPY $q0
		; CHECK: [[BITCAST:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY]](<2 x s64>)
		; CHECK: [[DEF:%[0-9]+]]:_(p0) = G_IMPLICIT_DEF
		; CHECK: G_STORE [[BITCAST]](<4 x s32>), [[DEF]](p0) :: (store 16 into `<4 x float>* undef`)
		; CHECK: RET_ReallyLR
		store <4 x float> %arg, <4 x float>* undef
		ret void
		}

		define void @ret_arg_v16f32(<16 x float> %arg) {
		; CHECK-LABEL: name: ret_arg_v16f32
		; CHECK: bb.1 (%ir-block.0):
		; CHECK: liveins: $q0, $q1, $q2, $q3
		; CHECK: [[COPY:%[0-9]+]]:_(<2 x s64>) = COPY $q0
		; CHECK: [[COPY1:%[0-9]+]]:_(<2 x s64>) = COPY $q1
		; CHECK: [[COPY2:%[0-9]+]]:_(<2 x s64>) = COPY $q2
		; CHECK: [[COPY3:%[0-9]+]]:_(<2 x s64>) = COPY $q3
		; CHECK: [[BITCAST:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY]](<2 x s64>)
		; CHECK: [[BITCAST1:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY1]](<2 x s64>)
		; CHECK: [[BITCAST2:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY2]](<2 x s64>)
		; CHECK: [[BITCAST3:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY3]](<2 x s64>)
		; CHECK: [[CONCAT_VECTORS:%[0-9]+]]:_(<16 x s32>) = G_CONCAT_VECTORS [[BITCAST]](<4 x s32>), [[BITCAST1]](<4 x s32>), [[BITCAST2]](<4 x s32>), [[BITCAST3]](<4 x s32>)
		; CHECK: [[DEF:%[0-9]+]]:_(p0) = G_IMPLICIT_DEF
		; CHECK: G_STORE [[CONCAT_VECTORS]](<16 x s32>), [[DEF]](p0) :: (store 64 into `<16 x float>* undef`)
		; CHECK: RET_ReallyLR
		store <16 x float> %arg, <16 x float>* undef
		ret void
		}

llvm/test/CodeGen/AArch64/GlobalISel/arm64-irtranslator.ll

Show First 20 Lines • Show All 2,347 Lines • ▼ Show 20 Lines	define void @test_llvm.aarch64.neon.ld3.v4i32.p0i32(i32* %ptr) {
ret void		ret void
}		}

declare { <4 x i32>, <4 x i32>, <4 x i32> } @llvm.aarch64.neon.ld3.v4i32.p0i32(i32*) #3		declare { <4 x i32>, <4 x i32>, <4 x i32> } @llvm.aarch64.neon.ld3.v4i32.p0i32(i32*) #3

define void @test_i1_arg_zext(void (i1)* %f) {		define void @test_i1_arg_zext(void (i1)* %f) {
; CHECK-LABEL: name: test_i1_arg_zext		; CHECK-LABEL: name: test_i1_arg_zext
; CHECK: [[I1:%[0-9]+]]:_(s1) = G_CONSTANT i1 true		; CHECK: [[I1:%[0-9]+]]:_(s1) = G_CONSTANT i1 true
; CHECK: [[ZEXT:%[0-9]+]]:_(s32) = G_ZEXT [[I1]](s1)		; CHECK: [[ZEXT0:%[0-9]+]]:_(s8) = G_ZEXT [[I1]](s1)
; CHECK: $w0 = COPY [[ZEXT]](s32)		; CHECK: [[ZEXT1:%[0-9]+]]:_(s32) = G_ZEXT [[ZEXT0]](s8)
		; CHECK: $w0 = COPY [[ZEXT1]](s32)
call void %f(i1 true)		call void %f(i1 true)
ret void		ret void
}		}

declare i8* @llvm.stacksave()		declare i8* @llvm.stacksave()
declare void @llvm.stackrestore(i8*)		declare void @llvm.stackrestore(i8*)
define void @test_stacksaverestore() {		define void @test_stacksaverestore() {
; CHECK-LABEL: name: test_stacksaverestore		; CHECK-LABEL: name: test_stacksaverestore
▲ Show 20 Lines • Show All 96 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/GlobalISel/call-translator.ll

Show First 20 Lines • Show All 247 Lines • ▼ Show 20 Lines	define void @test_call_stack() {
ret void		ret void
}		}

; CHECK-LABEL: name: test_mem_i1		; CHECK-LABEL: name: test_mem_i1
; CHECK: fixedStack:		; CHECK: fixedStack:
; CHECK-NEXT: - { id: [[SLOT:[0-9]+]], type: default, offset: 0, size: 1, alignment: 16, stack-id: default,		; CHECK-NEXT: - { id: [[SLOT:[0-9]+]], type: default, offset: 0, size: 1, alignment: 16, stack-id: default,
; CHECK-NEXT: isImmutable: true,		; CHECK-NEXT: isImmutable: true,
; CHECK: [[ADDR:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[SLOT]]		; CHECK: [[ADDR:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[SLOT]]
; CHECK: {{%[0-9]+}}:_(s1) = G_LOAD [[ADDR]](p0) :: (invariant load 1 from %fixed-stack.[[SLOT]], align 16)		; CHECK: [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[ADDR]](p0) :: (invariant load 1 from %fixed-stack.[[SLOT]], align 16)
		; CHECK-NEXT: {{%[0-9]+}}:_(s1) = G_TRUNC [[LOAD]]
define void @test_mem_i1([8 x i64], i1 %in) {		define void @test_mem_i1([8 x i64], i1 %in) {
ret void		ret void
}		}

; CHECK-LABEL: name: test_128bit_struct		; CHECK-LABEL: name: test_128bit_struct
; CHECK: $x0 = COPY		; CHECK: $x0 = COPY
; CHECK: $x1 = COPY		; CHECK: $x1 = COPY
; CHECK: $x2 = COPY		; CHECK: $x2 = COPY
▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/GlobalISel/irtranslator-reductions.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: llc -O0 -mtriple=aarch64-apple-ios -global-isel -disable-expand-reductions -stop-after=irtranslator %s -o - \| FileCheck %s			; RUN: llc -O0 -mtriple=aarch64-apple-ios -global-isel -disable-expand-reductions -stop-after=irtranslator %s -o - \| FileCheck %s

	declare float @llvm.vector.reduce.fadd.v4f32(float, <4 x float>)			declare float @llvm.vector.reduce.fadd.v4f32(float, <4 x float>)
	declare double @llvm.vector.reduce.fmul.v4f64(double, <4 x double>)			declare double @llvm.vector.reduce.fmul.v4f64(double, <4 x double>)

	define float @fadd_seq(float %start, <4 x float> %vec) {			define float @fadd_seq(float %start, <4 x float> %vec) {
	; CHECK-LABEL: name: fadd_seq			; CHECK-LABEL: name: fadd_seq
	; CHECK: bb.1 (%ir-block.0):			; CHECK: bb.1 (%ir-block.0):
	; CHECK: liveins: $q1, $s0			; CHECK: liveins: $q1, $s0
	; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $s0			; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $s0
	; CHECK: [[COPY1:%[0-9]+]]:_(<4 x s32>) = COPY $q1			; CHECK: [[COPY1:%[0-9]+]]:_(<2 x s64>) = COPY $q1
	; CHECK: [[VECREDUCE_SEQ_FADD:%[0-9]+]]:_(s32) = G_VECREDUCE_SEQ_FADD [[COPY]](s32), [[COPY1]](<4 x s32>)			; CHECK: [[BITCAST:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY1]](<2 x s64>)
				; CHECK: [[VECREDUCE_SEQ_FADD:%[0-9]+]]:_(s32) = G_VECREDUCE_SEQ_FADD [[COPY]](s32), [[BITCAST]](<4 x s32>)
	; CHECK: $s0 = COPY [[VECREDUCE_SEQ_FADD]](s32)			; CHECK: $s0 = COPY [[VECREDUCE_SEQ_FADD]](s32)
				aemersonUnsubmitted Not Done Reply Inline Actions Why is this changing? aemerson: Why is this changing?
				arsenmAuthorUnsubmitted Done Reply Inline Actions According to the tablegen calling convention definition, <4 x s32> is supposed to be bitcasted to <2 x s64>. This was silently ignoring this before and directly assigning the physreg to the result type arsenm: According to the tablegen calling convention definition, <4 x s32> is supposed to be bitcasted…
				aemersonUnsubmitted Not Done Reply Inline Actions Ah right, this is <4 x f32> not <4 x i32>. aemerson: Ah right, this is <4 x f32> not <4 x i32>.
	; CHECK: RET_ReallyLR implicit $s0			; CHECK: RET_ReallyLR implicit $s0
	%res = call float @llvm.vector.reduce.fadd.v4f32(float %start, <4 x float> %vec)			%res = call float @llvm.vector.reduce.fadd.v4f32(float %start, <4 x float> %vec)
	ret float %res			ret float %res
	}			}

	define float @fadd_fast(float %start, <4 x float> %vec) {			define float @fadd_fast(float %start, <4 x float> %vec) {
	; CHECK-LABEL: name: fadd_fast			; CHECK-LABEL: name: fadd_fast
	; CHECK: bb.1 (%ir-block.0):			; CHECK: bb.1 (%ir-block.0):
	; CHECK: liveins: $q1, $s0			; CHECK: liveins: $q1, $s0
	; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $s0			; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $s0
	; CHECK: [[COPY1:%[0-9]+]]:_(<4 x s32>) = COPY $q1			; CHECK: [[COPY1:%[0-9]+]]:_(<2 x s64>) = COPY $q1
	; CHECK: [[VECREDUCE_FADD:%[0-9]+]]:_(s32) = reassoc G_VECREDUCE_FADD [[COPY1]](<4 x s32>)			; CHECK: [[BITCAST:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY1]](<2 x s64>)
				; CHECK: [[VECREDUCE_FADD:%[0-9]+]]:_(s32) = reassoc G_VECREDUCE_FADD [[BITCAST]](<4 x s32>)
	; CHECK: [[FADD:%[0-9]+]]:_(s32) = reassoc G_FADD [[COPY]], [[VECREDUCE_FADD]]			; CHECK: [[FADD:%[0-9]+]]:_(s32) = reassoc G_FADD [[COPY]], [[VECREDUCE_FADD]]
	; CHECK: $s0 = COPY [[FADD]](s32)			; CHECK: $s0 = COPY [[FADD]](s32)
	; CHECK: RET_ReallyLR implicit $s0			; CHECK: RET_ReallyLR implicit $s0
	%res = call reassoc float @llvm.vector.reduce.fadd.v4f32(float %start, <4 x float> %vec)			%res = call reassoc float @llvm.vector.reduce.fadd.v4f32(float %start, <4 x float> %vec)
	ret float %res			ret float %res
	}			}

	define double @fmul_seq(double %start, <4 x double> %vec) {			define double @fmul_seq(double %start, <4 x double> %vec) {
	Show All 29 Lines

	declare float @llvm.vector.reduce.fmax.v4f32(<4 x float>)			declare float @llvm.vector.reduce.fmax.v4f32(<4 x float>)
	declare float @llvm.vector.reduce.fmin.v4f32(<4 x float>)			declare float @llvm.vector.reduce.fmin.v4f32(<4 x float>)

	define float @fmax(<4 x float> %vec) {			define float @fmax(<4 x float> %vec) {
	; CHECK-LABEL: name: fmax			; CHECK-LABEL: name: fmax
	; CHECK: bb.1 (%ir-block.0):			; CHECK: bb.1 (%ir-block.0):
	; CHECK: liveins: $q0			; CHECK: liveins: $q0
	; CHECK: [[COPY:%[0-9]+]]:_(<4 x s32>) = COPY $q0			; CHECK: [[COPY:%[0-9]+]]:_(<2 x s64>) = COPY $q0
	; CHECK: [[VECREDUCE_FMAX:%[0-9]+]]:_(s32) = G_VECREDUCE_FMAX [[COPY]](<4 x s32>)			; CHECK: [[BITCAST:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY]](<2 x s64>)
				; CHECK: [[VECREDUCE_FMAX:%[0-9]+]]:_(s32) = G_VECREDUCE_FMAX [[BITCAST]](<4 x s32>)
	; CHECK: $s0 = COPY [[VECREDUCE_FMAX]](s32)			; CHECK: $s0 = COPY [[VECREDUCE_FMAX]](s32)
	; CHECK: RET_ReallyLR implicit $s0			; CHECK: RET_ReallyLR implicit $s0
	%res = call float @llvm.vector.reduce.fmax.v4f32(<4 x float> %vec)			%res = call float @llvm.vector.reduce.fmax.v4f32(<4 x float> %vec)
	ret float %res			ret float %res
	}			}

	define float @fmin(<4 x float> %vec) {			define float @fmin(<4 x float> %vec) {
	; CHECK-LABEL: name: fmin			; CHECK-LABEL: name: fmin
	; CHECK: bb.1 (%ir-block.0):			; CHECK: bb.1 (%ir-block.0):
	; CHECK: liveins: $q0			; CHECK: liveins: $q0
	; CHECK: [[COPY:%[0-9]+]]:_(<4 x s32>) = COPY $q0			; CHECK: [[COPY:%[0-9]+]]:_(<2 x s64>) = COPY $q0
	; CHECK: [[VECREDUCE_FMIN:%[0-9]+]]:_(s32) = G_VECREDUCE_FMIN [[COPY]](<4 x s32>)			; CHECK: [[BITCAST:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY]](<2 x s64>)
				; CHECK: [[VECREDUCE_FMIN:%[0-9]+]]:_(s32) = G_VECREDUCE_FMIN [[BITCAST]](<4 x s32>)
	; CHECK: $s0 = COPY [[VECREDUCE_FMIN]](s32)			; CHECK: $s0 = COPY [[VECREDUCE_FMIN]](s32)
	; CHECK: RET_ReallyLR implicit $s0			; CHECK: RET_ReallyLR implicit $s0
	%res = call float @llvm.vector.reduce.fmin.v4f32(<4 x float> %vec)			%res = call float @llvm.vector.reduce.fmin.v4f32(<4 x float> %vec)
	ret float %res			ret float %res
	}			}

	define float @fmin_nnan(<4 x float> %vec) {			define float @fmin_nnan(<4 x float> %vec) {
	; CHECK-LABEL: name: fmin_nnan			; CHECK-LABEL: name: fmin_nnan
	; CHECK: bb.1 (%ir-block.0):			; CHECK: bb.1 (%ir-block.0):
	; CHECK: liveins: $q0			; CHECK: liveins: $q0
	; CHECK: [[COPY:%[0-9]+]]:_(<4 x s32>) = COPY $q0			; CHECK: [[COPY:%[0-9]+]]:_(<2 x s64>) = COPY $q0
	; CHECK: [[VECREDUCE_FMIN:%[0-9]+]]:_(s32) = nnan G_VECREDUCE_FMIN [[COPY]](<4 x s32>)			; CHECK: [[BITCAST:%[0-9]+]]:_(<4 x s32>) = G_BITCAST [[COPY]](<2 x s64>)
				; CHECK: [[VECREDUCE_FMIN:%[0-9]+]]:_(s32) = nnan G_VECREDUCE_FMIN [[BITCAST]](<4 x s32>)
	; CHECK: $s0 = COPY [[VECREDUCE_FMIN]](s32)			; CHECK: $s0 = COPY [[VECREDUCE_FMIN]](s32)
	; CHECK: RET_ReallyLR implicit $s0			; CHECK: RET_ReallyLR implicit $s0
	%res = call nnan float @llvm.vector.reduce.fmin.v4f32(<4 x float> %vec)			%res = call nnan float @llvm.vector.reduce.fmin.v4f32(<4 x float> %vec)
	ret float %res			ret float %res
	}			}

	declare i32 @llvm.vector.reduce.add.v4i32(<4 x i32>)			declare i32 @llvm.vector.reduce.add.v4i32(<4 x i32>)

	▲ Show 20 Lines • Show All 120 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/andn2.ll

Show First 20 Lines • Show All 423 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%zext = zext i16 %and to i32		%zext = zext i16 %and to i32
%cast.zext = bitcast i32 %zext to float		%cast.zext = bitcast i32 %zext to float
ret float %cast.zext		ret float %cast.zext
}		}

define amdgpu_ps i32 @s_andn2_v2i16(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {		define amdgpu_ps i32 @s_andn2_v2i16(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {
; GFX6-LABEL: s_andn2_v2i16:		; GFX6-LABEL: s_andn2_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s0, s3, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
; GFX6-NEXT: s_and_b32 s0, s2, s0		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_and_b32 s1, s4, s1
		; GFX6-NEXT: s_or_b32 s1, s2, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_and_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_andn2_v2i16:		; GFX9-LABEL: s_andn2_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_andn2_b32 s0, s2, s3		; GFX9-NEXT: s_andn2_b32 s0, s2, s3
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_andn2_v2i16:		; GFX10-LABEL: s_andn2_v2i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_andn2_b32 s0, s2, s3		; GFX10-NEXT: s_andn2_b32 s0, s2, s3
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>		%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>
%and = and <2 x i16> %src0, %not.src1		%and = and <2 x i16> %src0, %not.src1
%cast = bitcast <2 x i16> %and to i32		%cast = bitcast <2 x i16> %and to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps i32 @s_andn2_v2i16_commute(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {		define amdgpu_ps i32 @s_andn2_v2i16_commute(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {
; GFX6-LABEL: s_andn2_v2i16_commute:		; GFX6-LABEL: s_andn2_v2i16_commute:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s0, s3, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
; GFX6-NEXT: s_and_b32 s0, s0, s2		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_and_b32 s1, s4, s1
		; GFX6-NEXT: s_or_b32 s1, s2, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_and_b32 s0, s1, s0
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_andn2_v2i16_commute:		; GFX9-LABEL: s_andn2_v2i16_commute:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_andn2_b32 s0, s2, s3		; GFX9-NEXT: s_andn2_b32 s0, s2, s3
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_andn2_v2i16_commute:		; GFX10-LABEL: s_andn2_v2i16_commute:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_andn2_b32 s0, s2, s3		; GFX10-NEXT: s_andn2_b32 s0, s2, s3
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>		%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>
%and = and <2 x i16> %not.src1, %src0		%and = and <2 x i16> %not.src1, %src0
%cast = bitcast <2 x i16> %and to i32		%cast = bitcast <2 x i16> %and to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps { i32, i32 } @s_andn2_v2i16_multi_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {		define amdgpu_ps { i32, i32 } @s_andn2_v2i16_multi_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {
; GFX6-LABEL: s_andn2_v2i16_multi_use:		; GFX6-LABEL: s_andn2_v2i16_multi_use:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s1, s3, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
; GFX6-NEXT: s_and_b32 s0, s2, s1		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_and_b32 s1, s4, s1
		; GFX6-NEXT: s_or_b32 s1, s2, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_and_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_andn2_v2i16_multi_use:		; GFX9-LABEL: s_andn2_v2i16_multi_use:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_xor_b32 s1, s3, -1		; GFX9-NEXT: s_xor_b32 s1, s3, -1
; GFX9-NEXT: s_andn2_b32 s0, s2, s3		; GFX9-NEXT: s_andn2_b32 s0, s2, s3
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
Show All 10 Lines	; GFX10-NEXT: ; return to shader part epilog
%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0		%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0
%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1		%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1
ret { i32, i32 } %insert.1		ret { i32, i32 } %insert.1
}		}

define amdgpu_ps { i32, i32 } @s_andn2_v2i16_multi_foldable_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1, <2 x i16> inreg %src2) {		define amdgpu_ps { i32, i32 } @s_andn2_v2i16_multi_foldable_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1, <2 x i16> inreg %src2) {
; GFX6-LABEL: s_andn2_v2i16_multi_foldable_use:		; GFX6-LABEL: s_andn2_v2i16_multi_foldable_use:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s1, s4, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
; GFX6-NEXT: s_and_b32 s0, s2, s1		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
; GFX6-NEXT: s_and_b32 s1, s3, s1		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_and_b32 s3, s4, s1
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_or_b32 s2, s2, s3
		; GFX6-NEXT: s_lshl_b32 s3, s7, 16
		; GFX6-NEXT: s_and_b32 s1, s6, s1
		; GFX6-NEXT: s_or_b32 s1, s3, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_and_b32 s0, s0, s1
		; GFX6-NEXT: s_and_b32 s1, s2, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_andn2_v2i16_multi_foldable_use:		; GFX9-LABEL: s_andn2_v2i16_multi_foldable_use:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_andn2_b32 s0, s2, s4		; GFX9-NEXT: s_andn2_b32 s0, s2, s4
; GFX9-NEXT: s_andn2_b32 s1, s3, s4		; GFX9-NEXT: s_andn2_b32 s1, s3, s4
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
Show All 9 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast.0 = bitcast <2 x i16> %and0 to i32		%cast.0 = bitcast <2 x i16> %and0 to i32
%cast.1 = bitcast <2 x i16> %and1 to i32		%cast.1 = bitcast <2 x i16> %and1 to i32
%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0		%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0
%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1		%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1
ret { i32, i32 } %insert.1		ret { i32, i32 } %insert.1
}		}

define <2 x i16> @v_andn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {		define <2 x i16> @v_andn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {
; GCN-LABEL: v_andn2_v2i16:		; GFX6-LABEL: v_andn2_v2i16:
; GCN: ; %bb.0:		; GFX6: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX6-NEXT: v_mov_b32_e32 v4, 0xffff
; GCN-NEXT: v_and_b32_e32 v0, v0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GCN-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: v_and_b32_e32 v0, v0, v4
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
		; GFX6-NEXT: v_and_b32_e32 v2, v2, v4
		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1
		; GFX6-NEXT: v_and_b32_e32 v0, v0, v1
		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
		; GFX6-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: v_andn2_v2i16:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1
		; GFX9-NEXT: v_and_b32_e32 v0, v0, v1
		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_andn2_v2i16:		; GFX10-LABEL: v_andn2_v2i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX10-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX10-NEXT: v_and_b32_e32 v0, v0, v1		; GFX10-NEXT: v_and_b32_e32 v0, v0, v1
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 278 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ashr.ll

Show First 20 Lines • Show All 717 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_ashr_v2i16(<2 x i16> %value, <2 x i16> %amount) {		define <2 x i16> @v_ashr_v2i16(<2 x i16> %value, <2 x i16> %amount) {
; GFX6-LABEL: v_ashr_v2i16:		; GFX6-LABEL: v_ashr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v0, v1, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, v2, v0
; GFX6-NEXT: v_bfe_i32 v1, v2, 0, 16		; GFX6-NEXT: v_and_b32_e32 v2, s4, v3
; GFX6-NEXT: v_ashrrev_i32_e32 v1, v3, v1		; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, v2, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_ashr_v2i16:		; GFX8-LABEL: v_ashr_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_ashrrev_i16_e32 v2, v1, v0		; GFX8-NEXT: v_ashrrev_i16_e32 v2, v1, v0
; GFX8-NEXT: v_ashrrev_i16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_ashrrev_i16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_or_b32_e32 v0, v2, v0		; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
Show All 14 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = ashr <2 x i16> %value, %amount		%result = ashr <2 x i16> %value, %amount
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <2 x i16> @v_ashr_v2i16_15(<2 x i16> %value) {		define <2 x i16> @v_ashr_v2i16_15(<2 x i16> %value) {
; GFX6-LABEL: v_ashr_v2i16_15:		; GFX6-LABEL: v_ashr_v2i16_15:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v1, 15, v1		; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_ashrrev_i32_e32 v0, 15, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, 15, v0
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, 15, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_ashr_v2i16_15:		; GFX8-LABEL: v_ashr_v2i16_15:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v2, 15		; GFX8-NEXT: v_mov_b32_e32 v2, 15
; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v0		; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v0
; GFX8-NEXT: v_ashrrev_i16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX8-NEXT: v_ashrrev_i16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
Show All 15 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = ashr <2 x i16> %value, <i16 15, i16 15>		%result = ashr <2 x i16> %value, <i16 15, i16 15>
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps i32 @s_ashr_v2i16(<2 x i16> inreg %value, <2 x i16> inreg %amount) {		define amdgpu_ps i32 @s_ashr_v2i16(<2 x i16> inreg %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: s_ashr_v2i16:		; GFX6-LABEL: s_ashr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: s_lshr_b32 s2, s0, 16		; GFX6-NEXT: s_and_b32 s2, s2, s4
; GFX6-NEXT: s_lshr_b32 s3, s1, 16
; GFX6-NEXT: s_and_b32 s1, s1, s4
; GFX6-NEXT: s_sext_i32_i16 s0, s0		; GFX6-NEXT: s_sext_i32_i16 s0, s0
; GFX6-NEXT: s_ashr_i32 s0, s0, s1		; GFX6-NEXT: s_ashr_i32 s0, s0, s2
; GFX6-NEXT: s_sext_i32_i16 s1, s2		; GFX6-NEXT: s_and_b32 s2, s3, s4
; GFX6-NEXT: s_ashr_i32 s1, s1, s3		; GFX6-NEXT: s_sext_i32_i16 s1, s1
		; GFX6-NEXT: s_ashr_i32 s1, s1, s2
; GFX6-NEXT: s_and_b32 s1, s1, s4		; GFX6-NEXT: s_and_b32 s1, s1, s4
; GFX6-NEXT: s_and_b32 s0, s0, s4		; GFX6-NEXT: s_and_b32 s0, s0, s4
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_ashr_v2i16:		; GFX8-LABEL: s_ashr_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
Show All 35 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @ashr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {		define amdgpu_ps float @ashr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {
; GFX6-LABEL: ashr_v2i16_sv:		; GFX6-LABEL: ashr_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: s_sext_i32_i16 s0, s0		; GFX6-NEXT: s_sext_i32_i16 s0, s0
; GFX6-NEXT: v_ashr_i32_e32 v0, s0, v0		; GFX6-NEXT: v_ashr_i32_e32 v0, s0, v0
		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
; GFX6-NEXT: s_sext_i32_i16 s0, s1		; GFX6-NEXT: s_sext_i32_i16 s0, s1
; GFX6-NEXT: v_ashr_i32_e32 v1, s0, v1		; GFX6-NEXT: v_ashr_i32_e32 v1, s0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
Show All 18 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = ashr <2 x i16> %value, %amount		%result = ashr <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @ashr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {		define amdgpu_ps float @ashr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: ashr_v2i16_vs:		; GFX6-LABEL: ashr_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: v_ashrrev_i32_e32 v1, s1, v1
; GFX6-NEXT: s_and_b32 s0, s0, s2		; GFX6-NEXT: s_and_b32 s0, s0, s2
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v0, s0, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, s0, v0
		; GFX6-NEXT: s_and_b32 s0, s1, s2
		; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
		; GFX6-NEXT: v_ashrrev_i32_e32 v1, s0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: ashr_v2i16_vs:		; GFX8-LABEL: ashr_v2i16_vs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 780 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/bswap.ll

Show First 20 Lines • Show All 453 Lines • ▼ Show 20 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%bswap = call i16 @llvm.bswap.i16(i16 %src)		%bswap = call i16 @llvm.bswap.i16(i16 %src)
ret i16 %bswap		ret i16 %bswap
}		}

define amdgpu_ps i32 @s_bswap_v2i16(<2 x i16> inreg %src) {		define amdgpu_ps i32 @s_bswap_v2i16(<2 x i16> inreg %src) {
; GFX7-LABEL: s_bswap_v2i16:		; GFX7-LABEL: s_bswap_v2i16:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_lshr_b32 s1, s0, 16		; GFX7-NEXT: s_mov_b32 s3, 0xffff
; GFX7-NEXT: s_and_b32 s3, s0, 0xffff
; GFX7-NEXT: s_lshl_b32 s2, s0, 8		; GFX7-NEXT: s_lshl_b32 s2, s0, 8
; GFX7-NEXT: s_lshl_b32 s1, s1, 8		; GFX7-NEXT: s_and_b32 s0, s0, s3
; GFX7-NEXT: s_lshr_b32 s0, s0, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 8
; GFX7-NEXT: s_or_b32 s0, s0, s1		; GFX7-NEXT: s_or_b32 s0, s0, s2
; GFX7-NEXT: s_lshr_b32 s3, s3, 8		; GFX7-NEXT: s_lshl_b32 s2, s1, 8
		; GFX7-NEXT: s_and_b32 s1, s1, s3
		; GFX7-NEXT: s_lshr_b32 s1, s1, 8
		; GFX7-NEXT: s_or_b32 s1, s1, s2
		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX7-NEXT: s_or_b32 s2, s3, s2		; GFX7-NEXT: s_lshl_b32 s1, s1, 16
; GFX7-NEXT: s_bfe_u32 s1, s2, 0x100000		; GFX7-NEXT: s_or_b32 s0, s0, s1
; GFX7-NEXT: s_lshl_b32 s0, s0, 16
; GFX7-NEXT: s_or_b32 s0, s1, s0
; GFX7-NEXT: ; return to shader part epilog		; GFX7-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_bswap_v2i16:		; GFX8-LABEL: s_bswap_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: s_mov_b32 s0, 0x2030001		; GFX8-NEXT: s_mov_b32 s0, 0x2030001
; GFX8-NEXT: v_perm_b32 v0, 0, v0, s0		; GFX8-NEXT: v_perm_b32 v0, 0, v0, s0
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%zext = sext i16 %bswap to i32		%zext = sext i16 %bswap to i32
ret i32 %zext		ret i32 %zext
}		}

define <2 x i16> @v_bswap_v2i16(<2 x i16> %src) {		define <2 x i16> @v_bswap_v2i16(<2 x i16> %src) {
; GFX7-LABEL: v_bswap_v2i16:		; GFX7-LABEL: v_bswap_v2i16:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX7-NEXT: s_mov_b32 s4, 0xffff
; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v1
; GFX7-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_or_b32_e32 v2, v3, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_bfe_u32 v1, v2, 0, 16		; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_bswap_v2i16:		; GFX8-LABEL: v_bswap_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_mov_b32 s4, 0x2030001		; GFX8-NEXT: s_mov_b32 s4, 0x2030001
; GFX8-NEXT: v_perm_b32 v0, 0, v0, s4		; GFX8-NEXT: v_perm_b32 v0, 0, v0, s4
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 82 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/dummy-target.ll

Show First 20 Lines • Show All 61 Lines • ▼ Show 20 Lines	define i16 @halfinsts_add_i16(i16 %arg0) #1 {
; CHECK: S_SETPC_B64_return [[COPY4]], implicit $vgpr0		; CHECK: S_SETPC_B64_return [[COPY4]], implicit $vgpr0
%add = add i16 %arg0, %arg0		%add = add i16 %arg0, %arg0
ret i16 %add		ret i16 %add
}		}

define <2 x i16> @halfinsts_add_v2i16(<2 x i16> %arg0) #1 {		define <2 x i16> @halfinsts_add_v2i16(<2 x i16> %arg0) #1 {
; CHECK-LABEL: name: halfinsts_add_v2i16		; CHECK-LABEL: name: halfinsts_add_v2i16
; CHECK: bb.1 (%ir-block.0):		; CHECK: bb.1 (%ir-block.0):
; CHECK: liveins: $vgpr0, $sgpr30_sgpr31		; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
; CHECK: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0		; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; CHECK: [[COPY1:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31		; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
; CHECK: [[BITCAST:%[0-9]+]]:_(s32) = G_BITCAST [[COPY]](<2 x s16>)		; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
; CHECK: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16		; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
; CHECK: [[LSHR:%[0-9]+]]:_(s32) = G_LSHR [[BITCAST]], [[C]](s32)		; CHECK: [[COPY4:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
; CHECK: [[BITCAST1:%[0-9]+]]:_(s32) = G_BITCAST [[COPY]](<2 x s16>)		; CHECK: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[COPY3]], [[COPY4]]
; CHECK: [[LSHR1:%[0-9]+]]:_(s32) = G_LSHR [[BITCAST1]], [[C]](s32)		; CHECK: [[COPY5:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY [[BITCAST]](s32)		; CHECK: [[COPY6:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY [[BITCAST1]](s32)		; CHECK: [[ADD1:%[0-9]+]]:_(s32) = G_ADD [[COPY5]], [[COPY6]]
; CHECK: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[COPY2]], [[COPY3]]		; CHECK: [[COPY7:%[0-9]+]]:_(s32) = COPY [[ADD]](s32)
; CHECK: [[COPY4:%[0-9]+]]:_(s32) = COPY [[LSHR]](s32)		; CHECK: [[COPY8:%[0-9]+]]:_(s32) = COPY [[ADD1]](s32)
; CHECK: [[COPY5:%[0-9]+]]:_(s32) = COPY [[LSHR1]](s32)		; CHECK: $vgpr0 = COPY [[COPY7]](s32)
; CHECK: [[ADD1:%[0-9]+]]:_(s32) = G_ADD [[COPY4]], [[COPY5]]		; CHECK: $vgpr1 = COPY [[COPY8]](s32)
; CHECK: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 65535		; CHECK: [[COPY9:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
; CHECK: [[COPY6:%[0-9]+]]:_(s32) = COPY [[ADD]](s32)		; CHECK: S_SETPC_B64_return [[COPY9]], implicit $vgpr0, implicit $vgpr1
; CHECK: [[AND:%[0-9]+]]:_(s32) = G_AND [[COPY6]], [[C1]]
; CHECK: [[COPY7:%[0-9]+]]:_(s32) = COPY [[ADD1]](s32)
; CHECK: [[AND1:%[0-9]+]]:_(s32) = G_AND [[COPY7]], [[C1]]
; CHECK: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[AND1]], [[C]](s32)
; CHECK: [[OR:%[0-9]+]]:_(s32) = G_OR [[AND]], [[SHL]]
; CHECK: [[BITCAST2:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[OR]](s32)
; CHECK: $vgpr0 = COPY [[BITCAST2]](<2 x s16>)
; CHECK: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY1]]
; CHECK: S_SETPC_B64_return [[COPY8]], implicit $vgpr0
%add = add <2 x i16> %arg0, %arg0		%add = add <2 x i16> %arg0, %arg0
ret <2 x i16> %add		ret <2 x i16> %add
}		}

attributes #0 = { "target-features"="+vop3p" }		attributes #0 = { "target-features"="+vop3p" }
attributes #0 = { "target-features"="+16-bit-insts" }		attributes #0 = { "target-features"="+16-bit-insts" }

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

Show First 20 Lines • Show All 493 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv arcp half %a, %b, !fpmath !0		%fdiv = fdiv arcp half %a, %b, !fpmath !0
ret half %fdiv		ret half %fdiv
}		}

define <2 x half> @v_fdiv_v2f16(<2 x half> %a, <2 x half> %b) {		define <2 x half> @v_fdiv_v2f16(<2 x half> %a, <2 x half> %b) {
; GFX6-IEEE-LABEL: v_fdiv_v2f16:		; GFX6-IEEE-LABEL: v_fdiv_v2f16:
; GFX6-IEEE: ; %bb.0:		; GFX6-IEEE: ; %bb.0:
; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v4, s[4:5], v3, v3, v2		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v5, v4
; GFX6-IEEE-NEXT: v_div_scale_f32 v6, vcc, v2, v3, v2
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v3
		; GFX6-IEEE-NEXT: v_div_scale_f32 v4, s[4:5], v2, v2, v0
		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v5, v4
		; GFX6-IEEE-NEXT: v_div_scale_f32 v6, vcc, v0, v2, v0
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v4, v5, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v4, v5, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v5, v7, v5, v5		; GFX6-IEEE-NEXT: v_fma_f32 v5, v7, v5, v5
; GFX6-IEEE-NEXT: v_mul_f32_e32 v7, v6, v5		; GFX6-IEEE-NEXT: v_mul_f32_e32 v7, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v8, -v4, v7, v6		; GFX6-IEEE-NEXT: v_fma_f32 v8, -v4, v7, v6
; GFX6-IEEE-NEXT: v_fma_f32 v7, v8, v5, v7		; GFX6-IEEE-NEXT: v_fma_f32 v7, v8, v5, v7
; GFX6-IEEE-NEXT: v_fma_f32 v4, -v4, v7, v6		; GFX6-IEEE-NEXT: v_fma_f32 v4, -v4, v7, v6
; GFX6-IEEE-NEXT: v_div_fmas_f32 v4, v4, v5, v7		; GFX6-IEEE-NEXT: v_div_fmas_f32 v4, v4, v5, v7
; GFX6-IEEE-NEXT: v_div_fixup_f32 v2, v4, v3, v2		; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v4, v2, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v0		; GFX6-IEEE-NEXT: v_div_scale_f32 v2, s[4:5], v3, v3, v1
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v2
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v0, v1, v0		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v3, v1
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v2, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v2, v2, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v1, v0		; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v2, v3, v1
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-IEEE-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-IEEE-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-IEEE-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]		; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX6-FLUSH-LABEL: v_fdiv_v2f16:		; GFX6-FLUSH-LABEL: v_fdiv_v2f16:
; GFX6-FLUSH: ; %bb.0:		; GFX6-FLUSH: ; %bb.0:
; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v1		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v4, s[4:5], v2, v2, v0
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-FLUSH-NEXT: v_div_scale_f32 v4, s[4:5], v3, v3, v2
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v5, v4		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v5, v4
; GFX6-FLUSH-NEXT: v_div_scale_f32 v6, vcc, v2, v3, v2		; GFX6-FLUSH-NEXT: v_div_scale_f32 v6, vcc, v0, v2, v0
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v4, v5, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v4, v5, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v5, v7, v5, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v5, v7, v5, v5
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v7, v6, v5		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v7, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v8, -v4, v7, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v8, -v4, v7, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v7, v8, v5, v7		; GFX6-FLUSH-NEXT: v_fma_f32 v7, v8, v5, v7
; GFX6-FLUSH-NEXT: v_fma_f32 v4, -v4, v7, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v4, -v4, v7, v6
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v4, v4, v5, v7		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v4, v4, v5, v7
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v2, v4, v3, v2		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v4, v2, v0
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v3, v3, v1
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v0, v1, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v1, v3, v1
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v4, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v4, v6
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v1, v0		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-FLUSH-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-FLUSH-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]		; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fdiv_v2f16:		; GFX8-LABEL: v_fdiv_v2f16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1		; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1
; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4		; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv <2 x half> %a, %b		%fdiv = fdiv <2 x half> %a, %b
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_fdiv_v2f16_afn(<2 x half> %a, <2 x half> %b) {		define <2 x half> @v_fdiv_v2f16_afn(<2 x half> %a, <2 x half> %b) {
; GFX6-LABEL: v_fdiv_v2f16_afn:		; GFX6-LABEL: v_fdiv_v2f16_afn:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_rcp_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_rcp_f32_e32 v2, v2
; GFX6-NEXT: v_rcp_f32_e32 v3, v3		; GFX6-NEXT: v_rcp_f32_e32 v3, v3
; GFX6-NEXT: v_mul_f32_e32 v1, v2, v1		; GFX6-NEXT: v_mul_f32_e32 v0, v0, v2
; GFX6-NEXT: v_mul_f32_e32 v0, v0, v3		; GFX6-NEXT: v_mul_f32_e32 v1, v1, v3
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fdiv_v2f16_afn:		; GFX8-LABEL: v_fdiv_v2f16_afn:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_rcp_f16_e32 v2, v1		; GFX8-NEXT: v_rcp_f16_e32 v2, v1
; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2		; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2
Show All 27 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv afn <2 x half> %a, %b		%fdiv = fdiv afn <2 x half> %a, %b
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_fdiv_v2f16_ulp25(<2 x half> %a, <2 x half> %b) {		define <2 x half> @v_fdiv_v2f16_ulp25(<2 x half> %a, <2 x half> %b) {
; GFX6-IEEE-LABEL: v_fdiv_v2f16_ulp25:		; GFX6-IEEE-LABEL: v_fdiv_v2f16_ulp25:
; GFX6-IEEE: ; %bb.0:		; GFX6-IEEE: ; %bb.0:
; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v4, s[4:5], v3, v3, v2		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v5, v4
; GFX6-IEEE-NEXT: v_div_scale_f32 v6, vcc, v2, v3, v2
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v3
		; GFX6-IEEE-NEXT: v_div_scale_f32 v4, s[4:5], v2, v2, v0
		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v5, v4
		; GFX6-IEEE-NEXT: v_div_scale_f32 v6, vcc, v0, v2, v0
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v4, v5, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v4, v5, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v5, v7, v5, v5		; GFX6-IEEE-NEXT: v_fma_f32 v5, v7, v5, v5
; GFX6-IEEE-NEXT: v_mul_f32_e32 v7, v6, v5		; GFX6-IEEE-NEXT: v_mul_f32_e32 v7, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v8, -v4, v7, v6		; GFX6-IEEE-NEXT: v_fma_f32 v8, -v4, v7, v6
; GFX6-IEEE-NEXT: v_fma_f32 v7, v8, v5, v7		; GFX6-IEEE-NEXT: v_fma_f32 v7, v8, v5, v7
; GFX6-IEEE-NEXT: v_fma_f32 v4, -v4, v7, v6		; GFX6-IEEE-NEXT: v_fma_f32 v4, -v4, v7, v6
; GFX6-IEEE-NEXT: v_div_fmas_f32 v4, v4, v5, v7		; GFX6-IEEE-NEXT: v_div_fmas_f32 v4, v4, v5, v7
; GFX6-IEEE-NEXT: v_div_fixup_f32 v2, v4, v3, v2		; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v4, v2, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v0		; GFX6-IEEE-NEXT: v_div_scale_f32 v2, s[4:5], v3, v3, v1
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v2
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v0, v1, v0		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v3, v1
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v2, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v2, v2, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v1, v0		; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v2, v3, v1
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-IEEE-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-IEEE-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-IEEE-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]		; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX6-FLUSH-LABEL: v_fdiv_v2f16_ulp25:		; GFX6-FLUSH-LABEL: v_fdiv_v2f16_ulp25:
; GFX6-FLUSH: ; %bb.0:		; GFX6-FLUSH: ; %bb.0:
; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v1		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v4, s[4:5], v2, v2, v0
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-FLUSH-NEXT: v_div_scale_f32 v4, s[4:5], v3, v3, v2
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v5, v4		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v5, v4
; GFX6-FLUSH-NEXT: v_div_scale_f32 v6, vcc, v2, v3, v2		; GFX6-FLUSH-NEXT: v_div_scale_f32 v6, vcc, v0, v2, v0
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v4, v5, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v4, v5, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v5, v7, v5, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v5, v7, v5, v5
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v7, v6, v5		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v7, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v8, -v4, v7, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v8, -v4, v7, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v7, v8, v5, v7		; GFX6-FLUSH-NEXT: v_fma_f32 v7, v8, v5, v7
; GFX6-FLUSH-NEXT: v_fma_f32 v4, -v4, v7, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v4, -v4, v7, v6
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v4, v4, v5, v7		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v4, v4, v5, v7
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v2, v4, v3, v2		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v4, v2, v0
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v3, v3, v1
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v0, v1, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v1, v3, v1
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v4, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v4, v6
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v1, v0		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-FLUSH-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-FLUSH-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]		; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fdiv_v2f16_ulp25:		; GFX8-LABEL: v_fdiv_v2f16_ulp25:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1		; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1
; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4		; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv <2 x half> %a, %b, !fpmath !0		%fdiv = fdiv <2 x half> %a, %b, !fpmath !0
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_rcp_v2f16(<2 x half> %x) {		define <2 x half> @v_rcp_v2f16(<2 x half> %x) {
; GFX6-IEEE-LABEL: v_rcp_v2f16:		; GFX6-IEEE-LABEL: v_rcp_v2f16:
; GFX6-IEEE: ; %bb.0:		; GFX6-IEEE: ; %bb.0:
; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, 1.0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, 1.0
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v2, v2, v1		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v2, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v2, v3, v2, v1		; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v0, v2
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v0, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v2, v1, v2
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v0, v1		; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-IEEE-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-IEEE-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-IEEE-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]		; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX6-FLUSH-LABEL: v_rcp_v2f16:		; GFX6-FLUSH-LABEL: v_rcp_v2f16:
; GFX6-FLUSH: ; %bb.0:		; GFX6-FLUSH: ; %bb.0:
; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00		; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, s6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, s6		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v2, v2, v1
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v1, v2, v1		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v3, v2, v1		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v0, v0, v4		; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v0, v4		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v3, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v3, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v3, v6, v3, v3		; GFX6-FLUSH-NEXT: v_fma_f32 v3, v6, v3, v3
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v3		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v3
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v3, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v3, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v4		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-FLUSH-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-FLUSH-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]		; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_rcp_v2f16:		; GFX8-LABEL: v_rcp_v2f16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0		; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0
; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2		; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x		%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_rcp_v2f16_arcp(<2 x half> %x) {		define <2 x half> @v_rcp_v2f16_arcp(<2 x half> %x) {
; GFX6-IEEE-LABEL: v_rcp_v2f16_arcp:		; GFX6-IEEE-LABEL: v_rcp_v2f16_arcp:
; GFX6-IEEE: ; %bb.0:		; GFX6-IEEE: ; %bb.0:
; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, 1.0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, 1.0
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v2, v2, v1		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v2, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v2, v3, v2, v1		; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v0, v2
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v0, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v2, v1, v2
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v0, v1		; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-IEEE-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-IEEE-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-IEEE-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]		; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX6-FLUSH-LABEL: v_rcp_v2f16_arcp:		; GFX6-FLUSH-LABEL: v_rcp_v2f16_arcp:
; GFX6-FLUSH: ; %bb.0:		; GFX6-FLUSH: ; %bb.0:
; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00		; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, s6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, s6		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v2, v2, v1
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v1, v2, v1		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v3, v2, v1		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v0, v0, v4		; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v0, v4		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v3, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v3, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v3, v6, v3, v3		; GFX6-FLUSH-NEXT: v_fma_f32 v3, v6, v3, v3
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v3		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v3
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v3, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v3, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v4		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-FLUSH-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-FLUSH-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]		; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_rcp_v2f16_arcp:		; GFX8-LABEL: v_rcp_v2f16_arcp:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0		; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0
; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2		; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv arcp <2 x half> <half 1.0, half 1.0>, %x		%fdiv = fdiv arcp <2 x half> <half 1.0, half 1.0>, %x
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_rcp_v2f16_arcp_afn(<2 x half> %x) {		define <2 x half> @v_rcp_v2f16_arcp_afn(<2 x half> %x) {
; GFX6-LABEL: v_rcp_v2f16_arcp_afn:		; GFX6-LABEL: v_rcp_v2f16_arcp_afn:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, 1.0		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, 1.0
; GFX6-NEXT: v_rcp_f32_e32 v1, v1
; GFX6-NEXT: v_rcp_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_f32_e32 v0, v0
; GFX6-NEXT: v_mul_f32_e32 v1, v2, v1		; GFX6-NEXT: v_rcp_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_mul_f32_e32 v0, v2, v0		; GFX6-NEXT: v_mul_f32_e32 v0, v2, v0
		; GFX6-NEXT: v_mul_f32_e32 v1, v2, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_rcp_v2f16_arcp_afn:		; GFX8-LABEL: v_rcp_v2f16_arcp_afn:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_rcp_f16_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_rcp_f16_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_rcp_f16_e32 v0, v0		; GFX8-NEXT: v_rcp_f16_e32 v0, v0
; GFX8-NEXT: v_mov_b32_e32 v2, 16		; GFX8-NEXT: v_mov_b32_e32 v2, 16
Show All 21 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv arcp afn <2 x half> <half 1.0, half 1.0>, %x		%fdiv = fdiv arcp afn <2 x half> <half 1.0, half 1.0>, %x
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_rcp_v2f16_ulp25(<2 x half> %x) {		define <2 x half> @v_rcp_v2f16_ulp25(<2 x half> %x) {
; GFX6-IEEE-LABEL: v_rcp_v2f16_ulp25:		; GFX6-IEEE-LABEL: v_rcp_v2f16_ulp25:
; GFX6-IEEE: ; %bb.0:		; GFX6-IEEE: ; %bb.0:
; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, 1.0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, 1.0
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v2, v2, v1		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v2, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v2, v3, v2, v1		; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v0, v2
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v0, v1		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v2, v1, v2
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v0, v1		; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-IEEE-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-IEEE-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-IEEE-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]		; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX6-FLUSH-LABEL: v_rcp_v2f16_ulp25:		; GFX6-FLUSH-LABEL: v_rcp_v2f16_ulp25:
; GFX6-FLUSH: ; %bb.0:		; GFX6-FLUSH: ; %bb.0:
; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00		; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, s6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, s6		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v2, v2, v1
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v1, v2, v1		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v3, v2, v1		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v0, v0, v4		; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v0, v4		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v3, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v3, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v3, v6, v3, v3		; GFX6-FLUSH-NEXT: v_fma_f32 v3, v6, v3, v3
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v3		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v3
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v3, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v3, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v4		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-FLUSH-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-FLUSH-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]		; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_rcp_v2f16_ulp25:		; GFX8-LABEL: v_rcp_v2f16_ulp25:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_rcp_f16_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_rcp_f16_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_rcp_f16_e32 v0, v0		; GFX8-NEXT: v_rcp_f16_e32 v0, v0
; GFX8-NEXT: v_mov_b32_e32 v2, 16		; GFX8-NEXT: v_mov_b32_e32 v2, 16
Show All 21 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0		%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_fdiv_v2f16_afn_ulp25(<2 x half> %a, <2 x half> %b) {		define <2 x half> @v_fdiv_v2f16_afn_ulp25(<2 x half> %a, <2 x half> %b) {
; GFX6-LABEL: v_fdiv_v2f16_afn_ulp25:		; GFX6-LABEL: v_fdiv_v2f16_afn_ulp25:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_rcp_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_rcp_f32_e32 v2, v2
; GFX6-NEXT: v_rcp_f32_e32 v3, v3		; GFX6-NEXT: v_rcp_f32_e32 v3, v3
; GFX6-NEXT: v_mul_f32_e32 v1, v2, v1		; GFX6-NEXT: v_mul_f32_e32 v0, v0, v2
; GFX6-NEXT: v_mul_f32_e32 v0, v0, v3		; GFX6-NEXT: v_mul_f32_e32 v1, v1, v3
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fdiv_v2f16_afn_ulp25:		; GFX8-LABEL: v_fdiv_v2f16_afn_ulp25:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_rcp_f16_e32 v2, v1		; GFX8-NEXT: v_rcp_f16_e32 v2, v1
; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2		; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2
Show All 27 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv afn <2 x half> %a, %b, !fpmath !0		%fdiv = fdiv afn <2 x half> %a, %b, !fpmath !0
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_fdiv_v2f16_arcp_ulp25(<2 x half> %a, <2 x half> %b) {		define <2 x half> @v_fdiv_v2f16_arcp_ulp25(<2 x half> %a, <2 x half> %b) {
; GFX6-IEEE-LABEL: v_fdiv_v2f16_arcp_ulp25:		; GFX6-IEEE-LABEL: v_fdiv_v2f16_arcp_ulp25:
; GFX6-IEEE: ; %bb.0:		; GFX6-IEEE: ; %bb.0:
; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v0
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v4, s[4:5], v3, v3, v2		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v5, v4
; GFX6-IEEE-NEXT: v_div_scale_f32 v6, vcc, v2, v3, v2
; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v3
		; GFX6-IEEE-NEXT: v_div_scale_f32 v4, s[4:5], v2, v2, v0
		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v5, v4
		; GFX6-IEEE-NEXT: v_div_scale_f32 v6, vcc, v0, v2, v0
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v4, v5, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v4, v5, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v5, v7, v5, v5		; GFX6-IEEE-NEXT: v_fma_f32 v5, v7, v5, v5
; GFX6-IEEE-NEXT: v_mul_f32_e32 v7, v6, v5		; GFX6-IEEE-NEXT: v_mul_f32_e32 v7, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v8, -v4, v7, v6		; GFX6-IEEE-NEXT: v_fma_f32 v8, -v4, v7, v6
; GFX6-IEEE-NEXT: v_fma_f32 v7, v8, v5, v7		; GFX6-IEEE-NEXT: v_fma_f32 v7, v8, v5, v7
; GFX6-IEEE-NEXT: v_fma_f32 v4, -v4, v7, v6		; GFX6-IEEE-NEXT: v_fma_f32 v4, -v4, v7, v6
; GFX6-IEEE-NEXT: v_div_fmas_f32 v4, v4, v5, v7		; GFX6-IEEE-NEXT: v_div_fmas_f32 v4, v4, v5, v7
; GFX6-IEEE-NEXT: v_div_fixup_f32 v2, v4, v3, v2		; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v4, v2, v0
; GFX6-IEEE-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v0		; GFX6-IEEE-NEXT: v_div_scale_f32 v2, s[4:5], v3, v3, v1
; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-IEEE-NEXT: v_rcp_f32_e32 v4, v2
; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v0, v1, v0		; GFX6-IEEE-NEXT: v_div_scale_f32 v5, vcc, v1, v3, v1
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-IEEE-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-IEEE-NEXT: v_fma_f32 v6, -v2, v4, 1.0
; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-IEEE-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-IEEE-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-IEEE-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-IEEE-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-IEEE-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-IEEE-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-IEEE-NEXT: v_div_fmas_f32 v2, v2, v4, v6
; GFX6-IEEE-NEXT: v_div_fixup_f32 v0, v3, v1, v0		; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v2, v3, v1
; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-IEEE-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-IEEE-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-IEEE-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-IEEE-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]		; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX6-FLUSH-LABEL: v_fdiv_v2f16_arcp_ulp25:		; GFX6-FLUSH-LABEL: v_fdiv_v2f16_arcp_ulp25:
; GFX6-FLUSH: ; %bb.0:		; GFX6-FLUSH: ; %bb.0:
; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v0		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v1		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v4, s[4:5], v2, v2, v0
; GFX6-FLUSH-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-FLUSH-NEXT: v_div_scale_f32 v4, s[4:5], v3, v3, v2
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v5, v4		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v5, v4
; GFX6-FLUSH-NEXT: v_div_scale_f32 v6, vcc, v2, v3, v2		; GFX6-FLUSH-NEXT: v_div_scale_f32 v6, vcc, v0, v2, v0
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v4, v5, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v4, v5, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v5, v7, v5, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v5, v7, v5, v5
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v7, v6, v5		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v7, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v8, -v4, v7, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v8, -v4, v7, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v7, v8, v5, v7		; GFX6-FLUSH-NEXT: v_fma_f32 v7, v8, v5, v7
; GFX6-FLUSH-NEXT: v_fma_f32 v4, -v4, v7, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v4, -v4, v7, v6
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v4, v4, v5, v7		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v4, v4, v5, v7
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v2, v4, v3, v2		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v4, v2, v0
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v1, v1, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v3, v3, v1
; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3		; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v2
; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v0, v1, v0		; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v1, v3, v1
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0		; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v2, v4, 1.0
; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4		; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4		; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v2, v6, v5
; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6		; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5		; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v6, v5
; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0		; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6		; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v4, v6
; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v1, v0		; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1
; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-FLUSH-NEXT: v_bfe_u32 v1, v2, 0, 16
; GFX6-FLUSH-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]		; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fdiv_v2f16_arcp_ulp25:		; GFX8-LABEL: v_fdiv_v2f16_arcp_ulp25:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1		; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1
; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4		; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fdiv = fdiv arcp <2 x half> %a, %b, !fpmath !0		%fdiv = fdiv arcp <2 x half> %a, %b, !fpmath !0
ret <2 x half> %fdiv		ret <2 x half> %fdiv
}		}

define <2 x half> @v_fdiv_v2f16_arcp_afn_ulp25(<2 x half> %a, <2 x half> %b) {		define <2 x half> @v_fdiv_v2f16_arcp_afn_ulp25(<2 x half> %a, <2 x half> %b) {
; GFX6-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:		; GFX6-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_rcp_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_rcp_f32_e32 v2, v2
; GFX6-NEXT: v_rcp_f32_e32 v3, v3		; GFX6-NEXT: v_rcp_f32_e32 v3, v3
; GFX6-NEXT: v_mul_f32_e32 v1, v2, v1		; GFX6-NEXT: v_mul_f32_e32 v0, v0, v2
; GFX6-NEXT: v_mul_f32_e32 v0, v0, v3		; GFX6-NEXT: v_mul_f32_e32 v1, v1, v3
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:		; GFX8-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_rcp_f16_e32 v2, v1		; GFX8-NEXT: v_rcp_f16_e32 v2, v1
; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2		; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2
Show All 32 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fma.ll

Show First 20 Lines • Show All 98 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fma = call half @llvm.fma.f16(half %x, half %y, half %z)		%fma = call half @llvm.fma.f16(half %x, half %y, half %z)
ret half %fma		ret half %fma
}		}

define <2 x half> @v_fma_v2f16(<2 x half> %x, <2 x half> %y, <2 x half> %z) {		define <2 x half> @v_fma_v2f16(<2 x half> %x, <2 x half> %y, <2 x half> %z) {
; GFX6-LABEL: v_fma_v2f16:		; GFX6-LABEL: v_fma_v2f16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4		; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4
		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5		; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5
; GFX6-NEXT: v_fma_f32 v0, v0, v1, v2		; GFX6-NEXT: v_fma_f32 v0, v0, v2, v4
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_fma_f32 v1, v3, v4, v5		; GFX6-NEXT: v_fma_f32 v1, v1, v3, v5
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fma_v2f16:		; GFX8-LABEL: v_fma_v2f16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v2
Show All 19 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fma = call <2 x half> @llvm.fma.v2f16(<2 x half> %x, <2 x half> %y, <2 x half> %z)		%fma = call <2 x half> @llvm.fma.v2f16(<2 x half> %x, <2 x half> %y, <2 x half> %z)
ret <2 x half> %fma		ret <2 x half> %fma
}		}

define <2 x half> @v_fma_v2f16_fneg_lhs(<2 x half> %x, <2 x half> %y, <2 x half> %z) {		define <2 x half> @v_fma_v2f16_fneg_lhs(<2 x half> %x, <2 x half> %y, <2 x half> %z) {
; GFX6-LABEL: v_fma_v2f16_fneg_lhs:		; GFX6-LABEL: v_fma_v2f16_fneg_lhs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0		; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4		; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4
		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5		; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5
; GFX6-NEXT: v_fma_f32 v0, v0, v1, v2		; GFX6-NEXT: v_fma_f32 v0, v0, v2, v4
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_fma_f32 v1, v3, v4, v5		; GFX6-NEXT: v_fma_f32 v1, v1, v3, v5
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fma_v2f16_fneg_lhs:		; GFX8-LABEL: v_fma_v2f16_fneg_lhs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0		; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
Show All 21 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fma = call <2 x half> @llvm.fma.v2f16(<2 x half> %x.fneg, <2 x half> %y, <2 x half> %z)		%fma = call <2 x half> @llvm.fma.v2f16(<2 x half> %x.fneg, <2 x half> %y, <2 x half> %z)
ret <2 x half> %fma		ret <2 x half> %fma
}		}

define <2 x half> @v_fma_v2f16_fneg_rhs(<2 x half> %x, <2 x half> %y, <2 x half> %z) {		define <2 x half> @v_fma_v2f16_fneg_rhs(<2 x half> %x, <2 x half> %y, <2 x half> %z) {
; GFX6-LABEL: v_fma_v2f16_fneg_rhs:		; GFX6-LABEL: v_fma_v2f16_fneg_rhs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_xor_b32_e32 v1, 0x80008000, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX6-NEXT: v_or_b32_e32 v2, v3, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v2		; GFX6-NEXT: v_xor_b32_e32 v2, 0x80008000, v2
		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4		; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4
		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5		; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5
; GFX6-NEXT: v_fma_f32 v0, v0, v1, v2		; GFX6-NEXT: v_fma_f32 v0, v0, v2, v4
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_fma_f32 v1, v3, v4, v5		; GFX6-NEXT: v_fma_f32 v1, v1, v3, v5
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fma_v2f16_fneg_rhs:		; GFX8-LABEL: v_fma_v2f16_fneg_rhs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1		; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
Show All 21 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%fma = call <2 x half> @llvm.fma.v2f16(<2 x half> %x, <2 x half> %y.fneg, <2 x half> %z)		%fma = call <2 x half> @llvm.fma.v2f16(<2 x half> %x, <2 x half> %y.fneg, <2 x half> %z)
ret <2 x half> %fma		ret <2 x half> %fma
}		}

define <2 x half> @v_fma_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y, <2 x half> %z) {		define <2 x half> @v_fma_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y, <2 x half> %z) {
; GFX6-LABEL: v_fma_v2f16_fneg_lhs_rhs:		; GFX6-LABEL: v_fma_v2f16_fneg_lhs_rhs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_mov_b32_e32 v6, 0xffff
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX6-NEXT: v_and_b32_e32 v0, v0, v6
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
		; GFX6-NEXT: v_and_b32_e32 v2, v2, v6
; GFX6-NEXT: s_mov_b32 s4, 0x80008000		; GFX6-NEXT: s_mov_b32 s4, 0x80008000
		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_xor_b32_e32 v0, s4, v0		; GFX6-NEXT: v_xor_b32_e32 v0, s4, v0
; GFX6-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX6-NEXT: v_xor_b32_e32 v1, s4, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_cvt_f32_f16_e32 v4, v4
; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5		; GFX6-NEXT: v_cvt_f32_f16_e32 v5, v5
; GFX6-NEXT: v_fma_f32 v0, v0, v1, v2		; GFX6-NEXT: v_fma_f32 v0, v0, v1, v4
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_fma_f32 v1, v3, v4, v5		; GFX6-NEXT: v_fma_f32 v1, v2, v3, v5
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fma_v2f16_fneg_lhs_rhs:		; GFX8-LABEL: v_fma_v2f16_fneg_lhs_rhs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_mov_b32 s4, 0x80008000		; GFX8-NEXT: s_mov_b32 s4, 0x80008000
; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0		; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0
; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1
▲ Show 20 Lines • Show All 467 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll

Show First 20 Lines • Show All 137 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%pow = call half @llvm.pow.f16(half %x, half %y)		%pow = call half @llvm.pow.f16(half %x, half %y)
ret half %pow		ret half %pow
}		}

define <2 x half> @v_pow_v2f16(<2 x half> %x, <2 x half> %y) {		define <2 x half> @v_pow_v2f16(<2 x half> %x, <2 x half> %y) {
; GFX6-LABEL: v_pow_v2f16:		; GFX6-LABEL: v_pow_v2f16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_log_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_log_f32_e32 v2, v2		; GFX6-NEXT: v_log_f32_e32 v0, v0
; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v1		; GFX6-NEXT: v_log_f32_e32 v1, v1
		; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v2
		; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v1, v3
; GFX6-NEXT: v_exp_f32_e32 v0, v0		; GFX6-NEXT: v_exp_f32_e32 v0, v0
; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v2, v3
; GFX6-NEXT: v_exp_f32_e32 v1, v1		; GFX6-NEXT: v_exp_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_pow_v2f16:		; GFX8-LABEL: v_pow_v2f16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_log_f16_e32 v2, v0		; GFX8-NEXT: v_log_f16_e32 v2, v0
; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v1		; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v1
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y)		%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y)
ret <2 x half> %pow		ret <2 x half> %pow
}		}

define <2 x half> @v_pow_v2f16_fneg_lhs(<2 x half> %x, <2 x half> %y) {		define <2 x half> @v_pow_v2f16_fneg_lhs(<2 x half> %x, <2 x half> %y) {
; GFX6-LABEL: v_pow_v2f16_fneg_lhs:		; GFX6-LABEL: v_pow_v2f16_fneg_lhs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0		; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0
		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX6-NEXT: v_log_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_log_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_log_f32_e32 v2, v2		; GFX6-NEXT: v_log_f32_e32 v0, v0
; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v1		; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v1, v2
; GFX6-NEXT: v_exp_f32_e32 v0, v0
; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v2, v3
; GFX6-NEXT: v_exp_f32_e32 v1, v1		; GFX6-NEXT: v_exp_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v3
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_exp_f32_e32 v2, v0
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_pow_v2f16_fneg_lhs:		; GFX8-LABEL: v_pow_v2f16_fneg_lhs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0		; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX8-NEXT: v_log_f16_e32 v2, v0		; GFX8-NEXT: v_log_f16_e32 v2, v0
; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x.fneg, <2 x half> %y)		%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x.fneg, <2 x half> %y)
ret <2 x half> %pow		ret <2 x half> %pow
}		}

define <2 x half> @v_pow_v2f16_fneg_rhs(<2 x half> %x, <2 x half> %y) {		define <2 x half> @v_pow_v2f16_fneg_rhs(<2 x half> %x, <2 x half> %y) {
; GFX6-LABEL: v_pow_v2f16_fneg_rhs:		; GFX6-LABEL: v_pow_v2f16_fneg_rhs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX6-NEXT: v_or_b32_e32 v2, v3, v2
		; GFX6-NEXT: v_xor_b32_e32 v2, 0x80008000, v2
		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2
		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_log_f32_e32 v0, v0		; GFX6-NEXT: v_log_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_log_f32_e32 v2, v2		; GFX6-NEXT: v_log_f32_e32 v1, v1
; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v1		; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v2
; GFX6-NEXT: v_exp_f32_e32 v0, v0		; GFX6-NEXT: v_exp_f32_e32 v0, v0
; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v2, v3		; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v1, v3
; GFX6-NEXT: v_exp_f32_e32 v1, v1		; GFX6-NEXT: v_exp_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_pow_v2f16_fneg_rhs:		; GFX8-LABEL: v_pow_v2f16_fneg_rhs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_log_f16_e32 v2, v0		; GFX8-NEXT: v_log_f16_e32 v2, v0
; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1		; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y.fneg)		%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y.fneg)
ret <2 x half> %pow		ret <2 x half> %pow
}		}

define <2 x half> @v_pow_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y) {		define <2 x half> @v_pow_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y) {
; GFX6-LABEL: v_pow_v2f16_fneg_lhs_rhs:		; GFX6-LABEL: v_pow_v2f16_fneg_lhs_rhs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_mov_b32_e32 v4, 0xffff
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX6-NEXT: v_and_b32_e32 v0, v0, v4
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: s_mov_b32 s4, 0x80008000		; GFX6-NEXT: s_mov_b32 s4, 0x80008000
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
		; GFX6-NEXT: v_and_b32_e32 v2, v2, v4
; GFX6-NEXT: v_xor_b32_e32 v0, s4, v0		; GFX6-NEXT: v_xor_b32_e32 v0, s4, v0
		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX6-NEXT: v_xor_b32_e32 v1, s4, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_log_f32_e32 v0, v0		; GFX6-NEXT: v_log_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_log_f32_e32 v2, v2		; GFX6-NEXT: v_log_f32_e32 v2, v2
; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v1		; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
; GFX6-NEXT: v_exp_f32_e32 v0, v0		; GFX6-NEXT: v_exp_f32_e32 v0, v0
; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v2, v3		; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v2, v3
; GFX6-NEXT: v_exp_f32_e32 v1, v1		; GFX6-NEXT: v_exp_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_pow_v2f16_fneg_lhs_rhs:		; GFX8-LABEL: v_pow_v2f16_fneg_lhs_rhs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_mov_b32 s4, 0x80008000		; GFX8-NEXT: s_mov_b32 s4, 0x80008000
; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0		; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0
; GFX8-NEXT: v_log_f16_e32 v2, v0		; GFX8-NEXT: v_log_f16_e32 v2, v0
▲ Show 20 Lines • Show All 368 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,229 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call i16 @llvm.fshl.i16(i16 %lhs, i16 %rhs, i16 %amt)		%result = call i16 @llvm.fshl.i16(i16 %lhs, i16 %rhs, i16 %amt)
%cast.result = bitcast i16 %result to half		%cast.result = bitcast i16 %result to half
ret half %cast.result		ret half %cast.result
}		}

define amdgpu_ps i32 @s_fshl_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {		define amdgpu_ps i32 @s_fshl_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {
; GFX6-LABEL: s_fshl_v2i16:		; GFX6-LABEL: s_fshl_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_and_b32 s5, s2, 15		; GFX6-NEXT: s_and_b32 s6, s4, 15
; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX6-NEXT: s_lshr_b32 s3, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, s6
; GFX6-NEXT: s_lshr_b32 s4, s2, 16		; GFX6-NEXT: s_mov_b32 s6, 0xffff
; GFX6-NEXT: s_andn2_b32 s2, 15, s2		; GFX6-NEXT: s_andn2_b32 s4, 15, s4
; GFX6-NEXT: s_lshl_b32 s0, s0, s5		; GFX6-NEXT: s_and_b32 s2, s2, s6
; GFX6-NEXT: s_and_b32 s5, s1, 0xffff		; GFX6-NEXT: s_lshr_b32 s2, s2, 1
; GFX6-NEXT: s_lshr_b32 s5, s5, 1		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_lshr_b32 s2, s2, s4
; GFX6-NEXT: s_lshr_b32 s2, s5, s2
; GFX6-NEXT: s_or_b32 s0, s0, s2		; GFX6-NEXT: s_or_b32 s0, s0, s2
; GFX6-NEXT: s_and_b32 s2, s4, 15		; GFX6-NEXT: s_and_b32 s2, s5, 15
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX6-NEXT: s_andn2_b32 s4, 15, s4		; GFX6-NEXT: s_lshl_b32 s1, s1, s2
; GFX6-NEXT: s_lshl_b32 s2, s3, s2		; GFX6-NEXT: s_and_b32 s2, s3, s6
; GFX6-NEXT: s_lshr_b32 s1, s1, 17		; GFX6-NEXT: s_andn2_b32 s4, 15, s5
		; GFX6-NEXT: s_lshr_b32 s2, s2, 1
; GFX6-NEXT: s_bfe_u32 s3, s4, 0x100000		; GFX6-NEXT: s_bfe_u32 s3, s4, 0x100000
; GFX6-NEXT: s_lshr_b32 s1, s1, s3		; GFX6-NEXT: s_lshr_b32 s2, s2, s3
; GFX6-NEXT: s_or_b32 s1, s2, s1		; GFX6-NEXT: s_or_b32 s1, s1, s2
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshl_v2i16:		; GFX8-LABEL: s_fshl_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define <2 x i16> @v_fshl_v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt) {		define <2 x i16> @v_fshl_v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt) {
; GFX6-LABEL: v_fshl_v2i16:		; GFX6-LABEL: v_fshl_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_and_b32_e32 v5, 15, v2		; GFX6-NEXT: v_and_b32_e32 v6, 15, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v2
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX6-NEXT: v_bfe_u32 v5, v5, 0, 16
; GFX6-NEXT: v_and_b32_e32 v2, 15, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v5, v0
; GFX6-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 1, v5
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v5
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v2, 15, v4
; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4
		; GFX6-NEXT: s_mov_b32 s4, 0xffff
		; GFX6-NEXT: v_and_b32_e32 v4, 15, v4
		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
		; GFX6-NEXT: v_bfe_u32 v6, v6, 0, 16
		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
		; GFX6-NEXT: v_bfe_u32 v4, v4, 0, 16
		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2
		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v6, v0
		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
		; GFX6-NEXT: v_and_b32_e32 v2, 15, v5
		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v5
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v2, v1
		; GFX6-NEXT: v_and_b32_e32 v2, s4, v3
; GFX6-NEXT: v_and_b32_e32 v4, 15, v4		; GFX6-NEXT: v_and_b32_e32 v4, 15, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 17, v1
; GFX6-NEXT: v_bfe_u32 v3, v4, 0, 16		; GFX6-NEXT: v_bfe_u32 v3, v4, 0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v3, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v3, v2
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_v2i16:		; GFX8-LABEL: v_fshl_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_and_b32_e32 v4, 15, v2		; GFX8-NEXT: v_and_b32_e32 v4, 15, v2
; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v2
; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)		%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <2 x i16> @v_fshl_v2i16_4_8(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_fshl_v2i16_4_8(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_fshl_v2i16_4_8:		; GFX6-LABEL: v_fshl_v2i16_4_8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v1
; GFX6-NEXT: s_bfe_u32 s4, 4, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, 4, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s4, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 1, v3		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: s_bfe_u32 s4, 11, 0x100000		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, s4, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
; GFX6-NEXT: s_bfe_u32 s4, 8, 0x100000		; GFX6-NEXT: s_bfe_u32 s5, 11, 0x100000
; GFX6-NEXT: v_lshlrev_b32_e32 v2, s4, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, s5, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 17, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
		; GFX6-NEXT: v_and_b32_e32 v2, s4, v3
		; GFX6-NEXT: s_bfe_u32 s5, 8, 0x100000
		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
; GFX6-NEXT: s_bfe_u32 s4, 7, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, 7, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v1, s4, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s5, v1
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, s4, v2
; GFX6-NEXT: v_or_b32_e32 v0, v0, v3		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_v2i16_4_8:		; GFX8-LABEL: v_fshl_v2i16_4_8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b16_e32 v3, 1, v1		; GFX8-NEXT: v_lshrrev_b16_e32 v3, 1, v1
; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX8-NEXT: v_lshlrev_b16_e32 v0, 4, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, 4, v0
▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps float @v_fshl_v2i16_ssv(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> %amt) {		define amdgpu_ps float @v_fshl_v2i16_ssv(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> %amt) {
; GFX6-LABEL: v_fshl_v2i16_ssv:		; GFX6-LABEL: v_fshl_v2i16_ssv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_and_b32_e32 v2, 15, v0		; GFX6-NEXT: v_and_b32_e32 v2, 15, v0
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX6-NEXT: v_and_b32_e32 v0, 15, v0
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2
; GFX6-NEXT: s_and_b32 s0, s1, 0xffff		; GFX6-NEXT: s_mov_b32 s0, 0xffff
; GFX6-NEXT: s_lshr_b32 s0, s0, 1		; GFX6-NEXT: s_and_b32 s2, s2, s0
		; GFX6-NEXT: v_and_b32_e32 v0, 15, v0
		; GFX6-NEXT: s_lshr_b32 s2, s2, 1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s2, v0
; GFX6-NEXT: v_or_b32_e32 v0, v2, v0		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, 15, v1		; GFX6-NEXT: v_and_b32_e32 v2, 15, v1
; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX6-NEXT: v_and_b32_e32 v1, 15, v1		; GFX6-NEXT: v_and_b32_e32 v1, 15, v1
		; GFX6-NEXT: s_and_b32 s0, s3, s0
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16
; GFX6-NEXT: s_lshr_b32 s0, s1, 17		; GFX6-NEXT: s_lshr_b32 s0, s0, 1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshl_b32_e32 v2, s2, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s1, v2
; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)		%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @v_fshl_v2i16_svs(<2 x i16> inreg %lhs, <2 x i16> %rhs, <2 x i16> inreg %amt) {		define amdgpu_ps float @v_fshl_v2i16_svs(<2 x i16> inreg %lhs, <2 x i16> %rhs, <2 x i16> inreg %amt) {
; GFX6-LABEL: v_fshl_v2i16_svs:		; GFX6-LABEL: v_fshl_v2i16_svs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX6-NEXT: s_and_b32 s4, s2, 15
; GFX6-NEXT: s_and_b32 s4, s1, 15
; GFX6-NEXT: s_lshr_b32 s3, s1, 16
; GFX6-NEXT: s_andn2_b32 s1, 15, s1
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, s1, v1
; GFX6-NEXT: s_lshl_b32 s0, s0, s4		; GFX6-NEXT: s_lshl_b32 s0, s0, s4
; GFX6-NEXT: v_or_b32_e32 v1, s0, v1		; GFX6-NEXT: s_mov_b32 s4, 0xffff
		; GFX6-NEXT: s_andn2_b32 s2, 15, s2
		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 1, v0
		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
		; GFX6-NEXT: v_lshrrev_b32_e32 v0, s2, v0
		; GFX6-NEXT: v_or_b32_e32 v0, s0, v0
; GFX6-NEXT: s_and_b32 s0, s3, 15		; GFX6-NEXT: s_and_b32 s0, s3, 15
; GFX6-NEXT: s_andn2_b32 s1, 15, s3
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 17, v0		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_andn2_b32 s2, 15, s3
; GFX6-NEXT: s_lshl_b32 s0, s2, s0		; GFX6-NEXT: s_lshl_b32 s0, s1, s0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, s1, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1
; GFX6-NEXT: v_or_b32_e32 v0, s0, v0		; GFX6-NEXT: s_bfe_u32 s1, s2, 0x100000
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_lshrrev_b32_e32 v1, s1, v1
		; GFX6-NEXT: v_or_b32_e32 v1, s0, v1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: v_fshl_v2i16_svs:		; GFX8-LABEL: v_fshl_v2i16_svs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_and_b32 s4, s1, 15		; GFX8-NEXT: s_and_b32 s4, s1, 15
; GFX8-NEXT: s_lshr_b32 s3, s1, 16		; GFX8-NEXT: s_lshr_b32 s3, s1, 16
; GFX8-NEXT: s_andn2_b32 s1, 15, s1		; GFX8-NEXT: s_andn2_b32 s1, 15, s1
; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v0		; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v0
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)		%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @v_fshl_v2i16_vss(<2 x i16> %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {		define amdgpu_ps float @v_fshl_v2i16_vss(<2 x i16> %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {
; GFX6-LABEL: v_fshl_v2i16_vss:		; GFX6-LABEL: v_fshl_v2i16_vss:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_and_b32 s3, s1, 15		; GFX6-NEXT: s_and_b32 s4, s2, 15
; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s4, v0
; GFX6-NEXT: s_lshr_b32 s2, s1, 16		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: s_andn2_b32 s1, 15, s1
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s3, v0
; GFX6-NEXT: s_and_b32 s3, s0, 0xffff
; GFX6-NEXT: s_lshr_b32 s3, s3, 1
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_lshr_b32 s1, s3, s1
; GFX6-NEXT: v_or_b32_e32 v0, s1, v0
; GFX6-NEXT: s_and_b32 s1, s2, 15
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_andn2_b32 s2, 15, s2		; GFX6-NEXT: s_andn2_b32 s2, 15, s2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, s1, v1		; GFX6-NEXT: s_and_b32 s0, s0, s4
; GFX6-NEXT: s_lshr_b32 s0, s0, 17		; GFX6-NEXT: s_lshr_b32 s0, s0, 1
		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
		; GFX6-NEXT: s_lshr_b32 s0, s0, s2
		; GFX6-NEXT: v_or_b32_e32 v0, s0, v0
		; GFX6-NEXT: s_and_b32 s0, s3, 15
		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s0, v1
		; GFX6-NEXT: s_and_b32 s0, s1, s4
		; GFX6-NEXT: s_andn2_b32 s2, 15, s3
		; GFX6-NEXT: s_lshr_b32 s0, s0, 1
; GFX6-NEXT: s_bfe_u32 s1, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s1, s2, 0x100000
; GFX6-NEXT: s_lshr_b32 s0, s0, s1		; GFX6-NEXT: s_lshr_b32 s0, s0, s1
; GFX6-NEXT: v_or_b32_e32 v1, s0, v1		; GFX6-NEXT: v_or_b32_e32 v1, s0, v1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
▲ Show 20 Lines • Show All 3,696 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,060 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call i16 @llvm.fshr.i16(i16 %lhs, i16 %rhs, i16 %amt)		%result = call i16 @llvm.fshr.i16(i16 %lhs, i16 %rhs, i16 %amt)
%cast.result = bitcast i16 %result to half		%cast.result = bitcast i16 %result to half
ret half %cast.result		ret half %cast.result
}		}

define amdgpu_ps i32 @s_fshr_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {		define amdgpu_ps i32 @s_fshr_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {
; GFX6-LABEL: s_fshr_v2i16:		; GFX6-LABEL: s_fshr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s5, 0xffff		; GFX6-NEXT: s_mov_b32 s6, 0xffff
; GFX6-NEXT: s_lshr_b32 s3, s0, 16		; GFX6-NEXT: s_lshl_b32 s5, s5, 16
; GFX6-NEXT: s_bfe_u32 s4, 1, 0x100000		; GFX6-NEXT: s_and_b32 s4, s4, s6
; GFX6-NEXT: s_and_b32 s6, s1, s5		; GFX6-NEXT: s_or_b32 s4, s5, s4
; GFX6-NEXT: s_lshl_b32 s0, s0, s4		; GFX6-NEXT: s_bfe_u32 s5, 1, 0x100000
; GFX6-NEXT: s_lshl_b32 s3, s3, s4		; GFX6-NEXT: s_and_b32 s7, s2, s6
; GFX6-NEXT: s_bfe_u32 s7, 14, 0x100000		; GFX6-NEXT: s_lshl_b32 s0, s0, s5
; GFX6-NEXT: s_lshr_b32 s4, s1, 17		; GFX6-NEXT: s_lshl_b32 s1, s1, s5
; GFX6-NEXT: s_lshr_b32 s6, s6, 1		; GFX6-NEXT: s_and_b32 s5, s3, s6
; GFX6-NEXT: s_lshr_b32 s4, s4, s7		; GFX6-NEXT: s_lshr_b32 s7, s7, 1
; GFX6-NEXT: s_lshr_b32 s6, s6, s7		; GFX6-NEXT: s_bfe_u32 s8, 14, 0x100000
; GFX6-NEXT: s_or_b32 s3, s3, s4		; GFX6-NEXT: s_lshr_b32 s5, s5, 1
; GFX6-NEXT: s_lshr_b32 s4, s1, 16		; GFX6-NEXT: s_lshl_b32 s2, s2, 1
; GFX6-NEXT: s_lshl_b32 s1, s1, 1		; GFX6-NEXT: s_lshr_b32 s7, s7, s8
; GFX6-NEXT: s_xor_b32 s2, s2, -1		; GFX6-NEXT: s_lshr_b32 s5, s5, s8
; GFX6-NEXT: s_and_b32 s7, s2, 15		; GFX6-NEXT: s_xor_b32 s4, s4, -1
; GFX6-NEXT: s_and_b32 s1, s1, s5		; GFX6-NEXT: s_and_b32 s2, s2, s6
; GFX6-NEXT: s_or_b32 s0, s0, s6		; GFX6-NEXT: s_or_b32 s0, s0, s7
; GFX6-NEXT: s_lshr_b32 s6, s2, 16		; GFX6-NEXT: s_and_b32 s7, s4, 15
; GFX6-NEXT: s_andn2_b32 s2, 15, s2		; GFX6-NEXT: s_or_b32 s1, s1, s5
		; GFX6-NEXT: s_lshr_b32 s5, s4, 16
		; GFX6-NEXT: s_andn2_b32 s4, 15, s4
; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000		; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000
; GFX6-NEXT: s_lshr_b32 s1, s1, 1		; GFX6-NEXT: s_lshr_b32 s2, s2, 1
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: s_lshr_b32 s1, s1, s2		; GFX6-NEXT: s_lshr_b32 s2, s2, s4
; GFX6-NEXT: s_lshl_b32 s0, s0, s7		; GFX6-NEXT: s_lshl_b32 s0, s0, s7
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s2
; GFX6-NEXT: s_and_b32 s1, s6, 15		; GFX6-NEXT: s_and_b32 s2, s5, 15
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_lshl_b32 s4, s4, 1
; GFX6-NEXT: s_andn2_b32 s2, 15, s6
; GFX6-NEXT: s_lshl_b32 s1, s3, s1
; GFX6-NEXT: s_and_b32 s3, s4, s5
; GFX6-NEXT: s_lshr_b32 s3, s3, 1
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX6-NEXT: s_lshr_b32 s2, s3, s2		; GFX6-NEXT: s_lshl_b32 s3, s3, 1
		; GFX6-NEXT: s_lshl_b32 s1, s1, s2
		; GFX6-NEXT: s_and_b32 s2, s3, s6
		; GFX6-NEXT: s_andn2_b32 s4, 15, s5
		; GFX6-NEXT: s_lshr_b32 s2, s2, 1
		; GFX6-NEXT: s_bfe_u32 s3, s4, 0x100000
		; GFX6-NEXT: s_lshr_b32 s2, s2, s3
; GFX6-NEXT: s_or_b32 s1, s1, s2		; GFX6-NEXT: s_or_b32 s1, s1, s2
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshr_v2i16:		; GFX8-LABEL: s_fshr_v2i16:
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define <2 x i16> @v_fshr_v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt) {		define <2 x i16> @v_fshr_v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt) {
; GFX6-LABEL: v_fshr_v2i16:		; GFX6-LABEL: v_fshr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_lshlrev_b32_e32 v5, 16, v5
		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: s_mov_b32 s5, 0xffff		; GFX6-NEXT: s_mov_b32 s5, 0xffff
; GFX6-NEXT: v_and_b32_e32 v4, s5, v1		; GFX6-NEXT: v_or_b32_e32 v4, v5, v4
		; GFX6-NEXT: v_and_b32_e32 v5, s5, v2
; GFX6-NEXT: s_bfe_u32 s4, 1, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, 1, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 1, v4		; GFX6-NEXT: v_lshrrev_b32_e32 v5, 1, v5
; GFX6-NEXT: s_bfe_u32 s6, 14, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, 14, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s4, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v4, s6, v4		; GFX6-NEXT: v_lshrrev_b32_e32 v5, s6, v5
; GFX6-NEXT: v_or_b32_e32 v0, v0, v4		; GFX6-NEXT: v_or_b32_e32 v0, v0, v5
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 17, v1		; GFX6-NEXT: v_and_b32_e32 v5, s5, v3
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v5, 1, v5
; GFX6-NEXT: v_lshlrev_b32_e32 v3, s4, v3		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v4, s6, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s4, v1
; GFX6-NEXT: v_and_b32_e32 v6, 15, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v5, s6, v5
; GFX6-NEXT: v_or_b32_e32 v3, v3, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX6-NEXT: v_and_b32_e32 v6, 15, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 1, v1		; GFX6-NEXT: v_or_b32_e32 v1, v1, v5
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v4
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4
; GFX6-NEXT: v_and_b32_e32 v2, 15, v2		; GFX6-NEXT: v_and_b32_e32 v4, 15, v4
; GFX6-NEXT: v_and_b32_e32 v1, s5, v1		; GFX6-NEXT: v_and_b32_e32 v2, s5, v2
; GFX6-NEXT: v_bfe_u32 v6, v6, 0, 16		; GFX6-NEXT: v_bfe_u32 v6, v6, 0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_u32 v4, v4, 0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v6, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v6, v0
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v1, 15, v5		; GFX6-NEXT: v_and_b32_e32 v2, 15, v5
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v5		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v5
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v4, 1, v4
; GFX6-NEXT: v_and_b32_e32 v2, 15, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, v1, v3
; GFX6-NEXT: v_and_b32_e32 v3, s5, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 1, v3
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v2, v1
		; GFX6-NEXT: v_and_b32_e32 v2, s5, v3
		; GFX6-NEXT: v_and_b32_e32 v4, 15, v4
		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
		; GFX6-NEXT: v_bfe_u32 v3, v4, 0, 16
		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v3, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v2i16:		; GFX8-LABEL: v_fshr_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b16_e32 v4, 1, v1		; GFX8-NEXT: v_lshrrev_b16_e32 v4, 1, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v3, 1, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v3, 1, v0
; GFX8-NEXT: v_lshrrev_b16_e32 v4, 14, v4		; GFX8-NEXT: v_lshrrev_b16_e32 v4, 14, v4
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
}		}

define <2 x i16> @v_fshr_v2i16_4_8(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_fshr_v2i16_4_8(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_fshr_v2i16_4_8:		; GFX6-LABEL: v_fshr_v2i16_4_8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_sub_i32 s4, 0, 4		; GFX6-NEXT: s_sub_i32 s4, 0, 4
; GFX6-NEXT: s_and_b32 s6, s4, 15		; GFX6-NEXT: s_and_b32 s6, s4, 15
; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v1		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s6, v0
		; GFX6-NEXT: s_mov_b32 s6, 0xffff
; GFX6-NEXT: s_xor_b32 s4, s4, -1		; GFX6-NEXT: s_xor_b32 s4, s4, -1
		; GFX6-NEXT: v_and_b32_e32 v2, s6, v2
; GFX6-NEXT: s_sub_i32 s5, 0, 8		; GFX6-NEXT: s_sub_i32 s5, 0, 8
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 1, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v3, s4, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v2, s4, v2
; GFX6-NEXT: s_and_b32 s4, s5, 15		; GFX6-NEXT: s_and_b32 s4, s5, 15
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
		; GFX6-NEXT: v_and_b32_e32 v2, s6, v3
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: s_xor_b32 s5, s5, -1		; GFX6-NEXT: s_xor_b32 s5, s5, -1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, s4, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s4, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 17, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
; GFX6-NEXT: s_bfe_u32 s4, s5, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s5, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v1, s4, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, s4, v2
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s6, v0
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v3
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v2i16_4_8:		; GFX8-LABEL: v_fshr_v2i16_4_8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_sub_i32 s4, 0, 4		; GFX8-NEXT: s_sub_i32 s4, 0, 4
; GFX8-NEXT: s_and_b32 s6, s4, 15		; GFX8-NEXT: s_and_b32 s6, s4, 15
; GFX8-NEXT: s_sub_i32 s5, 0, 8		; GFX8-NEXT: s_sub_i32 s5, 0, 8
▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.fshr.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> <i16 4, i16 8>)		%result = call <2 x i16> @llvm.fshr.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> <i16 4, i16 8>)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps float @v_fshr_v2i16_ssv(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> %amt) {		define amdgpu_ps float @v_fshr_v2i16_ssv(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs, <2 x i16> %amt) {
; GFX6-LABEL: v_fshr_v2i16_ssv:		; GFX6-LABEL: v_fshr_v2i16_ssv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s5, 0xffff
; GFX6-NEXT: s_and_b32 s5, s1, s4		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: s_lshr_b32 s2, s0, 16		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: s_bfe_u32 s3, 1, 0x100000		; GFX6-NEXT: s_and_b32 s6, s2, s5
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
		; GFX6-NEXT: s_bfe_u32 s4, 1, 0x100000
; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX6-NEXT: s_lshl_b32 s0, s0, s3		; GFX6-NEXT: s_lshr_b32 s6, s6, 1
; GFX6-NEXT: s_lshl_b32 s2, s2, s3		; GFX6-NEXT: s_bfe_u32 s7, 14, 0x100000
; GFX6-NEXT: s_lshr_b32 s5, s5, 1
; GFX6-NEXT: s_bfe_u32 s6, 14, 0x100000
; GFX6-NEXT: s_lshr_b32 s3, s1, 17
; GFX6-NEXT: v_and_b32_e32 v2, 15, v0		; GFX6-NEXT: v_and_b32_e32 v2, 15, v0
; GFX6-NEXT: s_lshr_b32 s5, s5, s6		; GFX6-NEXT: s_lshl_b32 s0, s0, s4
; GFX6-NEXT: s_lshr_b32 s3, s3, s6		; GFX6-NEXT: s_lshr_b32 s6, s6, s7
; GFX6-NEXT: s_or_b32 s2, s2, s3
; GFX6-NEXT: s_lshr_b32 s3, s1, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX6-NEXT: s_or_b32 s0, s0, s5		; GFX6-NEXT: s_or_b32 s0, s0, s6
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16
; GFX6-NEXT: s_lshl_b32 s1, s1, 1		; GFX6-NEXT: s_lshl_b32 s2, s2, 1
; GFX6-NEXT: v_and_b32_e32 v0, 15, v0		; GFX6-NEXT: v_and_b32_e32 v0, 15, v0
; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2
; GFX6-NEXT: s_and_b32 s0, s1, s4		; GFX6-NEXT: s_and_b32 s0, s2, s5
; GFX6-NEXT: s_lshr_b32 s0, s0, 1		; GFX6-NEXT: s_lshr_b32 s0, s0, 1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0
		; GFX6-NEXT: s_lshl_b32 s1, s1, s4
		; GFX6-NEXT: s_and_b32 s4, s3, s5
; GFX6-NEXT: v_or_b32_e32 v0, v2, v0		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, 15, v1		; GFX6-NEXT: v_and_b32_e32 v2, 15, v1
		; GFX6-NEXT: s_lshr_b32 s4, s4, 1
; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX6-NEXT: s_lshl_b32 s3, s3, 1		; GFX6-NEXT: s_lshl_b32 s3, s3, 1
; GFX6-NEXT: v_and_b32_e32 v1, 15, v1		; GFX6-NEXT: v_and_b32_e32 v1, 15, v1
; GFX6-NEXT: s_and_b32 s0, s3, s4		; GFX6-NEXT: s_and_b32 s0, s3, s5
		; GFX6-NEXT: s_lshr_b32 s4, s4, s7
		; GFX6-NEXT: s_or_b32 s1, s1, s4
; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_u32 v2, v2, 0, 16
; GFX6-NEXT: s_lshr_b32 s0, s0, 1		; GFX6-NEXT: s_lshr_b32 s0, s0, 1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_lshl_b32_e32 v2, s2, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s1, v2
; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @v_fshr_v2i16_svs(<2 x i16> inreg %lhs, <2 x i16> %rhs, <2 x i16> inreg %amt) {		define amdgpu_ps float @v_fshr_v2i16_svs(<2 x i16> inreg %lhs, <2 x i16> %rhs, <2 x i16> inreg %amt) {
; GFX6-LABEL: v_fshr_v2i16_svs:		; GFX6-LABEL: v_fshr_v2i16_svs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_and_b32_e32 v1, s4, v0		; GFX6-NEXT: v_and_b32_e32 v2, s4, v0
		; GFX6-NEXT: s_lshl_b32 s3, s3, 16
		; GFX6-NEXT: s_and_b32 s2, s2, s4
		; GFX6-NEXT: v_and_b32_e32 v3, s4, v1
		; GFX6-NEXT: s_or_b32 s2, s3, s2
; GFX6-NEXT: s_bfe_u32 s3, 1, 0x100000		; GFX6-NEXT: s_bfe_u32 s3, 1, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2
; GFX6-NEXT: s_bfe_u32 s5, 14, 0x100000		; GFX6-NEXT: s_bfe_u32 s5, 14, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 17, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 1, v3
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, s3		; GFX6-NEXT: s_lshl_b32 s0, s0, s3
; GFX6-NEXT: v_lshrrev_b32_e32 v1, s5, v1
; GFX6-NEXT: v_or_b32_e32 v1, s0, v1
; GFX6-NEXT: s_lshl_b32 s0, s2, s3
; GFX6-NEXT: v_lshrrev_b32_e32 v2, s5, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, s5, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX6-NEXT: v_or_b32_e32 v2, s0, v2		; GFX6-NEXT: v_or_b32_e32 v2, s0, v2
; GFX6-NEXT: s_xor_b32 s0, s1, -1		; GFX6-NEXT: s_lshl_b32 s0, s1, s3
		; GFX6-NEXT: v_lshrrev_b32_e32 v3, s5, v3
		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
		; GFX6-NEXT: v_or_b32_e32 v3, s0, v3
		; GFX6-NEXT: s_xor_b32 s0, s2, -1
; GFX6-NEXT: s_and_b32 s2, s0, 15		; GFX6-NEXT: s_and_b32 s2, s0, 15
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16		; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_andn2_b32 s0, 15, s0		; GFX6-NEXT: s_andn2_b32 s0, 15, s0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 1, v0
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 1, v1
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, s0, v0
; GFX6-NEXT: s_and_b32 s0, s1, 15		; GFX6-NEXT: s_and_b32 s0, s1, 15
; GFX6-NEXT: v_lshlrev_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v2, s2, v2
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, s0, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3
; GFX6-NEXT: s_andn2_b32 s1, 15, s1		; GFX6-NEXT: s_andn2_b32 s1, 15, s1
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 1, v2		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
		; GFX6-NEXT: v_lshlrev_b32_e32 v2, s0, v3
		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1
; GFX6-NEXT: s_bfe_u32 s0, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s1, 0x100000
; GFX6-NEXT: v_lshrrev_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v1, s0, v1
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: v_fshr_v2i16_svs:		; GFX8-LABEL: v_fshr_v2i16_svs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.fshr.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)		%result = call <2 x i16> @llvm.fshr.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> %amt)
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @v_fshr_v2i16_vss(<2 x i16> %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {		define amdgpu_ps float @v_fshr_v2i16_vss(<2 x i16> %lhs, <2 x i16> inreg %rhs, <2 x i16> inreg %amt) {
; GFX6-LABEL: v_fshr_v2i16_vss:		; GFX6-LABEL: v_fshr_v2i16_vss:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s3, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: s_lshl_b32 s3, s3, 16
; GFX6-NEXT: s_bfe_u32 s2, 1, 0x100000		; GFX6-NEXT: s_and_b32 s2, s2, s4
; GFX6-NEXT: s_and_b32 s4, s0, s3		; GFX6-NEXT: s_or_b32 s2, s3, s2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s2, v0		; GFX6-NEXT: s_bfe_u32 s3, 1, 0x100000
; GFX6-NEXT: v_lshlrev_b32_e32 v1, s2, v1		; GFX6-NEXT: s_and_b32 s5, s0, s4
; GFX6-NEXT: s_bfe_u32 s5, 14, 0x100000		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s3, v0
; GFX6-NEXT: s_lshr_b32 s2, s0, 17		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s3, v1
; GFX6-NEXT: s_lshr_b32 s4, s4, 1		; GFX6-NEXT: s_and_b32 s3, s1, s4
; GFX6-NEXT: s_lshr_b32 s2, s2, s5		; GFX6-NEXT: s_lshr_b32 s5, s5, 1
; GFX6-NEXT: s_lshr_b32 s4, s4, s5		; GFX6-NEXT: s_bfe_u32 s6, 14, 0x100000
; GFX6-NEXT: v_or_b32_e32 v1, s2, v1		; GFX6-NEXT: s_lshr_b32 s3, s3, 1
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 1		; GFX6-NEXT: s_lshl_b32 s0, s0, 1
; GFX6-NEXT: s_xor_b32 s1, s1, -1		; GFX6-NEXT: s_lshr_b32 s5, s5, s6
; GFX6-NEXT: s_and_b32 s5, s1, 15		; GFX6-NEXT: s_lshr_b32 s3, s3, s6
; GFX6-NEXT: s_and_b32 s0, s0, s3		; GFX6-NEXT: s_xor_b32 s2, s2, -1
; GFX6-NEXT: v_or_b32_e32 v0, s4, v0		; GFX6-NEXT: s_and_b32 s0, s0, s4
; GFX6-NEXT: s_lshr_b32 s4, s1, 16		; GFX6-NEXT: v_or_b32_e32 v0, s5, v0
; GFX6-NEXT: s_andn2_b32 s1, 15, s1		; GFX6-NEXT: s_and_b32 s5, s2, 15
		; GFX6-NEXT: v_or_b32_e32 v1, s3, v1
		; GFX6-NEXT: s_lshr_b32 s3, s2, 16
		; GFX6-NEXT: s_andn2_b32 s2, 15, s2
; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX6-NEXT: s_lshr_b32 s0, s0, 1		; GFX6-NEXT: s_lshr_b32 s0, s0, 1
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX6-NEXT: s_lshr_b32 s0, s0, s1		; GFX6-NEXT: s_lshr_b32 s0, s0, s2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s5, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s5, v0
; GFX6-NEXT: v_or_b32_e32 v0, s0, v0		; GFX6-NEXT: v_or_b32_e32 v0, s0, v0
; GFX6-NEXT: s_and_b32 s0, s4, 15		; GFX6-NEXT: s_and_b32 s0, s3, 15
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: s_lshl_b32 s2, s2, 1		; GFX6-NEXT: s_lshl_b32 s1, s1, 1
; GFX6-NEXT: s_andn2_b32 s1, 15, s4
; GFX6-NEXT: v_lshlrev_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s0, v1
; GFX6-NEXT: s_and_b32 s0, s2, s3		; GFX6-NEXT: s_and_b32 s0, s1, s4
		; GFX6-NEXT: s_andn2_b32 s2, 15, s3
; GFX6-NEXT: s_lshr_b32 s0, s0, 1		; GFX6-NEXT: s_lshr_b32 s0, s0, 1
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s1, s2, 0x100000
; GFX6-NEXT: s_lshr_b32 s0, s0, s1		; GFX6-NEXT: s_lshr_b32 s0, s0, s1
; GFX6-NEXT: v_or_b32_e32 v1, s0, v1		; GFX6-NEXT: v_or_b32_e32 v1, s0, v1
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
▲ Show 20 Lines • Show All 3,814 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-call.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 564 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_call_external_void_func_i8_signext(i32) #0 {
; CHECK: [[COPY18:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)		; CHECK: [[COPY18:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
; CHECK: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 10		; CHECK: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
; CHECK: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[COPY18]], [[C1]](s32)		; CHECK: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[COPY18]], [[C1]](s32)
; CHECK: [[OR:%[0-9]+]]:_(s32) = G_OR [[COPY17]], [[SHL]]		; CHECK: [[OR:%[0-9]+]]:_(s32) = G_OR [[COPY17]], [[SHL]]
; CHECK: [[COPY19:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)		; CHECK: [[COPY19:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
; CHECK: [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 20		; CHECK: [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 20
; CHECK: [[SHL1:%[0-9]+]]:_(s32) = G_SHL [[COPY19]], [[C2]](s32)		; CHECK: [[SHL1:%[0-9]+]]:_(s32) = G_SHL [[COPY19]], [[C2]](s32)
; CHECK: [[OR1:%[0-9]+]]:_(s32) = G_OR [[OR]], [[SHL1]]		; CHECK: [[OR1:%[0-9]+]]:_(s32) = G_OR [[OR]], [[SHL1]]
; CHECK: [[SEXT:%[0-9]+]]:_(s32) = G_SEXT [[LOAD]](s8)		; CHECK: [[SEXT:%[0-9]+]]:_(s16) = G_SEXT [[LOAD]](s8)
; CHECK: $vgpr0 = COPY [[SEXT]](s32)		; CHECK: [[SEXT1:%[0-9]+]]:_(s32) = G_SEXT [[SEXT]](s16)
		; CHECK: $vgpr0 = COPY [[SEXT1]](s32)
; CHECK: [[COPY20:%[0-9]+]]:_(<4 x s32>) = COPY $private_rsrc_reg		; CHECK: [[COPY20:%[0-9]+]]:_(<4 x s32>) = COPY $private_rsrc_reg
; CHECK: $sgpr0_sgpr1_sgpr2_sgpr3 = COPY [[COPY20]](<4 x s32>)		; CHECK: $sgpr0_sgpr1_sgpr2_sgpr3 = COPY [[COPY20]](<4 x s32>)
; CHECK: $sgpr4_sgpr5 = COPY [[COPY10]](p4)		; CHECK: $sgpr4_sgpr5 = COPY [[COPY10]](p4)
; CHECK: $sgpr6_sgpr7 = COPY [[COPY11]](p4)		; CHECK: $sgpr6_sgpr7 = COPY [[COPY11]](p4)
; CHECK: $sgpr8_sgpr9 = COPY [[PTR_ADD]](p4)		; CHECK: $sgpr8_sgpr9 = COPY [[PTR_ADD]](p4)
; CHECK: $sgpr10_sgpr11 = COPY [[COPY13]](s64)		; CHECK: $sgpr10_sgpr11 = COPY [[COPY13]](s64)
; CHECK: $sgpr12 = COPY [[COPY14]](s32)		; CHECK: $sgpr12 = COPY [[COPY14]](s32)
; CHECK: $sgpr13 = COPY [[COPY15]](s32)		; CHECK: $sgpr13 = COPY [[COPY15]](s32)
Show All 39 Lines	define amdgpu_kernel void @test_call_external_void_func_i8_zeroext(i32) #0 {
; CHECK: [[COPY18:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)		; CHECK: [[COPY18:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
; CHECK: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 10		; CHECK: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
; CHECK: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[COPY18]], [[C1]](s32)		; CHECK: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[COPY18]], [[C1]](s32)
; CHECK: [[OR:%[0-9]+]]:_(s32) = G_OR [[COPY17]], [[SHL]]		; CHECK: [[OR:%[0-9]+]]:_(s32) = G_OR [[COPY17]], [[SHL]]
; CHECK: [[COPY19:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)		; CHECK: [[COPY19:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
; CHECK: [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 20		; CHECK: [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 20
; CHECK: [[SHL1:%[0-9]+]]:_(s32) = G_SHL [[COPY19]], [[C2]](s32)		; CHECK: [[SHL1:%[0-9]+]]:_(s32) = G_SHL [[COPY19]], [[C2]](s32)
; CHECK: [[OR1:%[0-9]+]]:_(s32) = G_OR [[OR]], [[SHL1]]		; CHECK: [[OR1:%[0-9]+]]:_(s32) = G_OR [[OR]], [[SHL1]]
; CHECK: [[ZEXT:%[0-9]+]]:_(s32) = G_ZEXT [[LOAD]](s8)		; CHECK: [[ZEXT:%[0-9]+]]:_(s16) = G_ZEXT [[LOAD]](s8)
; CHECK: $vgpr0 = COPY [[ZEXT]](s32)		; CHECK: [[ZEXT1:%[0-9]+]]:_(s32) = G_ZEXT [[ZEXT]](s16)
		; CHECK: $vgpr0 = COPY [[ZEXT1]](s32)
; CHECK: [[COPY20:%[0-9]+]]:_(<4 x s32>) = COPY $private_rsrc_reg		; CHECK: [[COPY20:%[0-9]+]]:_(<4 x s32>) = COPY $private_rsrc_reg
; CHECK: $sgpr0_sgpr1_sgpr2_sgpr3 = COPY [[COPY20]](<4 x s32>)		; CHECK: $sgpr0_sgpr1_sgpr2_sgpr3 = COPY [[COPY20]](<4 x s32>)
; CHECK: $sgpr4_sgpr5 = COPY [[COPY10]](p4)		; CHECK: $sgpr4_sgpr5 = COPY [[COPY10]](p4)
; CHECK: $sgpr6_sgpr7 = COPY [[COPY11]](p4)		; CHECK: $sgpr6_sgpr7 = COPY [[COPY11]](p4)
; CHECK: $sgpr8_sgpr9 = COPY [[PTR_ADD]](p4)		; CHECK: $sgpr8_sgpr9 = COPY [[PTR_ADD]](p4)
; CHECK: $sgpr10_sgpr11 = COPY [[COPY13]](s64)		; CHECK: $sgpr10_sgpr11 = COPY [[COPY13]](s64)
; CHECK: $sgpr12 = COPY [[COPY14]](s32)		; CHECK: $sgpr12 = COPY [[COPY14]](s32)
; CHECK: $sgpr13 = COPY [[COPY15]](s32)		; CHECK: $sgpr13 = COPY [[COPY15]](s32)
▲ Show 20 Lines • Show All 4,460 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-function-args.ll

Show First 20 Lines • Show All 252 Lines • ▼ Show 20 Lines	define void @void_func_i24(i24 %arg0) #0 {
ret void		ret void
}		}

define void @void_func_i24_zeroext(i24 zeroext %arg0) #0 {		define void @void_func_i24_zeroext(i24 zeroext %arg0) #0 {
; CHECK-LABEL: name: void_func_i24_zeroext		; CHECK-LABEL: name: void_func_i24_zeroext
; CHECK: bb.1 (%ir-block.0):		; CHECK: bb.1 (%ir-block.0):
; CHECK: liveins: $vgpr0, $sgpr30_sgpr31		; CHECK: liveins: $vgpr0, $sgpr30_sgpr31
; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; CHECK: [[TRUNC:%[0-9]+]]:_(s24) = G_TRUNC [[COPY]](s32)		; CHECK: [[ASSERT_ZEXT:%[0-9]+]]:_(s32) = G_ASSERT_ZEXT [[COPY]], 24
		; CHECK: [[TRUNC:%[0-9]+]]:_(s24) = G_TRUNC [[ASSERT_ZEXT]](s32)
; CHECK: [[COPY1:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31		; CHECK: [[COPY1:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
; CHECK: [[DEF:%[0-9]+]]:_(p1) = G_IMPLICIT_DEF		; CHECK: [[DEF:%[0-9]+]]:_(p1) = G_IMPLICIT_DEF
; CHECK: G_STORE [[TRUNC]](s24), [[DEF]](p1) :: (store 3 into `i24 addrspace(1)* undef`, align 4, addrspace 1)		; CHECK: G_STORE [[TRUNC]](s24), [[DEF]](p1) :: (store 3 into `i24 addrspace(1)* undef`, align 4, addrspace 1)
; CHECK: [[COPY2:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY1]]		; CHECK: [[COPY2:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY1]]
; CHECK: S_SETPC_B64_return [[COPY2]]		; CHECK: S_SETPC_B64_return [[COPY2]]
store i24 %arg0, i24 addrspace(1)* undef		store i24 %arg0, i24 addrspace(1)* undef
ret void		ret void
}		}

define void @void_func_i24_signext(i24 signext %arg0) #0 {		define void @void_func_i24_signext(i24 signext %arg0) #0 {
; CHECK-LABEL: name: void_func_i24_signext		; CHECK-LABEL: name: void_func_i24_signext
; CHECK: bb.1 (%ir-block.0):		; CHECK: bb.1 (%ir-block.0):
; CHECK: liveins: $vgpr0, $sgpr30_sgpr31		; CHECK: liveins: $vgpr0, $sgpr30_sgpr31
; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; CHECK: [[TRUNC:%[0-9]+]]:_(s24) = G_TRUNC [[COPY]](s32)		; CHECK: [[ASSERT_SEXT:%[0-9]+]]:_(s32) = G_ASSERT_SEXT [[COPY]], 24
		; CHECK: [[TRUNC:%[0-9]+]]:_(s24) = G_TRUNC [[ASSERT_SEXT]](s32)
; CHECK: [[COPY1:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31		; CHECK: [[COPY1:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
; CHECK: [[DEF:%[0-9]+]]:_(p1) = G_IMPLICIT_DEF		; CHECK: [[DEF:%[0-9]+]]:_(p1) = G_IMPLICIT_DEF
; CHECK: G_STORE [[TRUNC]](s24), [[DEF]](p1) :: (store 3 into `i24 addrspace(1)* undef`, align 4, addrspace 1)		; CHECK: G_STORE [[TRUNC]](s24), [[DEF]](p1) :: (store 3 into `i24 addrspace(1)* undef`, align 4, addrspace 1)
; CHECK: [[COPY2:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY1]]		; CHECK: [[COPY2:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY1]]
; CHECK: S_SETPC_B64_return [[COPY2]]		; CHECK: S_SETPC_B64_return [[COPY2]]
store i24 %arg0, i24 addrspace(1)* undef		store i24 %arg0, i24 addrspace(1)* undef
ret void		ret void
}		}
▲ Show 20 Lines • Show All 1,815 Lines • ▼ Show 20 Lines	define void @void_func_v32i32_i1_i8_i16(<32 x i32> %arg0, i1 %arg1, i8 %arg2, i16 %arg3, half %arg4) #0 {
; CHECK: [[COPY26:%[0-9]+]]:_(s32) = COPY $vgpr26		; CHECK: [[COPY26:%[0-9]+]]:_(s32) = COPY $vgpr26
; CHECK: [[COPY27:%[0-9]+]]:_(s32) = COPY $vgpr27		; CHECK: [[COPY27:%[0-9]+]]:_(s32) = COPY $vgpr27
; CHECK: [[COPY28:%[0-9]+]]:_(s32) = COPY $vgpr28		; CHECK: [[COPY28:%[0-9]+]]:_(s32) = COPY $vgpr28
; CHECK: [[COPY29:%[0-9]+]]:_(s32) = COPY $vgpr29		; CHECK: [[COPY29:%[0-9]+]]:_(s32) = COPY $vgpr29
; CHECK: [[COPY30:%[0-9]+]]:_(s32) = COPY $vgpr30		; CHECK: [[COPY30:%[0-9]+]]:_(s32) = COPY $vgpr30
; CHECK: [[COPY31:%[0-9]+]]:_(s32) = COPY $vgpr31		; CHECK: [[COPY31:%[0-9]+]]:_(s32) = COPY $vgpr31
; CHECK: [[BUILD_VECTOR:%[0-9]+]]:_(<32 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32), [[COPY4]](s32), [[COPY5]](s32), [[COPY6]](s32), [[COPY7]](s32), [[COPY8]](s32), [[COPY9]](s32), [[COPY10]](s32), [[COPY11]](s32), [[COPY12]](s32), [[COPY13]](s32), [[COPY14]](s32), [[COPY15]](s32), [[COPY16]](s32), [[COPY17]](s32), [[COPY18]](s32), [[COPY19]](s32), [[COPY20]](s32), [[COPY21]](s32), [[COPY22]](s32), [[COPY23]](s32), [[COPY24]](s32), [[COPY25]](s32), [[COPY26]](s32), [[COPY27]](s32), [[COPY28]](s32), [[COPY29]](s32), [[COPY30]](s32), [[COPY31]](s32)		; CHECK: [[BUILD_VECTOR:%[0-9]+]]:_(<32 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32), [[COPY4]](s32), [[COPY5]](s32), [[COPY6]](s32), [[COPY7]](s32), [[COPY8]](s32), [[COPY9]](s32), [[COPY10]](s32), [[COPY11]](s32), [[COPY12]](s32), [[COPY13]](s32), [[COPY14]](s32), [[COPY15]](s32), [[COPY16]](s32), [[COPY17]](s32), [[COPY18]](s32), [[COPY19]](s32), [[COPY20]](s32), [[COPY21]](s32), [[COPY22]](s32), [[COPY23]](s32), [[COPY24]](s32), [[COPY25]](s32), [[COPY26]](s32), [[COPY27]](s32), [[COPY28]](s32), [[COPY29]](s32), [[COPY30]](s32), [[COPY31]](s32)
; CHECK: [[FRAME_INDEX:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.3		; CHECK: [[FRAME_INDEX:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.3
; CHECK: [[LOAD:%[0-9]+]]:_(s1) = G_LOAD [[FRAME_INDEX]](p5) :: (invariant load 1 from %fixed-stack.3, align 16, addrspace 5)		; CHECK: [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX]](p5) :: (invariant load 1 from %fixed-stack.3, align 16, addrspace 5)
		; CHECK: [[TRUNC:%[0-9]+]]:_(s1) = G_TRUNC [[LOAD]](s32)
; CHECK: [[FRAME_INDEX1:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.2		; CHECK: [[FRAME_INDEX1:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.2
; CHECK: [[LOAD1:%[0-9]+]]:_(s16) = G_LOAD [[FRAME_INDEX1]](p5) :: (invariant load 2 from %fixed-stack.2, align 4, addrspace 5)		; CHECK: [[LOAD1:%[0-9]+]]:_(s16) = G_LOAD [[FRAME_INDEX1]](p5) :: (invariant load 2 from %fixed-stack.2, align 4, addrspace 5)
; CHECK: [[TRUNC:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD1]](s16)		; CHECK: [[TRUNC1:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD1]](s16)
; CHECK: [[FRAME_INDEX2:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.1		; CHECK: [[FRAME_INDEX2:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.1
; CHECK: [[LOAD2:%[0-9]+]]:_(s16) = G_LOAD [[FRAME_INDEX2]](p5) :: (invariant load 2 from %fixed-stack.1, align 8, addrspace 5)		; CHECK: [[LOAD2:%[0-9]+]]:_(s16) = G_LOAD [[FRAME_INDEX2]](p5) :: (invariant load 2 from %fixed-stack.1, align 8, addrspace 5)
; CHECK: [[FRAME_INDEX3:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.0		; CHECK: [[FRAME_INDEX3:%[0-9]+]]:_(p5) = G_FRAME_INDEX %fixed-stack.0
; CHECK: [[LOAD3:%[0-9]+]]:_(s16) = G_LOAD [[FRAME_INDEX3]](p5) :: (invariant load 2 from %fixed-stack.0, align 4, addrspace 5)		; CHECK: [[LOAD3:%[0-9]+]]:_(s16) = G_LOAD [[FRAME_INDEX3]](p5) :: (invariant load 2 from %fixed-stack.0, align 4, addrspace 5)
; CHECK: [[COPY32:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31		; CHECK: [[COPY32:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
; CHECK: [[DEF:%[0-9]+]]:_(p1) = G_IMPLICIT_DEF		; CHECK: [[DEF:%[0-9]+]]:_(p1) = G_IMPLICIT_DEF
; CHECK: [[COPY33:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)		; CHECK: [[COPY33:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)
; CHECK: [[COPY34:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)		; CHECK: [[COPY34:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)
; CHECK: [[COPY35:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)		; CHECK: [[COPY35:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)
; CHECK: [[COPY36:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)		; CHECK: [[COPY36:%[0-9]+]]:_(p1) = COPY [[DEF]](p1)
; CHECK: G_STORE [[BUILD_VECTOR]](<32 x s32>), [[DEF]](p1) :: (volatile store 128 into `<32 x i32> addrspace(1)* undef`, addrspace 1)		; CHECK: G_STORE [[BUILD_VECTOR]](<32 x s32>), [[DEF]](p1) :: (volatile store 128 into `<32 x i32> addrspace(1)* undef`, addrspace 1)
; CHECK: G_STORE [[LOAD]](s1), [[COPY33]](p1) :: (volatile store 1 into `i1 addrspace(1)* undef`, addrspace 1)		; CHECK: G_STORE [[TRUNC]](s1), [[COPY33]](p1) :: (volatile store 1 into `i1 addrspace(1)* undef`, addrspace 1)
; CHECK: G_STORE [[TRUNC]](s8), [[COPY34]](p1) :: (volatile store 1 into `i8 addrspace(1)* undef`, addrspace 1)		; CHECK: G_STORE [[TRUNC1]](s8), [[COPY34]](p1) :: (volatile store 1 into `i8 addrspace(1)* undef`, addrspace 1)
; CHECK: G_STORE [[LOAD2]](s16), [[COPY35]](p1) :: (volatile store 2 into `i16 addrspace(1)* undef`, addrspace 1)		; CHECK: G_STORE [[LOAD2]](s16), [[COPY35]](p1) :: (volatile store 2 into `i16 addrspace(1)* undef`, addrspace 1)
; CHECK: G_STORE [[LOAD3]](s16), [[COPY36]](p1) :: (volatile store 2 into `half addrspace(1)* undef`, addrspace 1)		; CHECK: G_STORE [[LOAD3]](s16), [[COPY36]](p1) :: (volatile store 2 into `half addrspace(1)* undef`, addrspace 1)
; CHECK: [[COPY37:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY32]]		; CHECK: [[COPY37:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY32]]
; CHECK: S_SETPC_B64_return [[COPY37]]		; CHECK: S_SETPC_B64_return [[COPY37]]
store volatile <32 x i32> %arg0, <32 x i32> addrspace(1)* undef		store volatile <32 x i32> %arg0, <32 x i32> addrspace(1)* undef
store volatile i1 %arg1, i1 addrspace(1)* undef		store volatile i1 %arg1, i1 addrspace(1)* undef
store volatile i8 %arg2, i8 addrspace(1)* undef		store volatile i8 %arg2, i8 addrspace(1)* undef
store volatile i16 %arg3, i16 addrspace(1)* undef		store volatile i16 %arg3, i16 addrspace(1)* undef
▲ Show 20 Lines • Show All 727 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/lshr.ll

Show First 20 Lines • Show All 732 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_lshr_v2i16(<2 x i16> %value, <2 x i16> %amount) {		define <2 x i16> @v_lshr_v2i16(<2 x i16> %value, <2 x i16> %amount) {
; GFX6-LABEL: v_lshr_v2i16:		; GFX6-LABEL: v_lshr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, v1, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v3, v2		; GFX6-NEXT: v_and_b32_e32 v2, s4, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_lshr_v2i16:		; GFX8-LABEL: v_lshr_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b16_e32 v2, v1, v0		; GFX8-NEXT: v_lshrrev_b16_e32 v2, v1, v0
; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_or_b32_e32 v0, v2, v0		; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
Show All 14 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = lshr <2 x i16> %value, %amount		%result = lshr <2 x i16> %value, %amount
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <2 x i16> @v_lshr_v2i16_15(<2 x i16> %value) {		define <2 x i16> @v_lshr_v2i16_15(<2 x i16> %value) {
; GFX6-LABEL: v_lshr_v2i16_15:		; GFX6-LABEL: v_lshr_v2i16_15:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 31, v0		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 15, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 15, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 15, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_lshr_v2i16_15:		; GFX8-LABEL: v_lshr_v2i16_15:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v2, 15		; GFX8-NEXT: v_mov_b32_e32 v2, 15
; GFX8-NEXT: v_lshrrev_b16_e32 v1, 15, v0		; GFX8-NEXT: v_lshrrev_b16_e32 v1, 15, v0
; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
Show All 15 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = lshr <2 x i16> %value, <i16 15, i16 15>		%result = lshr <2 x i16> %value, <i16 15, i16 15>
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps i32 @s_lshr_v2i16(<2 x i16> inreg %value, <2 x i16> inreg %amount) {		define amdgpu_ps i32 @s_lshr_v2i16(<2 x i16> inreg %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: s_lshr_v2i16:		; GFX6-LABEL: s_lshr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: s_lshr_b32 s2, s0, 16		; GFX6-NEXT: s_and_b32 s2, s2, s4
; GFX6-NEXT: s_lshr_b32 s3, s1, 16
; GFX6-NEXT: s_and_b32 s1, s1, s4
; GFX6-NEXT: s_and_b32 s0, s0, s4		; GFX6-NEXT: s_and_b32 s0, s0, s4
; GFX6-NEXT: s_lshr_b32 s0, s0, s1		; GFX6-NEXT: s_lshr_b32 s0, s0, s2
; GFX6-NEXT: s_lshr_b32 s1, s2, s3		; GFX6-NEXT: s_and_b32 s2, s3, s4
		; GFX6-NEXT: s_and_b32 s1, s1, s4
		; GFX6-NEXT: s_lshr_b32 s1, s1, s2
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_lshr_v2i16:		; GFX8-LABEL: s_lshr_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_mov_b32 s3, 0xffff		; GFX8-NEXT: s_mov_b32 s3, 0xffff
; GFX8-NEXT: s_lshr_b32 s2, s0, 16		; GFX8-NEXT: s_lshr_b32 s2, s0, 16
Show All 33 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = lshr <2 x i16> %value, %amount		%result = lshr <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @lshr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {		define amdgpu_ps float @lshr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {
; GFX6-LABEL: lshr_v2i16_sv:		; GFX6-LABEL: lshr_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: v_lshr_b32_e32 v1, s1, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: s_and_b32 s0, s0, s2		; GFX6-NEXT: s_and_b32 s0, s0, s2
; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0
		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
		; GFX6-NEXT: s_and_b32 s0, s1, s2
		; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: lshr_v2i16_sv:		; GFX8-LABEL: lshr_v2i16_sv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
; GFX8-NEXT: v_mov_b32_e32 v2, s1		; GFX8-NEXT: v_mov_b32_e32 v2, s1
Show All 14 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = lshr <2 x i16> %value, %amount		%result = lshr <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @lshr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {		define amdgpu_ps float @lshr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: lshr_v2i16_vs:		; GFX6-LABEL: lshr_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: v_lshrrev_b32_e32 v1, s1, v1
; GFX6-NEXT: s_and_b32 s0, s0, s2		; GFX6-NEXT: s_and_b32 s0, s0, s2
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, s0, v0
		; GFX6-NEXT: s_and_b32 s0, s1, s2
		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
		; GFX6-NEXT: v_lshrrev_b32_e32 v1, s0, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: lshr_v2i16_vs:		; GFX8-LABEL: lshr_v2i16_vs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
; GFX8-NEXT: v_mov_b32_e32 v2, s1		; GFX8-NEXT: v_mov_b32_e32 v2, s1
▲ Show 20 Lines • Show All 744 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/orn2.ll

Show First 20 Lines • Show All 423 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%zext = zext i16 %or to i32		%zext = zext i16 %or to i32
%cast.zext = bitcast i32 %zext to float		%cast.zext = bitcast i32 %zext to float
ret float %cast.zext		ret float %cast.zext
}		}

define amdgpu_ps i32 @s_orn2_v2i16(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {		define amdgpu_ps i32 @s_orn2_v2i16(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {
; GFX6-LABEL: s_orn2_v2i16:		; GFX6-LABEL: s_orn2_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s0, s3, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
; GFX6-NEXT: s_or_b32 s0, s2, s0		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_and_b32 s1, s4, s1
		; GFX6-NEXT: s_or_b32 s1, s2, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_orn2_v2i16:		; GFX9-LABEL: s_orn2_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_orn2_b32 s0, s2, s3		; GFX9-NEXT: s_orn2_b32 s0, s2, s3
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_orn2_v2i16:		; GFX10-LABEL: s_orn2_v2i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_orn2_b32 s0, s2, s3		; GFX10-NEXT: s_orn2_b32 s0, s2, s3
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>		%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>
%or = or <2 x i16> %src0, %not.src1		%or = or <2 x i16> %src0, %not.src1
%cast = bitcast <2 x i16> %or to i32		%cast = bitcast <2 x i16> %or to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps i32 @s_orn2_v2i16_commute(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {		define amdgpu_ps i32 @s_orn2_v2i16_commute(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {
; GFX6-LABEL: s_orn2_v2i16_commute:		; GFX6-LABEL: s_orn2_v2i16_commute:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s0, s3, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
; GFX6-NEXT: s_or_b32 s0, s0, s2		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_and_b32 s1, s4, s1
		; GFX6-NEXT: s_or_b32 s1, s2, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_or_b32 s0, s1, s0
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_orn2_v2i16_commute:		; GFX9-LABEL: s_orn2_v2i16_commute:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_orn2_b32 s0, s2, s3		; GFX9-NEXT: s_orn2_b32 s0, s2, s3
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_orn2_v2i16_commute:		; GFX10-LABEL: s_orn2_v2i16_commute:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_orn2_b32 s0, s2, s3		; GFX10-NEXT: s_orn2_b32 s0, s2, s3
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>		%not.src1 = xor <2 x i16> %src1, <i16 -1, i16 -1>
%or = or <2 x i16> %not.src1, %src0		%or = or <2 x i16> %not.src1, %src0
%cast = bitcast <2 x i16> %or to i32		%cast = bitcast <2 x i16> %or to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps { i32, i32 } @s_orn2_v2i16_multi_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {		define amdgpu_ps { i32, i32 } @s_orn2_v2i16_multi_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1) {
; GFX6-LABEL: s_orn2_v2i16_multi_use:		; GFX6-LABEL: s_orn2_v2i16_multi_use:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s1, s3, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
; GFX6-NEXT: s_or_b32 s0, s2, s1		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_and_b32 s1, s4, s1
		; GFX6-NEXT: s_or_b32 s1, s2, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_orn2_v2i16_multi_use:		; GFX9-LABEL: s_orn2_v2i16_multi_use:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_xor_b32 s1, s3, -1		; GFX9-NEXT: s_xor_b32 s1, s3, -1
; GFX9-NEXT: s_orn2_b32 s0, s2, s3		; GFX9-NEXT: s_orn2_b32 s0, s2, s3
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
Show All 10 Lines	; GFX10-NEXT: ; return to shader part epilog
%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0		%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0
%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1		%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1
ret { i32, i32 } %insert.1		ret { i32, i32 } %insert.1
}		}

define amdgpu_ps { i32, i32 } @s_orn2_v2i16_multi_foldable_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1, <2 x i16> inreg %src2) {		define amdgpu_ps { i32, i32 } @s_orn2_v2i16_multi_foldable_use(<2 x i16> inreg %src0, <2 x i16> inreg %src1, <2 x i16> inreg %src2) {
; GFX6-LABEL: s_orn2_v2i16_multi_foldable_use:		; GFX6-LABEL: s_orn2_v2i16_multi_foldable_use:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_xor_b32 s1, s4, -1		; GFX6-NEXT: s_mov_b32 s1, 0xffff
; GFX6-NEXT: s_or_b32 s0, s2, s1		; GFX6-NEXT: s_lshl_b32 s0, s3, 16
		; GFX6-NEXT: s_and_b32 s2, s2, s1
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_and_b32 s3, s4, s1
		; GFX6-NEXT: s_lshl_b32 s2, s5, 16
		; GFX6-NEXT: s_or_b32 s2, s2, s3
		; GFX6-NEXT: s_lshl_b32 s3, s7, 16
		; GFX6-NEXT: s_and_b32 s1, s6, s1
; GFX6-NEXT: s_or_b32 s1, s3, s1		; GFX6-NEXT: s_or_b32 s1, s3, s1
		; GFX6-NEXT: s_xor_b32 s1, s1, -1
		; GFX6-NEXT: s_or_b32 s0, s0, s1
		; GFX6-NEXT: s_or_b32 s1, s2, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_orn2_v2i16_multi_foldable_use:		; GFX9-LABEL: s_orn2_v2i16_multi_foldable_use:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_orn2_b32 s0, s2, s4		; GFX9-NEXT: s_orn2_b32 s0, s2, s4
; GFX9-NEXT: s_orn2_b32 s1, s3, s4		; GFX9-NEXT: s_orn2_b32 s1, s3, s4
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
Show All 9 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast.0 = bitcast <2 x i16> %or0 to i32		%cast.0 = bitcast <2 x i16> %or0 to i32
%cast.1 = bitcast <2 x i16> %or1 to i32		%cast.1 = bitcast <2 x i16> %or1 to i32
%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0		%insert.0 = insertvalue { i32, i32 } undef, i32 %cast.0, 0
%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1		%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1
ret { i32, i32 } %insert.1		ret { i32, i32 } %insert.1
}		}

define <2 x i16> @v_orn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {		define <2 x i16> @v_orn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {
; GCN-LABEL: v_orn2_v2i16:		; GFX6-LABEL: v_orn2_v2i16:
; GCN: ; %bb.0:		; GFX6: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX6-NEXT: v_mov_b32_e32 v4, 0xffff
; GCN-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GCN-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: v_and_b32_e32 v0, v0, v4
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
		; GFX6-NEXT: v_and_b32_e32 v2, v2, v4
		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1
		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
		; GFX6-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: v_orn2_v2i16:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1
		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_orn2_v2i16:		; GFX10-LABEL: v_orn2_v2i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX10-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX10-NEXT: v_or_b32_e32 v0, v0, v1		; GFX10-NEXT: v_or_b32_e32 v0, v0, v1
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 278 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/roundeven.ll

Show First 20 Lines • Show All 212 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%roundeven = call half @llvm.roundeven.f16(half %x)		%roundeven = call half @llvm.roundeven.f16(half %x)
ret half %roundeven		ret half %roundeven
}		}

define <2 x half> @v_roundeven_v2f16(<2 x half> %x) {		define <2 x half> @v_roundeven_v2f16(<2 x half> %x) {
; GFX6-LABEL: v_roundeven_v2f16:		; GFX6-LABEL: v_roundeven_v2f16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_rndne_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_rndne_f32_e32 v0, v0		; GFX6-NEXT: v_rndne_f32_e32 v0, v0
		; GFX6-NEXT: v_rndne_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX7-LABEL: v_roundeven_v2f16:		; GFX7-LABEL: v_roundeven_v2f16:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: v_cvt_f32_f16_e32 v1, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX7-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX7-NEXT: v_rndne_f32_e32 v1, v1		; GFX7-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX7-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX7-NEXT: v_rndne_f32_e32 v0, v0		; GFX7-NEXT: v_rndne_f32_e32 v0, v0
		; GFX7-NEXT: v_rndne_f32_e32 v1, v1
; GFX7-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX7-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX7-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX7-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX7-NEXT: v_bfe_u32 v0, v0, 0, 16
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_roundeven_v2f16:		; GFX8-LABEL: v_roundeven_v2f16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_rndne_f16_e32 v1, v0		; GFX8-NEXT: v_rndne_f16_e32 v1, v0
; GFX8-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_mov_b32_e32 v2, 16		; GFX8-NEXT: v_mov_b32_e32 v2, 16
Show All 21 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%roundeven = call <2 x half> @llvm.roundeven.v2f16(<2 x half> %x)		%roundeven = call <2 x half> @llvm.roundeven.v2f16(<2 x half> %x)
ret <2 x half> %roundeven		ret <2 x half> %roundeven
}		}

define <2 x half> @v_roundeven_v2f16_fneg(<2 x half> %x) {		define <2 x half> @v_roundeven_v2f16_fneg(<2 x half> %x) {
; GFX6-LABEL: v_roundeven_v2f16_fneg:		; GFX6-LABEL: v_roundeven_v2f16_fneg:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0		; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v0
; GFX6-NEXT: v_rndne_f32_e32 v1, v1		; GFX6-NEXT: v_rndne_f32_e32 v0, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_rndne_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX6-NEXT: v_rndne_f32_e32 v1, v2
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX7-LABEL: v_roundeven_v2f16_fneg:		; GFX7-LABEL: v_roundeven_v2f16_fneg:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: v_xor_b32_e32 v0, 0x80008000, v0		; GFX7-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX7-NEXT: v_cvt_f32_f16_e32 v1, v0		; GFX7-NEXT: v_cvt_f32_f16_e32 v1, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX7-NEXT: v_cvt_f32_f16_e32 v2, v0
; GFX7-NEXT: v_rndne_f32_e32 v1, v1		; GFX7-NEXT: v_rndne_f32_e32 v0, v1
; GFX7-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX7-NEXT: v_rndne_f32_e32 v0, v0
; GFX7-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX7-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX7-NEXT: v_bfe_u32 v1, v1, 0, 16		; GFX7-NEXT: v_rndne_f32_e32 v1, v2
; GFX7-NEXT: v_bfe_u32 v0, v0, 0, 16		; GFX7-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_roundeven_v2f16_fneg:		; GFX8-LABEL: v_roundeven_v2f16_fneg:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0		; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX8-NEXT: v_rndne_f16_e32 v1, v0		; GFX8-NEXT: v_rndne_f16_e32 v1, v0
; GFX8-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
▲ Show 20 Lines • Show All 372 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,696 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast i16 %result to half		%cast = bitcast i16 %result to half
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_saddsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_saddsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_saddsat_v2i16:		; GFX6-LABEL: v_saddsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_brev_b32 s5, 1		; GFX6-NEXT: s_brev_b32 s5, 1
; GFX6-NEXT: v_min_i32_e32 v5, 0, v0		; GFX6-NEXT: v_min_i32_e32 v5, 0, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_sub_i32_e32 v5, vcc, s5, v5		; GFX6-NEXT: v_sub_i32_e32 v5, vcc, s5, v5
; GFX6-NEXT: s_brev_b32 s4, -2		; GFX6-NEXT: s_brev_b32 s4, -2
; GFX6-NEXT: v_max_i32_e32 v4, 0, v0		; GFX6-NEXT: v_max_i32_e32 v4, 0, v0
; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s4, v4		; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s4, v4
; GFX6-NEXT: v_max_i32_e32 v1, v5, v1		; GFX6-NEXT: v_max_i32_e32 v2, v5, v2
; GFX6-NEXT: v_min_i32_e32 v1, v1, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_min_i32_e32 v2, v2, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2
; GFX6-NEXT: v_min_i32_e32 v4, 0, v1		; GFX6-NEXT: v_min_i32_e32 v4, 0, v1
		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3
; GFX6-NEXT: v_max_i32_e32 v3, 0, v1		; GFX6-NEXT: v_max_i32_e32 v3, 0, v1
; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v4		; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v4
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3
; GFX6-NEXT: v_max_i32_e32 v2, v4, v2		; GFX6-NEXT: v_max_i32_e32 v2, v4, v2
; GFX6-NEXT: v_min_i32_e32 v2, v2, v3		; GFX6-NEXT: v_min_i32_e32 v2, v2, v3
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_saddsat_v2i16:		; GFX8-LABEL: v_saddsat_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s5, 0x8000		; GFX8-NEXT: s_movk_i32 s5, 0x8000
; GFX8-NEXT: v_min_i16_e32 v4, 0, v0		; GFX8-NEXT: v_min_i16_e32 v4, 0, v0
; GFX8-NEXT: v_sub_u16_e32 v4, s5, v4		; GFX8-NEXT: v_sub_u16_e32 v4, s5, v4
Show All 28 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.sadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.sadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps i32 @s_saddsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps i32 @s_saddsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: s_saddsat_v2i16:		; GFX6-LABEL: s_saddsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: s_brev_b32 s5, 1		; GFX6-NEXT: s_brev_b32 s5, 1
; GFX6-NEXT: s_min_i32 s7, s0, 0		; GFX6-NEXT: s_min_i32 s7, s0, 0
; GFX6-NEXT: s_lshr_b32 s3, s1, 16		; GFX6-NEXT: s_lshl_b32 s2, s2, 16
; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_sub_i32 s7, s5, s7		; GFX6-NEXT: s_sub_i32 s7, s5, s7
; GFX6-NEXT: s_brev_b32 s4, -2		; GFX6-NEXT: s_brev_b32 s4, -2
; GFX6-NEXT: s_max_i32 s6, s0, 0		; GFX6-NEXT: s_max_i32 s6, s0, 0
; GFX6-NEXT: s_sub_i32 s6, s4, s6		; GFX6-NEXT: s_sub_i32 s6, s4, s6
; GFX6-NEXT: s_max_i32 s1, s7, s1		; GFX6-NEXT: s_max_i32 s2, s7, s2
; GFX6-NEXT: s_min_i32 s1, s1, s6		; GFX6-NEXT: s_min_i32 s2, s2, s6
; GFX6-NEXT: s_add_i32 s0, s0, s1		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_lshl_b32 s1, s2, 16		; GFX6-NEXT: s_add_i32 s0, s0, s2
; GFX6-NEXT: s_lshl_b32 s2, s3, 16		; GFX6-NEXT: s_lshl_b32 s2, s3, 16
; GFX6-NEXT: s_max_i32 s3, s1, 0		; GFX6-NEXT: s_max_i32 s3, s1, 0
; GFX6-NEXT: s_sub_i32 s3, s4, s3		; GFX6-NEXT: s_sub_i32 s3, s4, s3
; GFX6-NEXT: s_min_i32 s4, s1, 0		; GFX6-NEXT: s_min_i32 s4, s1, 0
; GFX6-NEXT: s_sub_i32 s4, s5, s4		; GFX6-NEXT: s_sub_i32 s4, s5, s4
; GFX6-NEXT: s_max_i32 s2, s4, s2		; GFX6-NEXT: s_max_i32 s2, s4, s2
; GFX6-NEXT: s_min_i32 s2, s2, s3		; GFX6-NEXT: s_min_i32 s2, s2, s3
; GFX6-NEXT: s_add_i32 s1, s1, s2		; GFX6-NEXT: s_add_i32 s1, s1, s2
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.sadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.sadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @saddsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {		define amdgpu_ps float @saddsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: saddsat_v2i16_sv:		; GFX6-LABEL: saddsat_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: s_brev_b32 s3, 1		; GFX6-NEXT: s_brev_b32 s3, 1
; GFX6-NEXT: s_min_i32 s5, s0, 0		; GFX6-NEXT: s_min_i32 s5, s0, 0
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_sub_i32 s5, s3, s5		; GFX6-NEXT: s_sub_i32 s5, s3, s5
; GFX6-NEXT: s_brev_b32 s2, -2		; GFX6-NEXT: s_brev_b32 s2, -2
; GFX6-NEXT: s_max_i32 s4, s0, 0		; GFX6-NEXT: s_max_i32 s4, s0, 0
; GFX6-NEXT: s_sub_i32 s4, s2, s4		; GFX6-NEXT: s_sub_i32 s4, s2, s4
; GFX6-NEXT: v_max_i32_e32 v0, s5, v0		; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
; GFX6-NEXT: v_min_i32_e32 v0, s4, v0		; GFX6-NEXT: v_min_i32_e32 v0, s4, v0
; GFX6-NEXT: v_add_i32_e32 v0, vcc, s0, v0		; GFX6-NEXT: v_add_i32_e32 v0, vcc, s0, v0
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.sadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.sadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @saddsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps float @saddsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: saddsat_v2i16_vs:		; GFX6-LABEL: saddsat_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_brev_b32 s3, 1		; GFX6-NEXT: s_brev_b32 s3, 1
; GFX6-NEXT: v_min_i32_e32 v3, 0, v0		; GFX6-NEXT: v_min_i32_e32 v3, 0, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s3, v3		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s3, v3
; GFX6-NEXT: s_brev_b32 s2, -2		; GFX6-NEXT: s_brev_b32 s2, -2
; GFX6-NEXT: v_max_i32_e32 v2, 0, v0		; GFX6-NEXT: v_max_i32_e32 v2, 0, v0
; GFX6-NEXT: v_max_i32_e32 v3, s0, v3		; GFX6-NEXT: v_max_i32_e32 v3, s0, v3
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s2, v2		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s2, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_min_i32_e32 v2, v3, v2		; GFX6-NEXT: v_min_i32_e32 v2, v3, v2
▲ Show 20 Lines • Show All 3,815 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/shl-ext-reduce.ll

Show First 20 Lines • Show All 605 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%ext = zext i16 %and to i32		%ext = zext i16 %and to i32
%shl = shl i32 %ext, 2		%shl = shl i32 %ext, 2
ret i32 %shl		ret i32 %shl
}		}

define amdgpu_ps <2 x i32> @s_shl_v2i32_zext_v2i16(<2 x i16> inreg %x) {		define amdgpu_ps <2 x i32> @s_shl_v2i32_zext_v2i16(<2 x i16> inreg %x) {
; GFX7-LABEL: s_shl_v2i32_zext_v2i16:		; GFX7-LABEL: s_shl_v2i32_zext_v2i16:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
		; GFX7-NEXT: s_mov_b32 s2, 0xffff
		; GFX7-NEXT: s_lshl_b32 s1, s1, 16
		; GFX7-NEXT: s_and_b32 s0, s0, s2
		; GFX7-NEXT: s_or_b32 s0, s1, s0
; GFX7-NEXT: s_and_b32 s0, s0, 0x3fff3fff		; GFX7-NEXT: s_and_b32 s0, s0, 0x3fff3fff
; GFX7-NEXT: s_lshr_b32 s1, s0, 16		; GFX7-NEXT: s_lshr_b32 s1, s0, 16
; GFX7-NEXT: s_and_b32 s0, s0, 0xffff		; GFX7-NEXT: s_and_b32 s0, s0, s2
; GFX7-NEXT: s_lshl_b32 s0, s0, 2		; GFX7-NEXT: s_lshl_b32 s0, s0, 2
; GFX7-NEXT: s_lshl_b32 s1, s1, 2		; GFX7-NEXT: s_lshl_b32 s1, s1, 2
; GFX7-NEXT: ; return to shader part epilog		; GFX7-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_shl_v2i32_zext_v2i16:		; GFX8-LABEL: s_shl_v2i32_zext_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_movk_i32 s2, 0x3fff		; GFX8-NEXT: s_movk_i32 s2, 0x3fff
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
Show All 31 Lines
; fails to handle the vector splat. The post-legalizer sees the zext		; fails to handle the vector splat. The post-legalizer sees the zext
; legalized into the and. This is probably not that important, since		; legalized into the and. This is probably not that important, since
; we really do this combine in the machine level for lowered		; we really do this combine in the machine level for lowered
; getelementptrs.		; getelementptrs.
define <2 x i32> @v_shl_v2i32_zext_v2i16(<2 x i16> %x) {		define <2 x i32> @v_shl_v2i32_zext_v2i16(<2 x i16> %x) {
; GFX7-LABEL: v_shl_v2i32_zext_v2i16:		; GFX7-LABEL: v_shl_v2i32_zext_v2i16:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX7-NEXT: v_mov_b32_e32 v2, 0xffff
		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX7-NEXT: v_and_b32_e32 v0, v0, v2
		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 0x3fff3fff, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0x3fff3fff, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX7-NEXT: v_and_b32_e32 v0, v0, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 2, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 2, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v2i32_zext_v2i16:		; GFX8-LABEL: v_shl_v2i32_zext_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_and_b32_e32 v1, 0x3fff3fff, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x3fff3fff, v0
Show All 32 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/shl.ll

Show First 20 Lines • Show All 725 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_shl_v2i16(<2 x i16> %value, <2 x i16> %amount) {		define <2 x i16> @v_shl_v2i16(<2 x i16> %value, <2 x i16> %amount) {
; GFX6-LABEL: v_shl_v2i16:		; GFX6-LABEL: v_shl_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v2, s4, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, v3, v2
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v2i16:		; GFX8-LABEL: v_shl_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshlrev_b16_e32 v2, v1, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v2, v1, v0
; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_or_b32_e32 v0, v2, v0		; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
Show All 14 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = shl <2 x i16> %value, %amount		%result = shl <2 x i16> %value, %amount
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <2 x i16> @v_shl_v2i16_15(<2 x i16> %value) {		define <2 x i16> @v_shl_v2i16_15(<2 x i16> %value) {
; GFX6-LABEL: v_shl_v2i16_15:		; GFX6-LABEL: v_shl_v2i16_15:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 15, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 15, v0
; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 15, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 31, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v2i16_15:		; GFX8-LABEL: v_shl_v2i16_15:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v2, 15		; GFX8-NEXT: v_mov_b32_e32 v2, 15
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 15, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 15, v0
; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
Show All 15 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = shl <2 x i16> %value, <i16 15, i16 15>		%result = shl <2 x i16> %value, <i16 15, i16 15>
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps i32 @s_shl_v2i16(<2 x i16> inreg %value, <2 x i16> inreg %amount) {		define amdgpu_ps i32 @s_shl_v2i16(<2 x i16> inreg %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: s_shl_v2i16:		; GFX6-LABEL: s_shl_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: s_lshr_b32 s3, s1, 16		; GFX6-NEXT: s_and_b32 s2, s2, s4
; GFX6-NEXT: s_lshr_b32 s2, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, s2
; GFX6-NEXT: s_and_b32 s1, s1, s4		; GFX6-NEXT: s_and_b32 s2, s3, s4
; GFX6-NEXT: s_lshl_b32 s0, s0, s1		; GFX6-NEXT: s_lshl_b32 s1, s1, s2
; GFX6-NEXT: s_lshl_b32 s1, s2, s3
; GFX6-NEXT: s_and_b32 s1, s1, s4		; GFX6-NEXT: s_and_b32 s1, s1, s4
; GFX6-NEXT: s_and_b32 s0, s0, s4		; GFX6-NEXT: s_and_b32 s0, s0, s4
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_shl_v2i16:		; GFX8-LABEL: s_shl_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
Show All 29 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = shl <2 x i16> %value, %amount		%result = shl <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @shl_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {		define amdgpu_ps float @shl_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {
; GFX6-LABEL: shl_v2i16_sv:		; GFX6-LABEL: shl_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: s_mov_b32 s2, 0xffff
		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1		; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1
; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
Show All 19 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = shl <2 x i16> %value, %amount		%result = shl <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @shl_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {		define amdgpu_ps float @shl_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: shl_v2i16_vs:		; GFX6-LABEL: shl_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v1, s1, v1
; GFX6-NEXT: s_and_b32 s0, s0, s2		; GFX6-NEXT: s_and_b32 s0, s0, s2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s0, v0
		; GFX6-NEXT: s_and_b32 s0, s1, s2
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, s2, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: shl_v2i16_vs:		; GFX8-LABEL: shl_v2i16_vs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 718 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,682 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast i16 %result to half		%cast = bitcast i16 %result to half
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_ssubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_ssubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_ssubsat_v2i16:		; GFX6-LABEL: v_ssubsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_brev_b32 s4, -2		; GFX6-NEXT: s_brev_b32 s4, -2
; GFX6-NEXT: v_max_i32_e32 v4, -1, v0		; GFX6-NEXT: v_max_i32_e32 v4, -1, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s4, v4		; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s4, v4
; GFX6-NEXT: s_brev_b32 s5, 1		; GFX6-NEXT: s_brev_b32 s5, 1
; GFX6-NEXT: v_min_i32_e32 v5, -1, v0		; GFX6-NEXT: v_min_i32_e32 v5, -1, v0
; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s5, v5		; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s5, v5
; GFX6-NEXT: v_max_i32_e32 v1, v4, v1		; GFX6-NEXT: v_max_i32_e32 v2, v4, v2
; GFX6-NEXT: v_min_i32_e32 v1, v1, v5		; GFX6-NEXT: v_min_i32_e32 v2, v2, v5
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3
; GFX6-NEXT: v_max_i32_e32 v3, -1, v1		; GFX6-NEXT: v_max_i32_e32 v3, -1, v1
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s4, v3
; GFX6-NEXT: v_min_i32_e32 v4, -1, v1		; GFX6-NEXT: v_min_i32_e32 v4, -1, v1
		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s4, v3
; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s5, v4		; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s5, v4
; GFX6-NEXT: v_max_i32_e32 v2, v3, v2		; GFX6-NEXT: v_max_i32_e32 v2, v3, v2
; GFX6-NEXT: v_min_i32_e32 v2, v2, v4		; GFX6-NEXT: v_min_i32_e32 v2, v2, v4
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_ssubsat_v2i16:		; GFX8-LABEL: v_ssubsat_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0x7fff		; GFX8-NEXT: s_movk_i32 s4, 0x7fff
; GFX8-NEXT: v_max_i16_e32 v3, -1, v0		; GFX8-NEXT: v_max_i16_e32 v3, -1, v0
; GFX8-NEXT: v_subrev_u16_e32 v3, s4, v3		; GFX8-NEXT: v_subrev_u16_e32 v3, s4, v3
Show All 28 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.ssub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.ssub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps i32 @s_ssubsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps i32 @s_ssubsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: s_ssubsat_v2i16:		; GFX6-LABEL: s_ssubsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: s_brev_b32 s4, -2		; GFX6-NEXT: s_brev_b32 s4, -2
; GFX6-NEXT: s_max_i32 s6, s0, -1		; GFX6-NEXT: s_max_i32 s6, s0, -1
; GFX6-NEXT: s_lshr_b32 s3, s1, 16		; GFX6-NEXT: s_lshl_b32 s2, s2, 16
; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_sub_i32 s6, s6, s4		; GFX6-NEXT: s_sub_i32 s6, s6, s4
; GFX6-NEXT: s_brev_b32 s5, 1		; GFX6-NEXT: s_brev_b32 s5, 1
; GFX6-NEXT: s_min_i32 s7, s0, -1		; GFX6-NEXT: s_min_i32 s7, s0, -1
; GFX6-NEXT: s_sub_i32 s7, s7, s5		; GFX6-NEXT: s_sub_i32 s7, s7, s5
; GFX6-NEXT: s_max_i32 s1, s6, s1		; GFX6-NEXT: s_max_i32 s2, s6, s2
; GFX6-NEXT: s_min_i32 s1, s1, s7		; GFX6-NEXT: s_min_i32 s2, s2, s7
; GFX6-NEXT: s_sub_i32 s0, s0, s1		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_lshl_b32 s1, s2, 16		; GFX6-NEXT: s_sub_i32 s0, s0, s2
; GFX6-NEXT: s_lshl_b32 s2, s3, 16		; GFX6-NEXT: s_lshl_b32 s2, s3, 16
; GFX6-NEXT: s_max_i32 s3, s1, -1		; GFX6-NEXT: s_max_i32 s3, s1, -1
; GFX6-NEXT: s_sub_i32 s3, s3, s4		; GFX6-NEXT: s_sub_i32 s3, s3, s4
; GFX6-NEXT: s_min_i32 s4, s1, -1		; GFX6-NEXT: s_min_i32 s4, s1, -1
; GFX6-NEXT: s_sub_i32 s4, s4, s5		; GFX6-NEXT: s_sub_i32 s4, s4, s5
; GFX6-NEXT: s_max_i32 s2, s3, s2		; GFX6-NEXT: s_max_i32 s2, s3, s2
; GFX6-NEXT: s_min_i32 s2, s2, s4		; GFX6-NEXT: s_min_i32 s2, s2, s4
; GFX6-NEXT: s_sub_i32 s1, s1, s2		; GFX6-NEXT: s_sub_i32 s1, s1, s2
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.ssub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.ssub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @ssubsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {		define amdgpu_ps float @ssubsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: ssubsat_v2i16_sv:		; GFX6-LABEL: ssubsat_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: s_brev_b32 s2, -2		; GFX6-NEXT: s_brev_b32 s2, -2
; GFX6-NEXT: s_max_i32 s4, s0, -1		; GFX6-NEXT: s_max_i32 s4, s0, -1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_sub_i32 s4, s4, s2		; GFX6-NEXT: s_sub_i32 s4, s4, s2
; GFX6-NEXT: s_brev_b32 s3, 1		; GFX6-NEXT: s_brev_b32 s3, 1
; GFX6-NEXT: s_min_i32 s5, s0, -1		; GFX6-NEXT: s_min_i32 s5, s0, -1
; GFX6-NEXT: s_sub_i32 s5, s5, s3		; GFX6-NEXT: s_sub_i32 s5, s5, s3
; GFX6-NEXT: v_max_i32_e32 v0, s4, v0		; GFX6-NEXT: v_max_i32_e32 v0, s4, v0
; GFX6-NEXT: v_min_i32_e32 v0, s5, v0		; GFX6-NEXT: v_min_i32_e32 v0, s5, v0
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s0, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s0, v0
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.ssub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.ssub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @ssubsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps float @ssubsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: ssubsat_v2i16_vs:		; GFX6-LABEL: ssubsat_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_brev_b32 s2, -2		; GFX6-NEXT: s_brev_b32 s2, -2
; GFX6-NEXT: v_max_i32_e32 v2, -1, v0		; GFX6-NEXT: v_max_i32_e32 v2, -1, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v2		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v2
; GFX6-NEXT: s_brev_b32 s3, 1		; GFX6-NEXT: s_brev_b32 s3, 1
; GFX6-NEXT: v_min_i32_e32 v3, -1, v0		; GFX6-NEXT: v_min_i32_e32 v3, -1, v0
; GFX6-NEXT: v_max_i32_e32 v2, s0, v2		; GFX6-NEXT: v_max_i32_e32 v2, s0, v2
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s3, v3		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s3, v3
; GFX6-NEXT: v_min_i32_e32 v2, v2, v3		; GFX6-NEXT: v_min_i32_e32 v2, v2, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
▲ Show 20 Lines • Show All 3,815 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

Show First 20 Lines • Show All 1,742 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast i16 %result to half		%cast = bitcast i16 %result to half
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_uaddsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_uaddsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_uaddsat_v2i16:		; GFX6-LABEL: v_uaddsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_xor_b32_e32 v4, -1, v0		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v0
; GFX6-NEXT: v_min_u32_e32 v1, v4, v1		; GFX6-NEXT: v_min_u32_e32 v2, v4, v2
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3
; GFX6-NEXT: v_xor_b32_e32 v3, -1, v1		; GFX6-NEXT: v_xor_b32_e32 v3, -1, v1
; GFX6-NEXT: v_min_u32_e32 v2, v3, v2		; GFX6-NEXT: v_min_u32_e32 v2, v3, v2
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddsat_v2i16:		; GFX8-LABEL: v_uaddsat_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_add_u16_e64 v2, v0, v1 clamp		; GFX8-NEXT: v_add_u16_e64 v2, v0, v1 clamp
; GFX8-NEXT: v_add_u16_sdwa v0, v0, v1 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_add_u16_sdwa v0, v0, v1 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_mov_b32_e32 v1, 16		; GFX8-NEXT: v_mov_b32_e32 v1, 16
Show All 15 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps i32 @s_uaddsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps i32 @s_uaddsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: s_uaddsat_v2i16:		; GFX6-LABEL: s_uaddsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: s_lshr_b32 s3, s1, 16		; GFX6-NEXT: s_lshl_b32 s2, s2, 16
; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_not_b32 s4, s0		; GFX6-NEXT: s_not_b32 s4, s0
; GFX6-NEXT: s_min_u32 s1, s4, s1		; GFX6-NEXT: s_min_u32 s2, s4, s2
; GFX6-NEXT: s_add_i32 s0, s0, s1		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_lshl_b32 s1, s2, 16		; GFX6-NEXT: s_add_i32 s0, s0, s2
; GFX6-NEXT: s_lshl_b32 s2, s3, 16		; GFX6-NEXT: s_lshl_b32 s2, s3, 16
; GFX6-NEXT: s_not_b32 s3, s1		; GFX6-NEXT: s_not_b32 s3, s1
; GFX6-NEXT: s_min_u32 s2, s3, s2		; GFX6-NEXT: s_min_u32 s2, s3, s2
; GFX6-NEXT: s_add_i32 s1, s1, s2		; GFX6-NEXT: s_add_i32 s1, s1, s2
; GFX6-NEXT: s_lshr_b32 s1, s1, 16		; GFX6-NEXT: s_lshr_b32 s1, s1, 16
; GFX6-NEXT: s_lshr_b32 s0, s0, 16		; GFX6-NEXT: s_lshr_b32 s0, s0, 16
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
Show All 28 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @uaddsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {		define amdgpu_ps float @uaddsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: uaddsat_v2i16_sv:		; GFX6-LABEL: uaddsat_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_not_b32 s2, s0		; GFX6-NEXT: s_not_b32 s2, s0
; GFX6-NEXT: v_min_u32_e32 v0, s2, v0		; GFX6-NEXT: v_min_u32_e32 v0, s2, v0
; GFX6-NEXT: v_add_i32_e32 v0, vcc, s0, v0		; GFX6-NEXT: v_add_i32_e32 v0, vcc, s0, v0
; GFX6-NEXT: s_lshl_b32 s0, s1, 16		; GFX6-NEXT: s_lshl_b32 s0, s1, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: s_not_b32 s1, s0		; GFX6-NEXT: s_not_b32 s1, s0
; GFX6-NEXT: v_min_u32_e32 v1, s1, v1		; GFX6-NEXT: v_min_u32_e32 v1, s1, v1
Show All 27 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @uaddsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps float @uaddsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: uaddsat_v2i16_vs:		; GFX6-LABEL: uaddsat_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v0		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v0
; GFX6-NEXT: v_min_u32_e32 v2, s0, v2		; GFX6-NEXT: v_min_u32_e32 v2, s0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: s_lshl_b32 s0, s1, 16		; GFX6-NEXT: s_lshl_b32 s0, s1, 16
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v1		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v1
; GFX6-NEXT: v_min_u32_e32 v2, s0, v2		; GFX6-NEXT: v_min_u32_e32 v2, s0, v2
▲ Show 20 Lines • Show All 1,913 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

Show First 20 Lines • Show All 1,656 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast i16 %result to half		%cast = bitcast i16 %result to half
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v2i16:		; GFX6-LABEL: v_usubsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
		; GFX6-NEXT: v_min_u32_e32 v2, v0, v2
		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_min_u32_e32 v1, v0, v1
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3
; GFX6-NEXT: v_min_u32_e32 v2, v1, v2		; GFX6-NEXT: v_min_u32_e32 v2, v1, v2
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubsat_v2i16:		; GFX8-LABEL: v_usubsat_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_sub_u16_e64 v2, v0, v1 clamp		; GFX8-NEXT: v_sub_u16_e64 v2, v0, v1 clamp
; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v1 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v1 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_mov_b32_e32 v1, 16		; GFX8-NEXT: v_mov_b32_e32 v1, 16
Show All 15 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define amdgpu_ps i32 @s_usubsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps i32 @s_usubsat_v2i16(<2 x i16> inreg %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: s_usubsat_v2i16:		; GFX6-LABEL: s_usubsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_lshr_b32 s2, s0, 16
; GFX6-NEXT: s_lshr_b32 s3, s1, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
		; GFX6-NEXT: s_lshl_b32 s2, s2, 16
		; GFX6-NEXT: s_min_u32 s2, s0, s2
		; GFX6-NEXT: s_sub_i32 s0, s0, s2
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_min_u32 s1, s0, s1
; GFX6-NEXT: s_sub_i32 s0, s0, s1
; GFX6-NEXT: s_lshl_b32 s1, s2, 16
; GFX6-NEXT: s_lshl_b32 s2, s3, 16		; GFX6-NEXT: s_lshl_b32 s2, s3, 16
; GFX6-NEXT: s_min_u32 s2, s1, s2		; GFX6-NEXT: s_min_u32 s2, s1, s2
; GFX6-NEXT: s_sub_i32 s1, s1, s2		; GFX6-NEXT: s_sub_i32 s1, s1, s2
; GFX6-NEXT: s_lshr_b32 s1, s1, 16		; GFX6-NEXT: s_lshr_b32 s1, s1, 16
; GFX6-NEXT: s_lshr_b32 s0, s0, 16		; GFX6-NEXT: s_lshr_b32 s0, s0, 16
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
Show All 27 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @usubsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {		define amdgpu_ps float @usubsat_v2i16_sv(<2 x i16> inreg %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: usubsat_v2i16_sv:		; GFX6-LABEL: usubsat_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_min_u32_e32 v0, s0, v0		; GFX6-NEXT: v_min_u32_e32 v0, s0, v0
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s0, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s0, v0
; GFX6-NEXT: s_lshl_b32 s0, s1, 16		; GFX6-NEXT: s_lshl_b32 s0, s1, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_min_u32_e32 v1, s0, v1		; GFX6-NEXT: v_min_u32_e32 v1, s0, v1
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s0, v1		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s0, v1
Show All 26 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @usubsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {		define amdgpu_ps float @usubsat_v2i16_vs(<2 x i16> %lhs, <2 x i16> inreg %rhs) {
; GFX6-LABEL: usubsat_v2i16_vs:		; GFX6-LABEL: usubsat_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_lshr_b32 s1, s0, 16
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: s_lshl_b32 s0, s0, 16		; GFX6-NEXT: s_lshl_b32 s0, s0, 16
; GFX6-NEXT: v_min_u32_e32 v2, s0, v0		; GFX6-NEXT: v_min_u32_e32 v2, s0, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: s_lshl_b32 s0, s1, 16		; GFX6-NEXT: s_lshl_b32 s0, s1, 16
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_min_u32_e32 v2, s0, v1		; GFX6-NEXT: v_min_u32_e32 v2, s0, v1
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
▲ Show 20 Lines • Show All 1,876 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/xnor.ll

Show All 19 Lines	entry:
%r0.val = xor i32 %xor, -1		%r0.val = xor i32 %xor, -1
ret i32 %r0.val		ret i32 %r0.val
}		}

; FIXME: fails to match		; FIXME: fails to match
define amdgpu_ps i32 @scalar_xnor_v2i16_one_use(<2 x i16> inreg %a, <2 x i16> inreg %b) {		define amdgpu_ps i32 @scalar_xnor_v2i16_one_use(<2 x i16> inreg %a, <2 x i16> inreg %b) {
; GFX7-LABEL: scalar_xnor_v2i16_one_use:		; GFX7-LABEL: scalar_xnor_v2i16_one_use:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_mov_b32 s4, 0xffff
		; GFX7-NEXT: s_lshl_b32 s1, s1, 16
		; GFX7-NEXT: s_and_b32 s0, s0, s4
		; GFX7-NEXT: s_or_b32 s0, s1, s0
		; GFX7-NEXT: s_lshl_b32 s1, s3, 16
		; GFX7-NEXT: s_and_b32 s2, s2, s4
		; GFX7-NEXT: s_or_b32 s1, s1, s2
; GFX7-NEXT: s_xor_b32 s0, s0, s1		; GFX7-NEXT: s_xor_b32 s0, s0, s1
; GFX7-NEXT: s_xor_b32 s0, s0, -1		; GFX7-NEXT: s_xor_b32 s0, s0, -1
; GFX7-NEXT: ; return to shader part epilog		; GFX7-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: scalar_xnor_v2i16_one_use:		; GFX8-LABEL: scalar_xnor_v2i16_one_use:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_xor_b32 s0, s0, s1		; GFX8-NEXT: s_xor_b32 s0, s0, s1
; GFX8-NEXT: s_mov_b32 s2, 0xffff		; GFX8-NEXT: s_mov_b32 s2, 0xffff
▲ Show 20 Lines • Show All 533 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/GlobalISel/arm-irtranslator.ll

Show First 20 Lines • Show All 153 Lines • ▼ Show 20 Lines	entry:
%sum = add i32 %p2, %p5		%sum = add i32 %p2, %p5
ret i32 %sum		ret i32 %sum
}		}

define i16 @test_stack_args_signext(i32 %p0, i16 %p1, i8 %p2, i1 %p3,		define i16 @test_stack_args_signext(i32 %p0, i16 %p1, i8 %p2, i1 %p3,
i8 signext %p4, i16 signext %p5) {		i8 signext %p4, i16 signext %p5) {
; CHECK-LABEL: name: test_stack_args_signext		; CHECK-LABEL: name: test_stack_args_signext
; CHECK: fixedStack:		; CHECK: fixedStack:
; CHECK-DAG: id: [[P4:[0-9]]]{{.}}offset: 0{{.}}size: 1		; CHECK-DAG: id: [[P4:[0-9]]]{{.}}offset: 0{{.}}size: 4
; CHECK-DAG: id: [[P5:[0-9]]]{{.}}offset: 4{{.}}size: 2		; CHECK-DAG: id: [[P5:[0-9]]]{{.}}offset: 4{{.}}size: 4
; CHECK: liveins: $r0, $r1, $r2, $r3		; CHECK: liveins: $r0, $r1, $r2, $r3
; CHECK: [[VREGR1:%[0-9]+]]:_(s32) = COPY $r1		; CHECK: [[VREGR1:%[0-9]+]]:_(s32) = COPY $r1
; CHECK: [[VREGP1:%[0-9]+]]:_(s16) = G_TRUNC [[VREGR1]]		; CHECK: [[VREGP1:%[0-9]+]]:_(s16) = G_TRUNC [[VREGR1]]
; CHECK: [[FIP5:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P5]]		; CHECK: [[FIP5:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P5]]
; CHECK: [[VREGP5EXT:%[0-9]+]]:_(s32) = G_LOAD [[FIP5]](p0){{.*}}load 4		; CHECK: [[VREGP5EXT:%[0-9]+]]:_(s32) = G_LOAD [[FIP5]](p0){{.*}}load 4
; CHECK: [[VREGP5:%[0-9]+]]:_(s16) = G_TRUNC [[VREGP5EXT]]		; CHECK: [[ASSERT_SEXT:%[0-9]+]]:_(s32) = G_ASSERT_SEXT [[VREGP5EXT]], 16
		; CHECK: [[VREGP5:%[0-9]+]]:_(s16) = G_TRUNC [[ASSERT_SEXT]]
; CHECK: [[SUM:%[0-9]+]]:_(s16) = G_ADD [[VREGP1]], [[VREGP5]]		; CHECK: [[SUM:%[0-9]+]]:_(s16) = G_ADD [[VREGP1]], [[VREGP5]]
; CHECK: [[SUM_EXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SUM]]		; CHECK: [[SUM_EXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SUM]]
; CHECK: $r0 = COPY [[SUM_EXT]](s32)		; CHECK: $r0 = COPY [[SUM_EXT]](s32)
; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0		; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0
entry:		entry:
%sum = add i16 %p1, %p5		%sum = add i16 %p1, %p5
ret i16 %sum		ret i16 %sum
}		}

define i8 @test_stack_args_zeroext(i32 %p0, i16 %p1, i8 %p2, i1 %p3,		define i8 @test_stack_args_zeroext(i32 %p0, i16 %p1, i8 %p2, i1 %p3,
i8 zeroext %p4, i16 zeroext %p5) {		i8 zeroext %p4, i16 zeroext %p5) {
; CHECK-LABEL: name: test_stack_args_zeroext		; CHECK-LABEL: name: test_stack_args_zeroext
; CHECK: fixedStack:		; CHECK: fixedStack:
; CHECK-DAG: id: [[P4:[0-9]]]{{.}}offset: 0{{.}}size: 1		; CHECK-DAG: id: [[P4:[0-9]]]{{.}}offset: 0{{.}}size: 4
; CHECK-DAG: id: [[P5:[0-9]]]{{.}}offset: 4{{.}}size: 2		; CHECK-DAG: id: [[P5:[0-9]]]{{.}}offset: 4{{.}}size: 4
; CHECK: liveins: $r0, $r1, $r2, $r3		; CHECK: liveins: $r0, $r1, $r2, $r3
; CHECK: [[VREGR2:%[0-9]+]]:_(s32) = COPY $r2		; CHECK: [[VREGR2:%[0-9]+]]:_(s32) = COPY $r2
; CHECK: [[VREGP2:%[0-9]+]]:_(s8) = G_TRUNC [[VREGR2]]		; CHECK: [[VREGP2:%[0-9]+]]:_(s8) = G_TRUNC [[VREGR2]]
; CHECK: [[FIP4:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P4]]		; CHECK: [[FIP4:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P4]]
; CHECK: [[VREGP4EXT:%[0-9]+]]:_(s32) = G_LOAD [[FIP4]](p0){{.*}}load 4		; CHECK: [[VREGP4EXT:%[0-9]+]]:_(s32) = G_LOAD [[FIP4]](p0){{.*}}load 4
; CHECK: [[VREGP4:%[0-9]+]]:_(s8) = G_TRUNC [[VREGP4EXT]]		; CHECK: [[ASSERT_ZEXT:%[0-9]+]]:_(s32) = G_ASSERT_ZEXT [[VREGP4EXT]], 8
		; CHECK: [[VREGP4:%[0-9]+]]:_(s8) = G_TRUNC [[ASSERT_ZEXT]]
; CHECK: [[SUM:%[0-9]+]]:_(s8) = G_ADD [[VREGP2]], [[VREGP4]]		; CHECK: [[SUM:%[0-9]+]]:_(s8) = G_ADD [[VREGP2]], [[VREGP4]]
; CHECK: [[SUM_EXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SUM]]		; CHECK: [[SUM_EXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SUM]]
; CHECK: $r0 = COPY [[SUM_EXT]](s32)		; CHECK: $r0 = COPY [[SUM_EXT]](s32)
; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0		; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0
entry:		entry:
%sum = add i8 %p2, %p4		%sum = add i8 %p2, %p4
ret i8 %sum		ret i8 %sum
}		}

define i8 @test_stack_args_noext(i32 %p0, i16 %p1, i8 %p2, i1 %p3,		define i8 @test_stack_args_noext(i32 %p0, i16 %p1, i8 %p2, i1 %p3,
i8 %p4, i16 %p5) {		i8 %p4, i16 %p5) {
; CHECK-LABEL: name: test_stack_args_noext		; CHECK-LABEL: name: test_stack_args_noext
; CHECK: fixedStack:		; CHECK: fixedStack:
; CHECK-DAG: id: [[P4:[0-9]]]{{.}}offset: 0{{.}}size: 1		; CHECK-DAG: id: [[P4:[0-9]]]{{.*}}offset: 0, size: 4, alignment: 8,
; CHECK-DAG: id: [[P5:[0-9]]]{{.}}offset: 4{{.}}size: 2		; CHECK-DAG: id: [[P5:[0-9]]]{{.*}}offset: 4, size: 4, alignment: 4,
; CHECK: liveins: $r0, $r1, $r2, $r3		; CHECK: liveins: $r0, $r1, $r2, $r3
; CHECK: [[VREGR2:%[0-9]+]]:_(s32) = COPY $r2		; CHECK: [[VREGR2:%[0-9]+]]:_(s32) = COPY $r2
; CHECK: [[VREGP2:%[0-9]+]]:_(s8) = G_TRUNC [[VREGR2]]		; CHECK: [[VREGP2:%[0-9]+]]:_(s8) = G_TRUNC [[VREGR2]]
; CHECK: [[FIP4:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P4]]		; CHECK: [[FIP4:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P4]]
; CHECK: [[VREGP4:%[0-9]+]]:_(s8) = G_LOAD [[FIP4]](p0){{.*}}load 1		; CHECK: [[VREGP4:%[0-9]+]]:_(s32) = G_LOAD [[FIP4]](p0){{.*}}load 4
; CHECK: [[SUM:%[0-9]+]]:_(s8) = G_ADD [[VREGP2]], [[VREGP4]]		; CHECK: [[TRUNC_VREGP4:%[0-9]+]]:_(s8) = G_TRUNC [[VREGP4]]
		; CHECK: [[SUM:%[0-9]+]]:_(s8) = G_ADD [[VREGP2]], [[TRUNC_VREGP4]]
; CHECK: [[SUM_EXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SUM]]		; CHECK: [[SUM_EXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SUM]]
; CHECK: $r0 = COPY [[SUM_EXT]](s32)		; CHECK: $r0 = COPY [[SUM_EXT]](s32)
; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0		; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0
entry:		entry:
%sum = add i8 %p2, %p4		%sum = add i8 %p2, %p4
ret i8 %sum		ret i8 %sum
}		}

define zeroext i16 @test_stack_args_extend_the_extended(i32 %p0, i16 %p1, i8 %p2, i1 %p3,		define zeroext i16 @test_stack_args_extend_the_extended(i32 %p0, i16 %p1, i8 %p2, i1 %p3,
i8 signext %p4, i16 signext %p5) {		i8 signext %p4, i16 signext %p5) {
; CHECK-LABEL: name: test_stack_args_extend_the_extended		; CHECK-LABEL: name: test_stack_args_extend_the_extended
; CHECK: fixedStack:		; CHECK: fixedStack:
; CHECK-DAG: id: [[P4:[0-9]]]{{.}}offset: 0{{.}}size: 1		; CHECK-DAG: id: [[P4:[0-9]]]{{.}}offset: 0{{.}}size: 4, alignment: 8
; CHECK-DAG: id: [[P5:[0-9]]]{{.}}offset: 4{{.}}size: 2		; CHECK-DAG: id: [[P5:[0-9]]]{{.}}offset: 4{{.}}size: 4, alignment: 4
; CHECK: liveins: $r0, $r1, $r2, $r3		; CHECK: liveins: $r0, $r1, $r2, $r3
; CHECK: [[FIP5:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P5]]		; CHECK: [[FIP5:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.[[P5]]
; CHECK: [[VREGP5SEXT:%[0-9]+]]:_(s32) = G_LOAD [[FIP5]](p0){{.*}}load 4		; CHECK: [[VREGP5SEXT:%[0-9]+]]:_(s32) = G_LOAD [[FIP5]](p0){{.*}}load 4
; CHECK: [[VREGP5:%[0-9]+]]:_(s16) = G_TRUNC [[VREGP5SEXT]]		; CHECK: [[ASSERT_SEXT:%[0-9]+]]:_(s32) = G_ASSERT_SEXT [[VREGP5SEXT]], 16
		; CHECK: [[VREGP5:%[0-9]+]]:_(s16) = G_TRUNC [[ASSERT_SEXT]]
; CHECK: [[VREGP5ZEXT:%[0-9]+]]:_(s32) = G_ZEXT [[VREGP5]]		; CHECK: [[VREGP5ZEXT:%[0-9]+]]:_(s32) = G_ZEXT [[VREGP5]]
; CHECK: $r0 = COPY [[VREGP5ZEXT]]		; CHECK: $r0 = COPY [[VREGP5ZEXT]]
; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0		; CHECK: BX_RET 14 /* CC::al */, $noreg, implicit $r0
entry:		entry:
ret i16 %p5		ret i16 %p5
}		}

define i16 @test_ptr_arg(i16* %p) {		define i16 @test_ptr_arg(i16* %p) {
▲ Show 20 Lines • Show All 331 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/GlobalISel/arm-isel.ll

	Show First 20 Lines • Show All 246 Lines • ▼ Show 20 Lines
	entry:			entry:
	%sum = add i32 %p2, %p5			%sum = add i32 %p2, %p5
	ret i32 %sum			ret i32 %sum
	}			}

	define i16 @test_stack_args_mixed(i32 %p0, i16 %p1, i8 %p2, i1 %p3, i8 %p4, i16 %p5) {			define i16 @test_stack_args_mixed(i32 %p0, i16 %p1, i8 %p2, i1 %p3, i8 %p4, i16 %p5) {
	; CHECK-LABEL: test_stack_args_mixed:			; CHECK-LABEL: test_stack_args_mixed:
	; CHECK: add [[P5ADDR:r[0-9]+]], sp, #4			; CHECK: add [[P5ADDR:r[0-9]+]], sp, #4
	; CHECK: ldrh [[P5:r[0-9]+]], {{.*}}[[P5ADDR]]			; CHECK: ldr [[P5:r[0-9]+]], {{.*}}[[P5ADDR]]
	; CHECK: add r0, r1, [[P5]]			; CHECK: add r0, r1, [[P5]]
	; CHECK: bx lr			; CHECK: bx lr
	entry:			entry:
	%sum = add i16 %p1, %p5			%sum = add i16 %p1, %p5
	ret i16 %sum			ret i16 %sum
	}			}

	define i16 @test_stack_args_zeroext(i32 %p0, i16 %p1, i8 %p2, i1 %p3, i16 zeroext %p4) {			define i16 @test_stack_args_zeroext(i32 %p0, i16 %p1, i8 %p2, i1 %p3, i16 zeroext %p4) {
	Show All 16 Lines
	entry:			entry:
	%sum = add i8 %p2, %p4			%sum = add i8 %p2, %p4
	ret i8 %sum			ret i8 %sum
	}			}

	define i8 @test_stack_args_noext(i32 %p0, i16 %p1, i8 %p2, i1 %p3, i8 %p4) {			define i8 @test_stack_args_noext(i32 %p0, i16 %p1, i8 %p2, i1 %p3, i8 %p4) {
	; CHECK-LABEL: test_stack_args_noext:			; CHECK-LABEL: test_stack_args_noext:
	; CHECK: mov [[P4ADDR:r[0-9]+]], sp			; CHECK: mov [[P4ADDR:r[0-9]+]], sp
	; CHECK: ldrb [[P4:r[0-9]+]], {{.*}}[[P4ADDR]]			; CHECK: ldr [[P4:r[0-9]+]], {{.*}}[[P4ADDR]]
	; CHECK: add r0, r2, [[P4]]			; CHECK: add r0, r2, [[P4]]
	; CHECK: bx lr			; CHECK: bx lr
	entry:			entry:
	%sum = add i8 %p2, %p4			%sum = add i8 %p2, %p4
	ret i8 %sum			ret i8 %sum
	}			}

	define i32 @test_ptr_arg_in_reg(i32* %p) {			define i32 @test_ptr_arg_in_reg(i32* %p) {
	▲ Show 20 Lines • Show All 167 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/GlobalISel/arm-legalize-vfp4.mir

Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	bb.0:
; SOFT-ABI-DAG: $r{{[0-1]}} = COPY [[X0]]		; SOFT-ABI-DAG: $r{{[0-1]}} = COPY [[X0]]
; SOFT-ABI-DAG: $r{{[0-1]}} = COPY [[X1]]		; SOFT-ABI-DAG: $r{{[0-1]}} = COPY [[X1]]
; SOFT-ABI-DAG: $r{{[2-3]}} = COPY [[X0]]		; SOFT-ABI-DAG: $r{{[2-3]}} = COPY [[X0]]
; SOFT-ABI-DAG: $r{{[2-3]}} = COPY [[X1]]		; SOFT-ABI-DAG: $r{{[2-3]}} = COPY [[X1]]
; SOFT-ABI: [[SP1:%[0-9]+]]:_(p0) = COPY $sp		; SOFT-ABI: [[SP1:%[0-9]+]]:_(p0) = COPY $sp
; SOFT-ABI: [[OFF1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0		; SOFT-ABI: [[OFF1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
; SOFT-ABI: [[FI1:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP1]], [[OFF1]](s32)		; SOFT-ABI: [[FI1:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP1]], [[OFF1]](s32)

		; FIXME: Should avoid multiple copies from $sp
; FIXME: This ought to be align 8 but ARM's call lowering hardcodes it to 1		; FIXME: This ought to be align 8 but ARM's call lowering hardcodes it to 1
; SOFT-ABI: G_STORE [[Y0]](s32), [[FI1]](p0){{.*}}store 4 into stack, align 1)		; SOFT-ABI: G_STORE [[Y0]](s32), [[FI1]](p0){{.*}}store 4 into stack, align 1)
		; SOFT-ABI: [[SP2:%[0-9]+]]:_(p0) = COPY $sp
; SOFT-ABI: [[OFF2:%[0-9]+]]:_(s32) = G_CONSTANT i32 4		; SOFT-ABI: [[OFF2:%[0-9]+]]:_(s32) = G_CONSTANT i32 4
; SOFT-ABI: [[FI2:%[0-9]+]]:_(p0) = G_PTR_ADD [[FI1]], [[OFF2]](s32)		; SOFT-ABI: [[FI2:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP2]], [[OFF2]](s32)
; SOFT-ABI: G_STORE [[Y1]](s32), [[FI2]](p0){{.*}}store 4 into stack + 4, align 1)		; SOFT-ABI: G_STORE [[Y1]](s32), [[FI2]](p0){{.*}}store 4 into stack + 4, align 1)
; SOFT-ABI: BL &fma, {{.*}}, implicit $r0, implicit $r1, implicit $r2, implicit $r3, implicit-def $r0, implicit-def $r1		; SOFT-ABI: BL &fma, {{.*}}, implicit $r0, implicit $r1, implicit $r2, implicit $r3, implicit-def $r0, implicit-def $r1
; SOFT-ABI-DAG: [[R0:%[0-9]+]]:_(s32) = COPY $r0		; SOFT-ABI-DAG: [[R0:%[0-9]+]]:_(s32) = COPY $r0
; SOFT-ABI-DAG: [[R1:%[0-9]+]]:_(s32) = COPY $r1		; SOFT-ABI-DAG: [[R1:%[0-9]+]]:_(s32) = COPY $r1
; HARD-ABI-DAG: $d0 = COPY [[X]]		; HARD-ABI-DAG: $d0 = COPY [[X]]
; HARD-ABI-DAG: $d1 = COPY [[X]]		; HARD-ABI-DAG: $d1 = COPY [[X]]
; HARD-ABI-DAG: $d2 = COPY [[Y]]		; HARD-ABI-DAG: $d2 = COPY [[Y]]
; HARD-ABI: BL &fma, {{.*}}, implicit $d0, implicit $d1, implicit $d2, implicit-def $d0		; HARD-ABI: BL &fma, {{.*}}, implicit $d0, implicit $d1, implicit $d2, implicit-def $d0
Show All 13 Lines

llvm/test/CodeGen/ARM/GlobalISel/arm-param-lowering.ll

	Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; CHECK: [[SEXTA:%[0-9]+]]:_(s32) = G_SEXT [[AVREG]](s8)			; CHECK: [[SEXTA:%[0-9]+]]:_(s32) = G_SEXT [[AVREG]](s8)
	; CHECK: $r0 = COPY [[SEXTA]]			; CHECK: $r0 = COPY [[SEXTA]]
	; CHECK: [[ZEXTA:%[0-9]+]]:_(s32) = G_ZEXT [[AVREG]](s8)			; CHECK: [[ZEXTA:%[0-9]+]]:_(s32) = G_ZEXT [[AVREG]](s8)
	; CHECK: $r1 = COPY [[ZEXTA]]			; CHECK: $r1 = COPY [[ZEXTA]]
	; CHECK: [[SEXTB:%[0-9]+]]:_(s32) = G_SEXT [[BVREG]](s16)			; CHECK: [[SEXTB:%[0-9]+]]:_(s32) = G_SEXT [[BVREG]](s16)
	; CHECK: $r2 = COPY [[SEXTB]]			; CHECK: $r2 = COPY [[SEXTB]]
	; CHECK: [[ZEXTB:%[0-9]+]]:_(s32) = G_ZEXT [[BVREG]](s16)			; CHECK: [[ZEXTB:%[0-9]+]]:_(s32) = G_ZEXT [[BVREG]](s16)
	; CHECK: $r3 = COPY [[ZEXTB]]			; CHECK: $r3 = COPY [[ZEXTB]]
				; CHECK: [[SEXTA2:%[0-9]+]]:_(s32) = G_SEXT [[AVREG]]
	; CHECK: [[SP1:%[0-9]+]]:_(p0) = COPY $sp			; CHECK: [[SP1:%[0-9]+]]:_(p0) = COPY $sp
	; CHECK: [[OFF1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0			; CHECK: [[OFF1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
	; CHECK: [[FI1:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP1]], [[OFF1]](s32)			; CHECK: [[FI1:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP1]], [[OFF1]](s32)
	; CHECK: [[SEXTA2:%[0-9]+]]:_(s32) = G_SEXT [[AVREG]]
	; CHECK: G_STORE [[SEXTA2]](s32), [[FI1]](p0){{.*}}store 4			; CHECK: G_STORE [[SEXTA2]](s32), [[FI1]](p0){{.*}}store 4
				; CHECK: [[ZEXTA2:%[0-9]+]]:_(s32) = G_ZEXT [[AVREG]]
	; CHECK: [[SP2:%[0-9]+]]:_(p0) = COPY $sp			; CHECK: [[SP2:%[0-9]+]]:_(p0) = COPY $sp
	; CHECK: [[OFF2:%[0-9]+]]:_(s32) = G_CONSTANT i32 4			; CHECK: [[OFF2:%[0-9]+]]:_(s32) = G_CONSTANT i32 4
	; CHECK: [[FI2:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP2]], [[OFF2]](s32)			; CHECK: [[FI2:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP2]], [[OFF2]](s32)
	; CHECK: [[ZEXTA2:%[0-9]+]]:_(s32) = G_ZEXT [[AVREG]]
	; CHECK: G_STORE [[ZEXTA2]](s32), [[FI2]](p0){{.*}}store 4			; CHECK: G_STORE [[ZEXTA2]](s32), [[FI2]](p0){{.*}}store 4
				; CHECK: [[SEXTB2:%[0-9]+]]:_(s32) = G_SEXT [[BVREG]]
	; CHECK: [[SP3:%[0-9]+]]:_(p0) = COPY $sp			; CHECK: [[SP3:%[0-9]+]]:_(p0) = COPY $sp
	; CHECK: [[OFF3:%[0-9]+]]:_(s32) = G_CONSTANT i32 8			; CHECK: [[OFF3:%[0-9]+]]:_(s32) = G_CONSTANT i32 8
	; CHECK: [[FI3:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP3]], [[OFF3]](s32)			; CHECK: [[FI3:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP3]], [[OFF3]](s32)
	; CHECK: [[SEXTB2:%[0-9]+]]:_(s32) = G_SEXT [[BVREG]]
	; CHECK: G_STORE [[SEXTB2]](s32), [[FI3]](p0){{.*}}store 4			; CHECK: G_STORE [[SEXTB2]](s32), [[FI3]](p0){{.*}}store 4
				; CHECK: [[ZEXTB2:%[0-9]+]]:_(s32) = G_ZEXT [[BVREG]]
	; CHECK: [[SP4:%[0-9]+]]:_(p0) = COPY $sp			; CHECK: [[SP4:%[0-9]+]]:_(p0) = COPY $sp
	; CHECK: [[OFF4:%[0-9]+]]:_(s32) = G_CONSTANT i32 12			; CHECK: [[OFF4:%[0-9]+]]:_(s32) = G_CONSTANT i32 12
	; CHECK: [[FI4:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP4]], [[OFF4]](s32)			; CHECK: [[FI4:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP4]], [[OFF4]](s32)
	; CHECK: [[ZEXTB2:%[0-9]+]]:_(s32) = G_ZEXT [[BVREG]]
	; CHECK: G_STORE [[ZEXTB2]](s32), [[FI4]](p0){{.*}}store 4			; CHECK: G_STORE [[ZEXTB2]](s32), [[FI4]](p0){{.*}}store 4
				; CHECK: [[ZEXTC:%[0-9]+]]:_(s32) = G_ZEXT [[CVREG]]
	; CHECK: [[SP5:%[0-9]+]]:_(p0) = COPY $sp			; CHECK: [[SP5:%[0-9]+]]:_(p0) = COPY $sp
	; CHECK: [[OFF5:%[0-9]+]]:_(s32) = G_CONSTANT i32 16			; CHECK: [[OFF5:%[0-9]+]]:_(s32) = G_CONSTANT i32 16
	; CHECK: [[FI5:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP5]], [[OFF5]](s32)			; CHECK: [[FI5:%[0-9]+]]:_(p0) = G_PTR_ADD [[SP5]], [[OFF5]](s32)
	; CHECK: [[ZEXTC:%[0-9]+]]:_(s32) = G_ZEXT [[CVREG]]
	; CHECK: G_STORE [[ZEXTC]](s32), [[FI5]](p0){{.*}}store 4			; CHECK: G_STORE [[ZEXTC]](s32), [[FI5]](p0){{.*}}store 4
	; ARM: BL @ext_target, csr_aapcs, implicit-def $lr, implicit $sp, implicit $r0, implicit $r1, implicit $r2, implicit $r3, implicit-def $r0			; ARM: BL @ext_target, csr_aapcs, implicit-def $lr, implicit $sp, implicit $r0, implicit $r1, implicit $r2, implicit $r3, implicit-def $r0
	; THUMB: tBL 14 /* CC::al */, $noreg, @ext_target, csr_aapcs, implicit-def $lr, implicit $sp, implicit $r0, implicit $r1, implicit $r2, implicit $r3, implicit-def $r0			; THUMB: tBL 14 /* CC::al */, $noreg, @ext_target, csr_aapcs, implicit-def $lr, implicit $sp, implicit $r0, implicit $r1, implicit $r2, implicit $r3, implicit-def $r0
	; CHECK: [[R0VREG:%[0-9]+]]:_(s32) = COPY $r0			; CHECK: [[R0VREG:%[0-9]+]]:_(s32) = COPY $r0
	; CHECK: [[RVREG:%[0-9]+]]:_(s16) = G_TRUNC [[R0VREG]]			; CHECK: [[R0VREG_ASSERT:%[0-9]+]]:_(s32) = G_ASSERT_SEXT [[R0VREG]], 16
				; CHECK: [[RVREG:%[0-9]+]]:_(s16) = G_TRUNC [[R0VREG_ASSERT]]
	; CHECK: ADJCALLSTACKUP 20, 0, 14 /* CC::al */, $noreg, implicit-def $sp, implicit $sp			; CHECK: ADJCALLSTACKUP 20, 0, 14 /* CC::al */, $noreg, implicit-def $sp, implicit $sp
	; CHECK: [[RExtVREG:%[0-9]+]]:_(s32) = G_SEXT [[RVREG]]			; CHECK: [[RExtVREG:%[0-9]+]]:_(s32) = G_SEXT [[RVREG]]
	; CHECK: $r0 = COPY [[RExtVREG]]			; CHECK: $r0 = COPY [[RExtVREG]]
	; ARM: BX_RET 14 /* CC::al */, $noreg, implicit $r0			; ARM: BX_RET 14 /* CC::al */, $noreg, implicit $r0
	; THUMB: tBX_RET 14 /* CC::al */, $noreg, implicit $r0			; THUMB: tBX_RET 14 /* CC::al */, $noreg, implicit $r0
	entry:			entry:
	%r = notail call arm_aapcscc signext i16 @ext_target(i8 signext %a, i8 zeroext %a, i16 signext %b, i16 zeroext %b, i8 signext %a, i8 zeroext %a, i16 signext %b, i16 zeroext %b, i1 zeroext %c)			%r = notail call arm_aapcscc signext i16 @ext_target(i8 signext %a, i8 zeroext %a, i16 signext %b, i16 zeroext %b, i8 signext %a, i8 zeroext %a, i16 signext %b, i16 zeroext %b, i1 zeroext %c)
	ret i16 %r			ret i16 %r
	▲ Show 20 Lines • Show All 361 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/GlobalISel/arm-unsupported.ll

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	define i17 @test_funny_ints(i17 %a, i17 %b) {			define i17 @test_funny_ints(i17 %a, i17 %b) {
	; CHECK: remark: {{.}} unable to lower arguments: i17 (i17, i17)			; CHECK: remark: {{.}} unable to lower arguments: i17 (i17, i17)
	; CHECK-LABEL: warning: Instruction selection used fallback path for test_funny_ints			; CHECK-LABEL: warning: Instruction selection used fallback path for test_funny_ints
	%res = add i17 %a, %b			%res = add i17 %a, %b
	ret i17 %res			ret i17 %res
	}			}

	define half @test_half(half %a, half %b) {			define half @test_half(half %a, half %b) {
	; CHECK: remark: {{.}} unable to lower arguments: half (half, half) (in function: test_half)			; CHECK: remark: {{.*}} unable to legalize instruction: %{{[0-9]+}}:_(s16) = G_FADD %{{[0-9]+}}:_, %{{[0-9]+}}:_ (in function: test_half)
	; CHECK-LABEL: warning: Instruction selection used fallback path for test_half			; CHECK-LABEL: warning: Instruction selection used fallback path for test_half
	%res = fadd half %a, %b			%res = fadd half %a, %b
	ret half %res			ret half %res
	}			}

	declare [16 x i32] @ret_demotion_target()			declare [16 x i32] @ret_demotion_target()

	define [16 x i32] @test_ret_demotion() {			define [16 x i32] @test_ret_demotion() {
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/GlobalISel/add-scalar.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; X64-NEXT: # kill: def $edi killed $edi def $rdi			; X64-NEXT: # kill: def $edi killed $edi def $rdi
	; X64-NEXT: # kill: def $esi killed $esi def $rsi			; X64-NEXT: # kill: def $esi killed $esi def $rsi
	; X64-NEXT: leal (%rsi,%rdi), %eax			; X64-NEXT: leal (%rsi,%rdi), %eax
	; X64-NEXT: # kill: def $ax killed $ax killed $eax			; X64-NEXT: # kill: def $ax killed $ax killed $eax
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_add_i16:			; X86-LABEL: test_add_i16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: addw {{[0-9]+}}(%esp), %ax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-NEXT: addw %cx, %ax
				; X86-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-NEXT: retl			; X86-NEXT: retl
	%ret = add i16 %arg1, %arg2			%ret = add i16 %arg1, %arg2
	ret i16 %ret			ret i16 %ret
	}			}

	define i8 @test_add_i8(i8 %arg1, i8 %arg2) {			define i8 @test_add_i8(i8 %arg1, i8 %arg2) {
	; X64-LABEL: test_add_i8:			; X64-LABEL: test_add_i8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: # kill: def $edi killed $edi def $rdi			; X64-NEXT: # kill: def $edi killed $edi def $rdi
	; X64-NEXT: # kill: def $esi killed $esi def $rsi			; X64-NEXT: # kill: def $esi killed $esi def $rsi
	; X64-NEXT: leal (%rsi,%rdi), %eax			; X64-NEXT: leal (%rsi,%rdi), %eax
	; X64-NEXT: # kill: def $al killed $al killed $eax			; X64-NEXT: # kill: def $al killed $al killed $eax
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_add_i8:			; X86-LABEL: test_add_i8:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movb {{[0-9]+}}(%esp), %al			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: addb {{[0-9]+}}(%esp), %al			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-NEXT: addb %cl, %al
				; X86-NEXT: # kill: def $al killed $al killed $eax
	; X86-NEXT: retl			; X86-NEXT: retl
	%ret = add i8 %arg1, %arg2			%ret = add i8 %arg1, %arg2
	ret i8 %ret			ret i8 %ret
	}			}

	define i32 @test_add_i1(i32 %arg1, i32 %arg2) {			define i32 @test_add_i1(i32 %arg1, i32 %arg2) {
	; X64-LABEL: test_add_i1:			; X64-LABEL: test_add_i1:
	; X64: # %bb.0:			; X64: # %bb.0:
	Show All 21 Lines

llvm/test/CodeGen/X86/GlobalISel/callingconv.ll

	Show All 26 Lines
	; X64-NEXT: movabsq $68719476735, %rax # imm = 0xFFFFFFFFF			; X64-NEXT: movabsq $68719476735, %rax # imm = 0xFFFFFFFFF
	; X64-NEXT: retq			; X64-NEXT: retq
	ret i64 68719476735			ret i64 68719476735
	}			}

	define i8 @test_arg_i8(i8 %a) {			define i8 @test_arg_i8(i8 %a) {
	; X32-LABEL: test_arg_i8:			; X32-LABEL: test_arg_i8:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movb {{[0-9]+}}(%esp), %al			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X32-NEXT: # kill: def $al killed $al killed $eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_arg_i8:			; X64-LABEL: test_arg_i8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movl %edi, %eax			; X64-NEXT: movl %edi, %eax
	; X64-NEXT: # kill: def $al killed $al killed $eax			; X64-NEXT: # kill: def $al killed $al killed $eax
	; X64-NEXT: retq			; X64-NEXT: retq
	ret i8 %a			ret i8 %a
	}			}

	define i16 @test_arg_i16(i16 %a) {			define i16 @test_arg_i16(i16 %a) {
	; X32-LABEL: test_arg_i16:			; X32-LABEL: test_arg_i16:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X32-NEXT: # kill: def $ax killed $ax killed $eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_arg_i16:			; X64-LABEL: test_arg_i16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movl %edi, %eax			; X64-NEXT: movl %edi, %eax
	; X64-NEXT: # kill: def $ax killed $ax killed $eax			; X64-NEXT: # kill: def $ax killed $ax killed $eax
	; X64-NEXT: retq			; X64-NEXT: retq
	ret i16 %a			ret i16 %a
	▲ Show 20 Lines • Show All 380 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/GlobalISel/ext.ll

				; XFAIL: *
				; FIXME: This test is broken due to https://bugs.llvm.org/show_bug.cgi?id=50035
	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=x86_64-linux-gnu -global-isel -verify-machineinstrs < %s -o - \| FileCheck %s --check-prefix=X64			; RUN: llc -mtriple=x86_64-linux-gnu -global-isel -verify-machineinstrs < %s -o - \| FileCheck %s --check-prefix=X64
	; RUN: llc -mtriple=i386-linux-gnu -global-isel -verify-machineinstrs < %s -o - \| FileCheck %s --check-prefix=X32			; RUN: llc -mtriple=i386-linux-gnu -global-isel -verify-machineinstrs < %s -o - \| FileCheck %s --check-prefix=X32

	define i8 @test_zext_i1toi8(i32 %a) {			define i8 @test_zext_i1toi8(i32 %a) {
	; X64-LABEL: test_zext_i1toi8:			; X64-LABEL: test_zext_i1toi8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movl %edi, %eax			; X64-NEXT: movl %edi, %eax
	▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/GlobalISel/irtranslator-callingconv.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: llc -O0 -mtriple=i386-linux-gnu -mattr=+sse2 -global-isel -stop-after=irtranslator < %s \| FileCheck %s --check-prefix=X86			; RUN: llc -O0 -mtriple=i386-linux-gnu -mattr=+sse2 -global-isel -stop-after=irtranslator < %s \| FileCheck %s --check-prefix=X86
	; RUN: llc -O0 -mtriple=x86_64-linux-gnu -global-isel -stop-after=irtranslator < %s \| FileCheck %s --check-prefix=X64			; RUN: llc -O0 -mtriple=x86_64-linux-gnu -global-isel -stop-after=irtranslator < %s \| FileCheck %s --check-prefix=X64

	@a1_8bit = external global i8			@a1_8bit = external global i8
	@a7_8bit = external global i8			@a7_8bit = external global i8
	@a8_8bit = external global i8			@a8_8bit = external global i8

	define i8 @test_i8_args_8(i8 %arg1, i8 %arg2, i8 %arg3, i8 %arg4, i8 %arg5, i8 %arg6, i8 %arg7, i8 %arg8) {			define i8 @test_i8_args_8(i8 %arg1, i8 %arg2, i8 %arg3, i8 %arg4, i8 %arg5, i8 %arg6, i8 %arg7, i8 %arg8) {
	; X86-LABEL: name: test_i8_args_8			; X86-LABEL: name: test_i8_args_8
	; X86: bb.1.entry:			; X86: bb.1.entry:
	; X86: [[FRAME_INDEX:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.7			; X86: [[FRAME_INDEX:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.7
	; X86: [[LOAD:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX]](p0) :: (invariant load 1 from %fixed-stack.7, align 16)			; X86: [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX]](p0) :: (invariant load 1 from %fixed-stack.7, align 16)
				; X86: [[TRUNC:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD]](s32)
	; X86: [[FRAME_INDEX1:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.6			; X86: [[FRAME_INDEX1:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.6
	; X86: [[LOAD1:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX1]](p0) :: (invariant load 1 from %fixed-stack.6, align 4)			; X86: [[LOAD1:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX1]](p0) :: (invariant load 1 from %fixed-stack.6, align 4)
				; X86: [[TRUNC1:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD1]](s32)
	; X86: [[FRAME_INDEX2:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.5			; X86: [[FRAME_INDEX2:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.5
	; X86: [[LOAD2:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX2]](p0) :: (invariant load 1 from %fixed-stack.5, align 8)			; X86: [[LOAD2:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX2]](p0) :: (invariant load 1 from %fixed-stack.5, align 8)
				; X86: [[TRUNC2:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD2]](s32)
	; X86: [[FRAME_INDEX3:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.4			; X86: [[FRAME_INDEX3:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.4
	; X86: [[LOAD3:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX3]](p0) :: (invariant load 1 from %fixed-stack.4, align 4)			; X86: [[LOAD3:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX3]](p0) :: (invariant load 1 from %fixed-stack.4, align 4)
				; X86: [[TRUNC3:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD3]](s32)
	; X86: [[FRAME_INDEX4:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.3			; X86: [[FRAME_INDEX4:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.3
	; X86: [[LOAD4:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX4]](p0) :: (invariant load 1 from %fixed-stack.3, align 16)			; X86: [[LOAD4:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX4]](p0) :: (invariant load 1 from %fixed-stack.3, align 16)
				; X86: [[TRUNC4:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD4]](s32)
	; X86: [[FRAME_INDEX5:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.2			; X86: [[FRAME_INDEX5:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.2
	; X86: [[LOAD5:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX5]](p0) :: (invariant load 1 from %fixed-stack.2, align 4)			; X86: [[LOAD5:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX5]](p0) :: (invariant load 1 from %fixed-stack.2, align 4)
				; X86: [[TRUNC5:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD5]](s32)
	; X86: [[FRAME_INDEX6:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.1			; X86: [[FRAME_INDEX6:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.1
	; X86: [[LOAD6:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX6]](p0) :: (invariant load 1 from %fixed-stack.1, align 8)			; X86: [[LOAD6:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX6]](p0) :: (invariant load 1 from %fixed-stack.1, align 8)
				; X86: [[TRUNC6:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD6]](s32)
	; X86: [[FRAME_INDEX7:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.0			; X86: [[FRAME_INDEX7:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.0
	; X86: [[LOAD7:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX7]](p0) :: (invariant load 1 from %fixed-stack.0, align 4)			; X86: [[LOAD7:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX7]](p0) :: (invariant load 1 from %fixed-stack.0, align 4)
				; X86: [[TRUNC7:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD7]](s32)
	; X86: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a1_8bit			; X86: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a1_8bit
	; X86: [[GV1:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a7_8bit			; X86: [[GV1:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a7_8bit
	; X86: [[GV2:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a8_8bit			; X86: [[GV2:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a8_8bit
	; X86: G_STORE [[LOAD]](s8), [[GV]](p0) :: (store 1 into @a1_8bit)			; X86: G_STORE [[TRUNC]](s8), [[GV]](p0) :: (store 1 into @a1_8bit)
	; X86: G_STORE [[LOAD6]](s8), [[GV1]](p0) :: (store 1 into @a7_8bit)			; X86: G_STORE [[TRUNC6]](s8), [[GV1]](p0) :: (store 1 into @a7_8bit)
	; X86: G_STORE [[LOAD7]](s8), [[GV2]](p0) :: (store 1 into @a8_8bit)			; X86: G_STORE [[TRUNC7]](s8), [[GV2]](p0) :: (store 1 into @a8_8bit)
	; X86: $al = COPY [[LOAD]](s8)			; X86: $al = COPY [[TRUNC]](s8)
	; X86: RET 0, implicit $al			; X86: RET 0, implicit $al
	; X64-LABEL: name: test_i8_args_8			; X64-LABEL: name: test_i8_args_8
	; X64: bb.1.entry:			; X64: bb.1.entry:
	; X64: liveins: $ecx, $edi, $edx, $esi, $r8d, $r9d			; X64: liveins: $ecx, $edi, $edx, $esi, $r8d, $r9d
	; X64: [[COPY:%[0-9]+]]:_(s32) = COPY $edi			; X64: [[COPY:%[0-9]+]]:_(s32) = COPY $edi
	; X64: [[TRUNC:%[0-9]+]]:_(s8) = G_TRUNC [[COPY]](s32)			; X64: [[TRUNC:%[0-9]+]]:_(s8) = G_TRUNC [[COPY]](s32)
	; X64: [[COPY1:%[0-9]+]]:_(s32) = COPY $esi			; X64: [[COPY1:%[0-9]+]]:_(s32) = COPY $esi
	; X64: [[TRUNC1:%[0-9]+]]:_(s8) = G_TRUNC [[COPY1]](s32)			; X64: [[TRUNC1:%[0-9]+]]:_(s8) = G_TRUNC [[COPY1]](s32)
	; X64: [[COPY2:%[0-9]+]]:_(s32) = COPY $edx			; X64: [[COPY2:%[0-9]+]]:_(s32) = COPY $edx
	; X64: [[TRUNC2:%[0-9]+]]:_(s8) = G_TRUNC [[COPY2]](s32)			; X64: [[TRUNC2:%[0-9]+]]:_(s8) = G_TRUNC [[COPY2]](s32)
	; X64: [[COPY3:%[0-9]+]]:_(s32) = COPY $ecx			; X64: [[COPY3:%[0-9]+]]:_(s32) = COPY $ecx
	; X64: [[TRUNC3:%[0-9]+]]:_(s8) = G_TRUNC [[COPY3]](s32)			; X64: [[TRUNC3:%[0-9]+]]:_(s8) = G_TRUNC [[COPY3]](s32)
	; X64: [[COPY4:%[0-9]+]]:_(s32) = COPY $r8d			; X64: [[COPY4:%[0-9]+]]:_(s32) = COPY $r8d
	; X64: [[TRUNC4:%[0-9]+]]:_(s8) = G_TRUNC [[COPY4]](s32)			; X64: [[TRUNC4:%[0-9]+]]:_(s8) = G_TRUNC [[COPY4]](s32)
	; X64: [[COPY5:%[0-9]+]]:_(s32) = COPY $r9d			; X64: [[COPY5:%[0-9]+]]:_(s32) = COPY $r9d
	; X64: [[TRUNC5:%[0-9]+]]:_(s8) = G_TRUNC [[COPY5]](s32)			; X64: [[TRUNC5:%[0-9]+]]:_(s8) = G_TRUNC [[COPY5]](s32)
	; X64: [[FRAME_INDEX:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.1			; X64: [[FRAME_INDEX:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.1
	; X64: [[LOAD:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX]](p0) :: (invariant load 1 from %fixed-stack.1, align 16)			; X64: [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX]](p0) :: (invariant load 1 from %fixed-stack.1, align 16)
				; X64: [[TRUNC6:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD]](s32)
	; X64: [[FRAME_INDEX1:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.0			; X64: [[FRAME_INDEX1:%[0-9]+]]:_(p0) = G_FRAME_INDEX %fixed-stack.0
	; X64: [[LOAD1:%[0-9]+]]:_(s8) = G_LOAD [[FRAME_INDEX1]](p0) :: (invariant load 1 from %fixed-stack.0, align 8)			; X64: [[LOAD1:%[0-9]+]]:_(s32) = G_LOAD [[FRAME_INDEX1]](p0) :: (invariant load 1 from %fixed-stack.0, align 8)
				; X64: [[TRUNC7:%[0-9]+]]:_(s8) = G_TRUNC [[LOAD1]](s32)
	; X64: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a1_8bit			; X64: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a1_8bit
	; X64: [[GV1:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a7_8bit			; X64: [[GV1:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a7_8bit
	; X64: [[GV2:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a8_8bit			; X64: [[GV2:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @a8_8bit
	; X64: G_STORE [[TRUNC]](s8), [[GV]](p0) :: (store 1 into @a1_8bit)			; X64: G_STORE [[TRUNC]](s8), [[GV]](p0) :: (store 1 into @a1_8bit)
	; X64: G_STORE [[LOAD]](s8), [[GV1]](p0) :: (store 1 into @a7_8bit)			; X64: G_STORE [[TRUNC6]](s8), [[GV1]](p0) :: (store 1 into @a7_8bit)
	; X64: G_STORE [[LOAD1]](s8), [[GV2]](p0) :: (store 1 into @a8_8bit)			; X64: G_STORE [[TRUNC7]](s8), [[GV2]](p0) :: (store 1 into @a8_8bit)
	; X64: $al = COPY [[TRUNC]](s8)			; X64: $al = COPY [[TRUNC]](s8)
	; X64: RET 0, implicit $al			; X64: RET 0, implicit $al
	entry:			entry:
	store i8 %arg1, i8* @a1_8bit			store i8 %arg1, i8* @a1_8bit
	store i8 %arg7, i8* @a7_8bit			store i8 %arg7, i8* @a7_8bit
	store i8 %arg8, i8* @a8_8bit			store i8 %arg8, i8* @a8_8bit
	ret i8 %arg1			ret i8 %arg1
	}			}
	▲ Show 20 Lines • Show All 622 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/GlobalISel/memop-scalar-x32.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --no_x86_scrub_sp
	; RUN: llc -mtriple=i386-linux-gnu -global-isel -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -mtriple=i386-linux-gnu -global-isel -verify-machineinstrs < %s \| FileCheck %s
	; RUN: llc -mtriple=i386-linux-gnu -regbankselect-greedy -global-isel -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -mtriple=i386-linux-gnu -regbankselect-greedy -global-isel -verify-machineinstrs < %s \| FileCheck %s

	;TODO merge with x86-64 tests (many operations not suppored yet)			;TODO merge with x86-64 tests (many operations not suppored yet)

	define i1 @test_load_i1(i1 * %p1) {			define i1 @test_load_i1(i1 * %p1) {
	; CHECK-LABEL: test_load_i1:			; CHECK-LABEL: test_load_i1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	Show All 32 Lines
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%r = load i32, i32* %p1			%r = load i32, i32* %p1
	ret i32 %r			ret i32 %r
	}			}

	define i1 * @test_store_i1(i1 %val, i1 * %p1) {			define i1 * @test_store_i1(i1 %val, i1 * %p1) {
	; CHECK-LABEL: test_store_i1:			; CHECK-LABEL: test_store_i1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movb 4(%esp), %cl			; CHECK-NEXT: movl 4(%esp), %ecx
	; CHECK-NEXT: movl 8(%esp), %eax			; CHECK-NEXT: movl 8(%esp), %eax
	; CHECK-NEXT: andb $1, %cl			; CHECK-NEXT: andb $1, %cl
	; CHECK-NEXT: movb %cl, (%eax)			; CHECK-NEXT: movb %cl, (%eax)
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	store i1 %val, i1* %p1			store i1 %val, i1* %p1
	ret i1 * %p1;			ret i1 * %p1;
	}			}

	define i8 * @test_store_i8(i8 %val, i8 * %p1) {			define i8 * @test_store_i8(i8 %val, i8 * %p1) {
	; CHECK-LABEL: test_store_i8:			; CHECK-LABEL: test_store_i8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movb 4(%esp), %cl			; CHECK-NEXT: movl 4(%esp), %ecx
	; CHECK-NEXT: movl 8(%esp), %eax			; CHECK-NEXT: movl 8(%esp), %eax
	; CHECK-NEXT: movb %cl, (%eax)			; CHECK-NEXT: movb %cl, (%eax)
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	store i8 %val, i8* %p1			store i8 %val, i8* %p1
	ret i8 * %p1;			ret i8 * %p1;
	}			}

	define i16 * @test_store_i16(i16 %val, i16 * %p1) {			define i16 * @test_store_i16(i16 %val, i16 * %p1) {
	; CHECK-LABEL: test_store_i16:			; CHECK-LABEL: test_store_i16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movzwl 4(%esp), %ecx			; CHECK-NEXT: movl 4(%esp), %ecx
	; CHECK-NEXT: movl 8(%esp), %eax			; CHECK-NEXT: movl 8(%esp), %eax
	; CHECK-NEXT: movw %cx, (%eax)			; CHECK-NEXT: movw %cx, (%eax)
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	store i16 %val, i16* %p1			store i16 %val, i16* %p1
	ret i16 * %p1;			ret i16 * %p1;
	}			}

	define i32 * @test_store_i32(i32 %val, i32 * %p1) {			define i32 * @test_store_i32(i32 %val, i32 * %p1) {
	Show All 30 Lines

This is an archive of the discontinued LLVM Phabricator instance.

GlobalISel: Use DAG call lowering infrastructure in a more compatible wayClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 342864

llvm/include/llvm/CodeGen/GlobalISel/CallLowering.h

llvm/lib/CodeGen/GlobalISel/CallLowering.cpp

llvm/lib/Target/AArch64/GISel/AArch64CallLowering.cpp

llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp

llvm/lib/Target/ARM/ARMCallLowering.cpp

llvm/lib/Target/X86/X86CallLowering.cpp

llvm/test/CodeGen/AArch64/GlobalISel/arm64-callingconv-ios.ll

llvm/test/CodeGen/AArch64/GlobalISel/arm64-callingconv.ll

llvm/test/CodeGen/AArch64/GlobalISel/arm64-irtranslator.ll

llvm/test/CodeGen/AArch64/GlobalISel/call-translator.ll

llvm/test/CodeGen/AArch64/GlobalISel/irtranslator-reductions.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/andn2.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ashr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/bswap.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/dummy-target.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fma.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-call.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-function-args.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/lshr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/orn2.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/roundeven.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/shl-ext-reduce.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/xnor.ll

llvm/test/CodeGen/ARM/GlobalISel/arm-irtranslator.ll

llvm/test/CodeGen/ARM/GlobalISel/arm-isel.ll

llvm/test/CodeGen/ARM/GlobalISel/arm-legalize-vfp4.mir

llvm/test/CodeGen/ARM/GlobalISel/arm-param-lowering.ll

llvm/test/CodeGen/ARM/GlobalISel/arm-unsupported.ll

llvm/test/CodeGen/X86/GlobalISel/add-scalar.ll

llvm/test/CodeGen/X86/GlobalISel/callingconv.ll

llvm/test/CodeGen/X86/GlobalISel/ext.ll

llvm/test/CodeGen/X86/GlobalISel/irtranslator-callingconv.ll

llvm/test/CodeGen/X86/GlobalISel/memop-scalar-x32.ll

GlobalISel: Use DAG call lowering infrastructure in a more compatible way
ClosedPublic