This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
6/8
SIInsertWaitcnts.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
cvt_f32_ubyte.ll
-
extractelement.i128.ll
-
extractelement.i16.ll
-
extractelement.i8.ll
-
extractelement.ll
-
fmed3.ll
-
frem.ll
-
insertelement.i16.ll
-
insertelement.i8.ll
-
lds-global-non-entry-func.ll
-
llvm.amdgcn.atomic.dec.ll
-
llvm.amdgcn.atomic.inc.ll
-
llvm.amdgcn.div.fmas.ll
-
llvm.amdgcn.div.scale.ll
-
llvm.amdgcn.update.dpp.ll
-
shl-ext-reduce.ll
-
zextload.ll
-
bitreverse.ll
-
copy-illegal-type.ll
-
ctlz.ll
-
cvt_f32_ubyte.ll
-
fast-unaligned-load-store.global.ll
-
fmax_legacy.f64.ll
-
fmin_legacy.f64.ll
-
frem.ll
-
idot2.ll
-
imm16.ll
-
insert_vector_elt.v2i16.ll
-
llvm.amdgcn.cvt.pkrtz.ll
-
llvm.amdgcn.image.sample.d16.dim.ll
-
llvm.cos.f16.ll
-
llvm.sin.f16.ll
-
load-lo16.ll
-
lshr.v2i16.ll
-
max.i16.ll
-
saddo.ll
-
shl.v2i16.ll
-
shrink-add-sub-constant.ll
-
sub.v2i16.ll
-
trunc-combine.ll
-
waitcnt-back-edge-loop.mir
-
waitcnt-looptest.ll
-
waitcnt-vscnt.ll
12/12
waitcnt.mir
-
widen-smrd-loads.ll

Differential D89618

[AMDGPU] Optimize waitcnt insertion for flat memory operations
ClosedPublic

Authored by t-tye on Oct 17 2020, 12:25 AM.

Download Raw Diff

Details

Reviewers

kzhuravl
scott.linder
arsenm
rampitec

Commits

rG1bc7bfffdbab: [AMDGPU] Optimize waitcnt insertion for flat memory operations

Summary

Change waitcnt insertion to check the memory operand tokens to see if
flat memory operations access VMEM in the same way it does to check if
accessing LDS. This avoids adding waitcnt for counters for address
spaces that are not accessed.

In addition, only generate the pessimistic waitcnt 0 if a flat memory
operation appears to access both VMEM and LDS.

This benefits flat memory operations that explicitly specify the
address space as GLOBAL or LOCAL.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

t-tye created this revision.Oct 17 2020, 12:25 AM

Herald added a project: Restricted Project. · View Herald TranscriptOct 17 2020, 12:25 AM

Herald added subscribers: llvm-commits, wenlei, kerbowa and 6 others. · View Herald Transcript

t-tye requested review of this revision.Oct 17 2020, 12:25 AM

Herald added a subscriber: wdng. · View Herald TranscriptOct 17 2020, 12:25 AM

Harbormaster completed remote builds in B75414: Diff 298812.Oct 17 2020, 12:57 AM

arsenm added inline comments.Oct 19 2020, 8:22 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1270	When is usesVM_CNT false and isFLAT true?

LGTM modulo that inline question.

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1270	I'd like to know as well. It may be better to make this an `assert(TII->usesVM_CNT(Inst))` instead.

rampitec added inline comments.Oct 19 2020, 11:55 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1202	Could you add assert (TII->isFLAT(MI)) at the top of the function?
1270	Second to that, turn the check into assert. There are no such instructions at least so far.
llvm/test/CodeGen/AMDGPU/waitcnt.mir
67–68	That one was not supposed to change? The pointer is flat here.

rampitec added inline comments.Oct 19 2020, 1:36 PM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1207	It should check for local or flat here.

Address review comments.

t-tye marked an inline comment as not done.Oct 19 2020, 6:48 PM

t-tye added inline comments.

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1207	We do not want to test for local and flat as this method is checking to VMEM not LDS. Instead, we want to check for all the address spaces that are legal for a flat operation and involve VMEM. Looking at the enumeration of address spaces there are quite a few that are valid for flat that involve VMEM. Forxample, global, flat, contant, private, the ones involving buffers, etc. Since flat only supports LDS, FLAT, and the address spaces that involve VMEM the clearest test here is to find address spaces that are not LDS. They are the ones that may be VMEM. I considered asserting if any address space was found that was not legal for a flat operation. For example region (GDS) is not valid. But is there an existing predicate to answer that question?
1270	This was in the original code but I agree it makes little sense. So moved it as an assert into mayAccessVMEMThroughFlat().
llvm/test/CodeGen/AMDGPU/waitcnt.mir
67–68	Yes. Previously it was "s_waitcnt vmcnt(0) lgkmcnt(0)". Now it is "s_waitcnt vmcnt(0)" as the address space of global16 is 1 which is GLOBAL. Therefore there is no need to wait on LGKM.

Really upload the review feedback changes.

Harbormaster completed remote builds in B75631: Diff 299234.Oct 19 2020, 7:26 PM

Harbormaster completed remote builds in B75635: Diff 299238.Oct 19 2020, 7:34 PM

Fix clang format warnings.

Harbormaster completed remote builds in B75642: Diff 299252.Oct 19 2020, 10:07 PM

The patch clearly ignores existence of flat pointers with the test failing.

llvm/test/CodeGen/AMDGPU/waitcnt.mir
67–68	It is not global, it is flat: <4 x i32>* %flat16 ... $vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.flat16)

This revision now requires changes to proceed.Oct 19 2020, 11:33 PM

JFYI how much it will help actual programs after it is fixed is unclear. It will likely change a lot of lit tests, but actual effect on real programs would depend on FE and language rules. And inlining of course, as usual.

t-tye added inline comments.Oct 20 2020, 12:56 AM

llvm/test/CodeGen/AMDGPU/waitcnt.mir

67–68

But isn't this test checking:

$vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.global4)
$vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.global16)

These are referencing global4 and global16 which are:

i32 addrspace(1)* %global4,
<4 x i32> addrspace(1)* %global16

Which are both marked as the global (1) not flat (0) address space.

Am I missing something?

In D89618#2340966, @rampitec wrote:

JFYI how much it will help actual programs after it is fixed is unclear. It will likely change a lot of lit tests, but actual effect on real programs would depend on FE and language rules. And inlining of course, as usual.

It did change 46 lit tests. I agree it is unclear how much it will help. But the GLOBAL and SCRATCH flat operations seem like they may avoid the pessimistic waitcnt 0.

In D89618#2341074, @t-tye wrote:

In D89618#2340966, @rampitec wrote:

JFYI how much it will help actual programs after it is fixed is unclear. It will likely change a lot of lit tests, but actual effect on real programs would depend on FE and language rules. And inlining of course, as usual.

It did change 46 lit tests. I agree it is unclear how much it will help. But the GLOBAL and SCRATCH flat operations seem like they may avoid the pessimistic waitcnt 0.

Right. Out of these 46 lit tests I was looking for for a very specific one, wanting to ask to write one if it does not exist. This one does exist and it is failing.

llvm/test/CodeGen/AMDGPU/waitcnt.mir
67–68	No, it is not. Note it first checks label bb.2. And after it: $vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.flat16) It is flat pointer. Not global. Think about the testcase itself: it is a standalone function (not kernel) taking a generic pointer. You are checking for the question: "is is this DEFINITELY an LDS pointer?" The answer is no, so you say: "this is DEFINITELY NOT an LDS pointer".
67–68	Or VMEM for that matter.

In D89618#2341101, @rampitec wrote:

In D89618#2341074, @t-tye wrote:

In D89618#2340966, @rampitec wrote:

JFYI how much it will help actual programs after it is fixed is unclear. It will likely change a lot of lit tests, but actual effect on real programs would depend on FE and language rules. And inlining of course, as usual.

It did change 46 lit tests. I agree it is unclear how much it will help. But the GLOBAL and SCRATCH flat operations seem like they may avoid the pessimistic waitcnt 0.

Right. Out of these 46 lit tests I was looking for a very specific one, wanting to ask to write one if it does not exist. This one does exist and it is failing.

Which test is failing? All the lit tests are passing on my machine. Or are you questioning the way the CHECK tests have been updated? The original test is marking the FLAT pointer as referencing the GLOBAL address space. I assume this is what the frontend did to match the CUDA language semantics that say kernel arguments can only reference global memory. So I believe the generated code is correct unless I am missing something.

In D89618#2341115, @t-tye wrote:

In D89618#2341101, @rampitec wrote:

In D89618#2341074, @t-tye wrote:

In D89618#2340966, @rampitec wrote:

JFYI how much it will help actual programs after it is fixed is unclear. It will likely change a lot of lit tests, but actual effect on real programs would depend on FE and language rules. And inlining of course, as usual.

It did change 46 lit tests. I agree it is unclear how much it will help. But the GLOBAL and SCRATCH flat operations seem like they may avoid the pessimistic waitcnt 0.

Right. Out of these 46 lit tests I was looking for a very specific one, wanting to ask to write one if it does not exist. This one does exist and it is failing.

Which test is failing? All the lit tests are passing on my machine. Or are you questioning the way the CHECK tests have been updated? The original test is marking the FLAT pointer as referencing the GLOBAL address space. I assume this is what the frontend did to match the CUDA language semantics that say kernel arguments can only reference global memory. So I believe the generated code is correct unless I am missing something.

waitcnt.mir. It was updated to pass the testing and this update basically flushes the test. It has nothing to do with CUDA, language is irrelevant here. Even more when we speak about functions.

rampitec added inline comments.Oct 20 2020, 10:40 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1207	Hm.. Right, it should return true for generic here. It seems the test (waitcnt.mir) itself does not test what is expected. So we need a test with a real flat pointer, load and full wait.

Address review comments.

rampitec added inline comments.Oct 20 2020, 2:24 PM

llvm/test/CodeGen/AMDGPU/waitcnt.mir
111	Can you keep just load from flat here? The other load obscures the result.

Cleanup commit message.

t-tye marked 2 inline comments as done.Oct 20 2020, 2:28 PM

t-tye added inline comments.

llvm/test/CodeGen/AMDGPU/waitcnt.mir
67–68	I believe the waitcnts are correct, and added the extra test you recommended.
111	Add the extra BB3 you suggested. The waitcnts being generated seem correct from my inspection.

rampitec added inline comments.Oct 20 2020, 2:31 PM

llvm/test/CodeGen/AMDGPU/waitcnt.mir
111	They seem to be correct, but with two loads per block it is hard to understand which of the loads has actually caused the wait. If you want to keep it this way, add yet another bb.4, but with only a load from flat.

Harbormaster completed remote builds in B75765: Diff 299472.Oct 20 2020, 3:20 PM

Harbormaster completed remote builds in B75767: Diff 299474.Oct 20 2020, 3:34 PM

Add test with a single flat load to check that the waitcnt is 0.

LGTM. Thank you!

This revision is now accepted and ready to land.Oct 20 2020, 3:35 PM

t-tye marked 4 inline comments as done.Oct 20 2020, 3:38 PM

t-tye added inline comments.

llvm/test/CodeGen/AMDGPU/waitcnt.mir
67–68	On checking the test the waitcnts do seem correct because the registers being waited on are produced by loads in earlier basic blocks. Those earlier loads are either global, or they are flat but there is intervening waitcnt that satisfies a vmemcnt(0). Add two additional basic blocks to test this better.
111	Add a bb.4 that has a single load from flat.

This revision was landed with ongoing or failed builds.Oct 20 2020, 3:56 PM

Closed by commit rG1bc7bfffdbab: [AMDGPU] Optimize waitcnt insertion for flat memory operations (authored by t-tye). · Explain Why

This revision was automatically updated to reflect the committed changes.

t-tye marked an inline comment as done.

t-tye added a commit: rG1bc7bfffdbab: [AMDGPU] Optimize waitcnt insertion for flat memory operations.

Harbormaster completed remote builds in B75781: Diff 299494.Oct 20 2020, 4:32 PM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIInsertWaitcnts.cpp

66 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

cvt_f32_ubyte.ll

36 lines

extractelement.i128.ll

18 lines

extractelement.i16.ll

44 lines

68 lines

8 lines

32 lines

8 lines

56 lines

40 lines

lds-global-non-entry-func.ll

2 lines

llvm.amdgcn.atomic.dec.ll

24 lines

llvm.amdgcn.atomic.inc.ll

28 lines

llvm.amdgcn.div.fmas.ll

4 lines

llvm.amdgcn.div.scale.ll

46 lines

llvm.amdgcn.update.dpp.ll

2 lines

2 lines

12 lines

8 lines

12 lines

22 lines

52 lines

fast-unaligned-load-store.global.ll

16 lines

8 lines

16 lines

34 lines

3 lines

18 lines

insert_vector_elt.v2i16.ll

80 lines

llvm.amdgcn.cvt.pkrtz.ll

14 lines

llvm.amdgcn.image.sample.d16.dim.ll

4 lines

4 lines

4 lines

102 lines

14 lines

18 lines

6 lines

14 lines

shrink-add-sub-constant.ll

66 lines

sub.v2i16.ll

20 lines

trunc-combine.ll

4 lines

waitcnt-back-edge-loop.mir

2 lines

6 lines

8 lines

39 lines

2 lines

Diff 299499

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp

Show First 20 Lines • Show All 452 Lines • ▼ Show 20 Lines	if (DebugCounter::isCounterSet(ForceVMCounter) &&
DebugCounter::shouldExecute(ForceVMCounter)) {		DebugCounter::shouldExecute(ForceVMCounter)) {
ForceEmitWaitcnt[VM_CNT] = true;		ForceEmitWaitcnt[VM_CNT] = true;
} else {		} else {
ForceEmitWaitcnt[VM_CNT] = false;		ForceEmitWaitcnt[VM_CNT] = false;
}		}
#endif // NDEBUG		#endif // NDEBUG
}		}

		bool mayAccessVMEMThroughFlat(const MachineInstr &MI) const;
bool mayAccessLDSThroughFlat(const MachineInstr &MI) const;		bool mayAccessLDSThroughFlat(const MachineInstr &MI) const;
bool generateWaitcntInstBefore(MachineInstr &MI,		bool generateWaitcntInstBefore(MachineInstr &MI,
WaitcntBrackets &ScoreBrackets,		WaitcntBrackets &ScoreBrackets,
MachineInstr *OldWaitcntInstr);		MachineInstr *OldWaitcntInstr);
void updateEventWaitcntAfter(MachineInstr &Inst,		void updateEventWaitcntAfter(MachineInstr &Inst,
WaitcntBrackets *ScoreBrackets);		WaitcntBrackets *ScoreBrackets);
bool insertWaitcntInBlock(MachineFunction &MF, MachineBasicBlock &Block,		bool insertWaitcntInBlock(MachineFunction &MF, MachineBasicBlock &Block,
WaitcntBrackets &ScoreBrackets);		WaitcntBrackets &ScoreBrackets);
▲ Show 20 Lines • Show All 720 Lines • ▼ Show 20 Lines	if (Wait.VsCnt != ~0u) {
LLVM_DEBUG(dbgs() << "generateWaitcntInstBefore\n"		LLVM_DEBUG(dbgs() << "generateWaitcntInstBefore\n"
<< "Old Instr: " << MI		<< "Old Instr: " << MI
<< "New Instr: " << *SWaitInst << '\n');		<< "New Instr: " << *SWaitInst << '\n');
}		}

return Modified;		return Modified;
}		}

// This is a flat memory operation. Check to see if it has memory		// This is a flat memory operation. Check to see if it has memory tokens other
// tokens for both LDS and Memory, and if so mark it as a flat.		// than LDS. Other address spaces supported by flat memory operations involve
		// global memory.
		bool SIInsertWaitcnts::mayAccessVMEMThroughFlat(const MachineInstr &MI) const {
		assert(TII->isFLAT(MI));
		rampitecUnsubmitted Done Reply Inline Actions Could you add assert (TII->isFLAT(MI)) at the top of the function? rampitec: Could you add assert (TII->isFLAT(MI)) at the top of the function?

		// All flat instructions use the VMEM counter.
		assert(TII->usesVM_CNT(MI));

		// If there are no memory operands then conservatively assume the flat
		rampitecUnsubmitted Not Done Reply Inline Actions It should check for local or flat here. rampitec: It should check for local or flat here.
		t-tyeAuthorUnsubmitted Done Reply Inline Actions We do not want to test for local and flat as this method is checking to VMEM not LDS. Instead, we want to check for all the address spaces that are legal for a flat operation and involve VMEM. Looking at the enumeration of address spaces there are quite a few that are valid for flat that involve VMEM. Forxample, global, flat, contant, private, the ones involving buffers, etc. Since flat only supports LDS, FLAT, and the address spaces that involve VMEM the clearest test here is to find address spaces that are not LDS. They are the ones that may be VMEM. I considered asserting if any address space was found that was not legal for a flat operation. For example region (GDS) is not valid. But is there an existing predicate to answer that question? t-tye: We do not want to test for local and flat as this method is checking to VMEM not LDS. Instead…
		rampitecUnsubmitted Not Done Reply Inline Actions Hm.. Right, it should return true for generic here. It seems the test (waitcnt.mir) itself does not test what is expected. So we need a test with a real flat pointer, load and full wait. rampitec: Hm.. Right, it should return true for generic here. It seems the test (waitcnt.mir) itself does…
		// operation may access VMEM.
		if (MI.memoperands_empty())
		return true;

		// See if any memory operand specifies an address space that involves VMEM.
		// Flat operations only supported FLAT, LOCAL (LDS), or address spaces
		// involving VMEM such as GLOBAL, CONSTANT, PRIVATE (SCRATCH), etc. The REGION
		// (GDS) address space is not supported by flat operations. Therefore, simply
		// return true unless only the LDS address space is found.
		for (const MachineMemOperand *Memop : MI.memoperands()) {
		unsigned AS = Memop->getAddrSpace();
		assert(AS != AMDGPUAS::REGION_ADDRESS);
		if (AS != AMDGPUAS::LOCAL_ADDRESS)
		return true;
		}

		return false;
		}

		// This is a flat memory operation. Check to see if it has memory tokens for
		// either LDS or FLAT.
bool SIInsertWaitcnts::mayAccessLDSThroughFlat(const MachineInstr &MI) const {		bool SIInsertWaitcnts::mayAccessLDSThroughFlat(const MachineInstr &MI) const {
		assert(TII->isFLAT(MI));

		// Flat instruction such as SCRATCH and GLOBAL do not use the lgkm counter.
		if (!TII->usesLGKM_CNT(MI))
		return false;

		// If there are no memory operands then conservatively assume the flat
		// operation may access LDS.
if (MI.memoperands_empty())		if (MI.memoperands_empty())
return true;		return true;

		// See if any memory operand specifies an address space that involves LDS.
for (const MachineMemOperand *Memop : MI.memoperands()) {		for (const MachineMemOperand *Memop : MI.memoperands()) {
unsigned AS = Memop->getAddrSpace();		unsigned AS = Memop->getAddrSpace();
if (AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS)		if (AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS)
return true;		return true;
}		}

return false;		return false;
}		}
Show All 10 Lines	if (TII->isAlwaysGDS(Inst.getOpcode()) \|\|
ScoreBrackets->updateByEvent(TII, TRI, MRI, GDS_ACCESS, Inst);		ScoreBrackets->updateByEvent(TII, TRI, MRI, GDS_ACCESS, Inst);
ScoreBrackets->updateByEvent(TII, TRI, MRI, GDS_GPR_LOCK, Inst);		ScoreBrackets->updateByEvent(TII, TRI, MRI, GDS_GPR_LOCK, Inst);
} else {		} else {
ScoreBrackets->updateByEvent(TII, TRI, MRI, LDS_ACCESS, Inst);		ScoreBrackets->updateByEvent(TII, TRI, MRI, LDS_ACCESS, Inst);
}		}
} else if (TII->isFLAT(Inst)) {		} else if (TII->isFLAT(Inst)) {
assert(Inst.mayLoadOrStore());		assert(Inst.mayLoadOrStore());

if (TII->usesVM_CNT(Inst)) {		int FlatASCount = 0;

		if (mayAccessVMEMThroughFlat(Inst)) {
		arsenmUnsubmitted Done Reply Inline Actions When is usesVM_CNT false and isFLAT true? arsenm: When is usesVM_CNT false and isFLAT true?
		nhaehnleUnsubmitted Done Reply Inline Actions I'd like to know as well. It may be better to make this an `assert(TII->usesVM_CNT(Inst))` instead. nhaehnle: I'd like to know as well. It may be better to make this an `assert(TII->usesVM_CNT(Inst))`…
		rampitecUnsubmitted Done Reply Inline Actions Second to that, turn the check into assert. There are no such instructions at least so far. rampitec: Second to that, turn the check into assert. There are no such instructions at least so far.
		t-tyeAuthorUnsubmitted Done Reply Inline Actions This was in the original code but I agree it makes little sense. So moved it as an assert into mayAccessVMEMThroughFlat(). t-tye: This was in the original code but I agree it makes little sense. So moved it as an assert into…
		++FlatASCount;
if (!ST->hasVscnt())		if (!ST->hasVscnt())
ScoreBrackets->updateByEvent(TII, TRI, MRI, VMEM_ACCESS, Inst);		ScoreBrackets->updateByEvent(TII, TRI, MRI, VMEM_ACCESS, Inst);
else if (Inst.mayLoad() &&		else if (Inst.mayLoad() &&
AMDGPU::getAtomicRetOp(Inst.getOpcode()) == -1)		AMDGPU::getAtomicRetOp(Inst.getOpcode()) == -1)
ScoreBrackets->updateByEvent(TII, TRI, MRI, VMEM_READ_ACCESS, Inst);		ScoreBrackets->updateByEvent(TII, TRI, MRI, VMEM_READ_ACCESS, Inst);
else		else
ScoreBrackets->updateByEvent(TII, TRI, MRI, VMEM_WRITE_ACCESS, Inst);		ScoreBrackets->updateByEvent(TII, TRI, MRI, VMEM_WRITE_ACCESS, Inst);
}		}

if (TII->usesLGKM_CNT(Inst)) {		if (mayAccessLDSThroughFlat(Inst)) {
		++FlatASCount;
ScoreBrackets->updateByEvent(TII, TRI, MRI, LDS_ACCESS, Inst);		ScoreBrackets->updateByEvent(TII, TRI, MRI, LDS_ACCESS, Inst);
		}

// This is a flat memory operation, so note it - it will require		// A Flat memory operation must access at least one address space.
// that both the VM and LGKM be flushed to zero if it is pending when		assert(FlatASCount);
// a VM or LGKM dependency occurs.
if (mayAccessLDSThroughFlat(Inst))		// This is a flat memory operation that access both VMEM and LDS, so note it
		// - it will require that both the VM and LGKM be flushed to zero if it is
		// pending when a VM or LGKM dependency occurs.
		if (FlatASCount > 1)
ScoreBrackets->setPendingFlat();		ScoreBrackets->setPendingFlat();
}
} else if (SIInstrInfo::isVMEM(Inst) &&		} else if (SIInstrInfo::isVMEM(Inst) &&
// TODO: get a better carve out.		// TODO: get a better carve out.
Inst.getOpcode() != AMDGPU::BUFFER_WBINVL1 &&		Inst.getOpcode() != AMDGPU::BUFFER_WBINVL1 &&
Inst.getOpcode() != AMDGPU::BUFFER_WBINVL1_SC &&		Inst.getOpcode() != AMDGPU::BUFFER_WBINVL1_SC &&
Inst.getOpcode() != AMDGPU::BUFFER_WBINVL1_VOL &&		Inst.getOpcode() != AMDGPU::BUFFER_WBINVL1_VOL &&
Inst.getOpcode() != AMDGPU::BUFFER_GL0_INV &&		Inst.getOpcode() != AMDGPU::BUFFER_GL0_INV &&
Inst.getOpcode() != AMDGPU::BUFFER_GL1_INV) {		Inst.getOpcode() != AMDGPU::BUFFER_GL1_INV) {
if (!ST->hasVscnt())		if (!ST->hasVscnt())
▲ Show 20 Lines • Show All 399 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_uitofp_to_f32_multi_use_lshr8_mask255:			; VI-LABEL: v_uitofp_to_f32_multi_use_lshr8_mask255:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; VI-NEXT: flat_store_dword v[0:1], v0			; VI-NEXT: flat_store_dword v[0:1], v0
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	%lshr.8 = lshr i32 %arg0, 8			%lshr.8 = lshr i32 %arg0, 8
	store i32 %lshr.8, i32 addrspace(1)* undef			store i32 %lshr.8, i32 addrspace(1)* undef
	%masked = and i32 %lshr.8, 255			%masked = and i32 %lshr.8, 255
	%cvt = uitofp i32 %masked to float			%cvt = uitofp i32 %masked to float
	ret float %cvt			ret float %cvt
	}			}

	▲ Show 20 Lines • Show All 407 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_ashrrev_i32_e32 v3, 31, v0			; VI-NEXT: v_ashrrev_i32_e32 v3, 31, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v2, s1			; VI-NEXT: v_mov_b32_e32 v2, s1
	; VI-NEXT: v_mov_b32_e32 v1, s0			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, v2, v3, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, v2, v3, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid			%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid
	%load = load i8, i8 addrspace(1)* %gep, align 1			%load = load i8, i8 addrspace(1)* %gep, align 1
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: flat_load_ubyte v1, v[2:3]			; VI-NEXT: flat_load_ubyte v1, v[2:3]
	; VI-NEXT: flat_load_ubyte v2, v[4:5]			; VI-NEXT: flat_load_ubyte v2, v[4:5]
	; VI-NEXT: flat_load_ubyte v3, v[6:7]			; VI-NEXT: flat_load_ubyte v3, v[6:7]
	; VI-NEXT: v_mov_b32_e32 v5, s3			; VI-NEXT: v_mov_b32_e32 v5, s3
	; VI-NEXT: v_mov_b32_e32 v4, s2			; VI-NEXT: v_mov_b32_e32 v4, s2
	; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)			; VI-NEXT: s_waitcnt vmcnt(3)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v3, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v3, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1			%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1
	%cvt = uitofp <4 x i8> %load to <4 x float>			%cvt = uitofp <4 x i8> %load to <4 x float>
	store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16			store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v0, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, 2, v0
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	Show All 30 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v0, 0xff00, v0			; VI-NEXT: v_and_b32_e32 v0, 0xff00, v0
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v2, v0			; VI-NEXT: v_cvt_f32_ubyte1_e32 v2, v0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	Show All 30 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_ashrrev_i32_e32 v3, 31, v0			; VI-NEXT: v_ashrrev_i32_e32 v3, 31, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v2, s1			; VI-NEXT: v_mov_b32_e32 v2, s1
	; VI-NEXT: v_mov_b32_e32 v1, s0			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, v2, v3, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, v2, v3, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid			%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid
	%load = load i8, i8 addrspace(1)* %gep, align 1			%load = load i8, i8 addrspace(1)* %gep, align 1
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: flat_load_ubyte v1, v[2:3]			; VI-NEXT: flat_load_ubyte v1, v[2:3]
	; VI-NEXT: flat_load_ubyte v2, v[4:5]			; VI-NEXT: flat_load_ubyte v2, v[4:5]
	; VI-NEXT: flat_load_ubyte v3, v[6:7]			; VI-NEXT: flat_load_ubyte v3, v[6:7]
	; VI-NEXT: v_mov_b32_e32 v5, s3			; VI-NEXT: v_mov_b32_e32 v5, s3
	; VI-NEXT: v_mov_b32_e32 v4, s2			; VI-NEXT: v_mov_b32_e32 v4, s2
	; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)			; VI-NEXT: s_waitcnt vmcnt(3)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v3, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v3, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1			%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1
	%ext = zext <4 x i8> %load to <4 x i32>			%ext = zext <4 x i8> %load to <4 x i32>
	%cvt = uitofp <4 x i32> %ext to <4 x float>			%cvt = uitofp <4 x i32> %ext to <4 x float>
	Show All 26 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%val = load i32, i32 addrspace(1)* %gep			%val = load i32, i32 addrspace(1)* %gep
	Show All 29 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	Show All 32 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0xff			; VI-NEXT: v_mov_b32_e32 v1, 0xff
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_and_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	Show All 29 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v2, v0			; VI-NEXT: v_cvt_f32_ubyte3_e32 v2, v0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%val = load i32, i32 addrspace(1)* %gep			%val = load i32, i32 addrspace(1)* %gep
	Show All 30 Lines
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_e32 v0, 0x80000001, v0			; VI-NEXT: v_or_b32_e32 v0, 0x80000001, v0
	; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0			; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
	; VI-NEXT: v_add_f32_e32 v2, v0, v1			; VI-NEXT: v_add_f32_e32 v2, v0, v1
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	bb:			bb:
	▲ Show 20 Lines • Show All 195 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i128.ll

	Show First 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: flat_load_dwordx4 v[2:5], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[2:5], v[0:1]
	; GFX8-NEXT: flat_load_dwordx4 v[6:9], v[6:7]			; GFX8-NEXT: flat_load_dwordx4 v[6:9], v[6:7]
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, 48, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, 48, v0
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx4 v[10:13], v[10:11]			; GFX8-NEXT: flat_load_dwordx4 v[10:13], v[10:11]
	; GFX8-NEXT: flat_load_dwordx4 v[14:17], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[14:17], v[0:1]
	; GFX8-NEXT: s_lshl_b32 s0, s2, 1			; GFX8-NEXT: s_lshl_b32 s0, s2, 1
	; GFX8-NEXT: s_lshl_b32 m0, s0, 1			; GFX8-NEXT: s_lshl_b32 m0, s0, 1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_movrels_b32_e32 v1, v3			; GFX8-NEXT: v_movrels_b32_e32 v1, v3
	; GFX8-NEXT: v_movrels_b32_e32 v0, v2			; GFX8-NEXT: v_movrels_b32_e32 v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v3, v1			; GFX8-NEXT: v_mov_b32_e32 v3, v1
	; GFX8-NEXT: v_mov_b32_e32 v2, v0			; GFX8-NEXT: v_mov_b32_e32 v2, v0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s1, v1			; GFX8-NEXT: v_readfirstlane_b32 s1, v1
	; GFX8-NEXT: v_readfirstlane_b32 s2, v2			; GFX8-NEXT: v_readfirstlane_b32 s2, v2
	; GFX8-NEXT: v_readfirstlane_b32 s3, v3			; GFX8-NEXT: v_readfirstlane_b32 s3, v3
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: flat_load_dwordx4 v[8:11], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[8:11], v[0:1]
	; GFX8-NEXT: flat_load_dwordx4 v[4:7], v[3:4]			; GFX8-NEXT: flat_load_dwordx4 v[4:7], v[3:4]
	; GFX8-NEXT: v_lshlrev_b32_e32 v16, 1, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v16, 1, v2
	; GFX8-NEXT: v_add_u32_e32 v17, vcc, 1, v16			; GFX8-NEXT: v_add_u32_e32 v17, vcc, 1, v16
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 1, v16			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 1, v16
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], 6, v16			; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], 6, v16
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], 7, v16			; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], 7, v16
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v8, v10, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v8, v10, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v9, v11, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v9, v11, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v8, v8, v10, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v8, v8, v10, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v16			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v16
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v17			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v17
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v9, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v9, v5, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v16			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v16
	; GFX8-NEXT: v_cndmask_b32_e32 v18, v2, v6, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v18, v2, v6, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v19, v3, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v19, v3, v7, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v17			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v17
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, 32, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, 32, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, 48, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, 48, v0
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx4 v[8:11], v[2:3]			; GFX8-NEXT: flat_load_dwordx4 v[8:11], v[2:3]
	; GFX8-NEXT: flat_load_dwordx4 v[12:15], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[12:15], v[0:1]
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 4, v16			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 4, v16
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 7, v17			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 7, v17
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v18, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v18, v8, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v19, v9, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v19, v9, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 4, v17			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 4, v17
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v8, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v5, v9, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v5, v9, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 5, v16			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 5, v16
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v10, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v10, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v11, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v11, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 5, v17			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 5, v17
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v10, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v10, vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v11, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v11, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 6, v17			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 6, v17
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v12, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v12, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v12, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v12, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v13, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v13, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v13, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v13, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v14, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v14, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v15, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v15, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v14, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v14, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v15, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v15, s[4:5]
	▲ Show 20 Lines • Show All 341 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i128_idx0:			; GFX8-LABEL: extractelement_vgpr_v4i128_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i128_idx0:			; GFX7-LABEL: extractelement_vgpr_v4i128_idx0:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	Show All 18 Lines
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i128_idx1:			; GFX8-LABEL: extractelement_vgpr_v4i128_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, 16, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, 16, v0
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx4 v[4:7], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[4:7], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, v4			; GFX8-NEXT: v_mov_b32_e32 v0, v4
	; GFX8-NEXT: v_mov_b32_e32 v1, v5			; GFX8-NEXT: v_mov_b32_e32 v1, v5
	; GFX8-NEXT: v_mov_b32_e32 v2, v6			; GFX8-NEXT: v_mov_b32_e32 v2, v6
	; GFX8-NEXT: v_mov_b32_e32 v3, v7			; GFX8-NEXT: v_mov_b32_e32 v3, v7
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i128_idx1:			; GFX7-LABEL: extractelement_vgpr_v4i128_idx1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	Show All 26 Lines
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i128_idx2:			; GFX8-LABEL: extractelement_vgpr_v4i128_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, 32, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, 32, v0
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx4 v[8:11], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[8:11], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, v8			; GFX8-NEXT: v_mov_b32_e32 v0, v8
	; GFX8-NEXT: v_mov_b32_e32 v1, v9			; GFX8-NEXT: v_mov_b32_e32 v1, v9
	; GFX8-NEXT: v_mov_b32_e32 v2, v10			; GFX8-NEXT: v_mov_b32_e32 v2, v10
	; GFX8-NEXT: v_mov_b32_e32 v3, v11			; GFX8-NEXT: v_mov_b32_e32 v3, v11
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i128_idx2:			; GFX7-LABEL: extractelement_vgpr_v4i128_idx2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	Show All 26 Lines
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i128_idx3:			; GFX8-LABEL: extractelement_vgpr_v4i128_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, 48, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, 48, v0
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx4 v[12:15], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[12:15], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, v12			; GFX8-NEXT: v_mov_b32_e32 v0, v12
	; GFX8-NEXT: v_mov_b32_e32 v1, v13			; GFX8-NEXT: v_mov_b32_e32 v1, v13
	; GFX8-NEXT: v_mov_b32_e32 v2, v14			; GFX8-NEXT: v_mov_b32_e32 v2, v14
	; GFX8-NEXT: v_mov_b32_e32 v3, v15			; GFX8-NEXT: v_mov_b32_e32 v3, v15
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i128_idx3:			; GFX7-LABEL: extractelement_vgpr_v4i128_idx3:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	Show All 15 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i16.ll

	Show All 35 Lines
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i16_sgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v4i16_sgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_lshr_b32 s0, s2, 1			; GFX8-NEXT: s_lshr_b32 s0, s2, 1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX8-NEXT: s_and_b32 s1, s2, 1			; GFX8-NEXT: s_and_b32 s1, s2, 1
	; GFX8-NEXT: s_lshl_b32 s0, s1, 4			; GFX8-NEXT: s_lshl_b32 s0, s1, 4
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i16_sgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v4i16_sgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_lshr_b32 s0, s2, 1			; GFX7-NEXT: s_lshr_b32 s0, s2, 1
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX7-NEXT: s_and_b32 s1, s2, 1			; GFX7-NEXT: s_and_b32 s1, s2, 1
	; GFX7-NEXT: s_lshl_b32 s0, s1, 4			; GFX7-NEXT: s_lshl_b32 s0, s1, 4
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_readfirstlane_b32 s0, v0			; GFX7-NEXT: v_readfirstlane_b32 s0, v0
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr			%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr
	%element = extractelement <4 x i16> %vector, i32 %idx			%element = extractelement <4 x i16> %vector, i32 %idx
	ret i16 %element			ret i16 %element
	}			}
	Show All 14 Lines
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i16_vgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v4i16_vgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 1, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 1, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX8-NEXT: v_and_b32_e32 v2, 1, v2			; GFX8-NEXT: v_and_b32_e32 v2, 1, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i16_vgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v4i16_vgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 1, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 1, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v2, 1, v2			; GFX7-NEXT: v_and_b32_e32 v2, 1, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr			%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr
	%element = extractelement <4 x i16> %vector, i32 %idx			%element = extractelement <4 x i16> %vector, i32 %idx
	ret i16 %element			ret i16 %element
	}			}
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i16_idx0:			; GFX8-LABEL: extractelement_vgpr_v4i16_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i16_idx0:			; GFX7-LABEL: extractelement_vgpr_v4i16_idx0:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr			%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr
	%element = extractelement <4 x i16> %vector, i32 0			%element = extractelement <4 x i16> %vector, i32 0
	ret i16 %element			ret i16 %element
	}			}

	define i16 @extractelement_vgpr_v4i16_idx1(<4 x i16> addrspace(1)* %ptr) {			define i16 @extractelement_vgpr_v4i16_idx1(<4 x i16> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v4i16_idx1:			; GFX9-LABEL: extractelement_vgpr_v4i16_idx1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i16_idx1:			; GFX8-LABEL: extractelement_vgpr_v4i16_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i16_idx1:			; GFX7-LABEL: extractelement_vgpr_v4i16_idx1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr			%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr
	%element = extractelement <4 x i16> %vector, i32 1			%element = extractelement <4 x i16> %vector, i32 1
	ret i16 %element			ret i16 %element
	}			}

	define i16 @extractelement_vgpr_v4i16_idx2(<4 x i16> addrspace(1)* %ptr) {			define i16 @extractelement_vgpr_v4i16_idx2(<4 x i16> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v4i16_idx2:			; GFX9-LABEL: extractelement_vgpr_v4i16_idx2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i16_idx2:			; GFX8-LABEL: extractelement_vgpr_v4i16_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i16_idx2:			; GFX7-LABEL: extractelement_vgpr_v4i16_idx2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, v1			; GFX7-NEXT: v_mov_b32_e32 v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr			%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr
	%element = extractelement <4 x i16> %vector, i32 2			%element = extractelement <4 x i16> %vector, i32 2
	ret i16 %element			ret i16 %element
	}			}

	define i16 @extractelement_vgpr_v4i16_idx3(<4 x i16> addrspace(1)* %ptr) {			define i16 @extractelement_vgpr_v4i16_idx3(<4 x i16> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v4i16_idx3:			; GFX9-LABEL: extractelement_vgpr_v4i16_idx3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i16_idx3:			; GFX8-LABEL: extractelement_vgpr_v4i16_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i16_idx3:			; GFX7-LABEL: extractelement_vgpr_v4i16_idx3:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr			%vector = load <4 x i16>, <4 x i16> addrspace(1)* %ptr
	%element = extractelement <4 x i16> %vector, i32 3			%element = extractelement <4 x i16> %vector, i32 3
	ret i16 %element			ret i16 %element
	}			}

	define amdgpu_ps i16 @extractelement_sgpr_v8i16_sgpr_idx(<8 x i16> addrspace(4)* inreg %ptr, i32 inreg %idx) {			define amdgpu_ps i16 @extractelement_sgpr_v8i16_sgpr_idx(<8 x i16> addrspace(4)* inreg %ptr, i32 inreg %idx) {
	Show All 36 Lines
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_sgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v8i16_sgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_lshr_b32 s0, s2, 1			; GFX8-NEXT: s_lshr_b32 s0, s2, 1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX8-NEXT: s_and_b32 s1, s2, 1			; GFX8-NEXT: s_and_b32 s1, s2, 1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 2
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 3
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX8-NEXT: s_lshl_b32 s0, s1, 4			; GFX8-NEXT: s_lshl_b32 s0, s1, 4
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; GFX8-LABEL: extractelement_vgpr_v8i16_vgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v8i16_vgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 1, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 1, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GFX8-NEXT: v_and_b32_e32 v1, 1, v2			; GFX8-NEXT: v_and_b32_e32 v1, 1, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v3, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v3, v4, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v6, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v6, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx0:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx0:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx0:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	Show All 13 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx1:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx1:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx2:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx2:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx3:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx3:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx3:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, v2			; GFX9-NEXT: v_mov_b32_e32 v0, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx4:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, v2			; GFX8-NEXT: v_mov_b32_e32 v0, v2
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx4:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx4:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx5:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx5:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v2
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx5:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx5:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, v3			; GFX9-NEXT: v_mov_b32_e32 v0, v3
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx6:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx6:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, v3			; GFX8-NEXT: v_mov_b32_e32 v0, v3
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx6:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx6:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v3
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i16_idx7:			; GFX8-LABEL: extractelement_vgpr_v8i16_idx7:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v3
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i16_idx7:			; GFX7-LABEL: extractelement_vgpr_v8i16_idx7:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	Show All 9 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i8.ll

	Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; GFX8-LABEL: extractelement_vgpr_v4i8_sgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v4i8_sgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s0
	; GFX8-NEXT: s_and_b32 s0, s2, 3			; GFX8-NEXT: s_and_b32 s0, s2, 3
	; GFX8-NEXT: s_lshl_b32 s0, s0, 3			; GFX8-NEXT: s_lshl_b32 s0, s0, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX8-LABEL: extractelement_vgpr_v4i8_vgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v4i8_vgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v3, s4			; GFX8-NEXT: v_mov_b32_e32 v3, s4
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v3, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v3, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	▲ Show 20 Lines • Show All 223 Lines • ▼ Show 20 Lines
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx0:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx1:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx2:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx3:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, s0			; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: s_lshr_b32 s0, s2, 2			; GFX8-NEXT: s_lshr_b32 s0, s2, 2
	; GFX8-NEXT: s_and_b32 s1, s2, 3			; GFX8-NEXT: s_and_b32 s1, s2, 3
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX8-NEXT: s_lshl_b32 s0, s1, 3			; GFX8-NEXT: s_lshl_b32 s0, s1, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v9, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v9, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v5, s4			; GFX8-NEXT: v_mov_b32_e32 v5, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 2, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 2, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v11, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v11, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1
	▲ Show 20 Lines • Show All 315 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx0:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx1:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx2:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx3:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx4:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx5:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx5:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx6:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx6:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx7:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx7:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v5, 8			; GFX8-NEXT: v_mov_b32_e32 v5, 8
	; GFX8-NEXT: v_mov_b32_e32 v6, 8			; GFX8-NEXT: v_mov_b32_e32 v6, 8
	; GFX8-NEXT: v_mov_b32_e32 v7, s0			; GFX8-NEXT: v_mov_b32_e32 v7, s0
	; GFX8-NEXT: v_mov_b32_e32 v4, 0xff			; GFX8-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX8-NEXT: s_lshr_b32 s0, s2, 2			; GFX8-NEXT: s_lshr_b32 s0, s2, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX8-NEXT: s_and_b32 s1, s2, 3			; GFX8-NEXT: s_and_b32 s1, s2, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v6, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v6, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v2
	▲ Show 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v7, 8			; GFX8-NEXT: v_mov_b32_e32 v7, 8
	; GFX8-NEXT: v_mov_b32_e32 v8, s4			; GFX8-NEXT: v_mov_b32_e32 v8, s4
	; GFX8-NEXT: v_mov_b32_e32 v0, 0xff			; GFX8-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 2, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 2, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v9			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v9
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v7, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v7, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v5
	▲ Show 20 Lines • Show All 196 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx0:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx1:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx2:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx3:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx4:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx5:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx5:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx6:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx6:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx7:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx7:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx8:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx9:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx9:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx10:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx10:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx11:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx11:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx12:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx12:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx13:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx13:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx14:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx14:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx15:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx15:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	Show All 32 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.ll

	Show First 20 Lines • Show All 2,505 Lines • ▼ Show 20 Lines
	; GPRIDX-NEXT: s_setpc_b64 s[30:31]			; GPRIDX-NEXT: s_setpc_b64 s[30:31]
	;			;
	; MOVREL-LABEL: v_extract_v64i32_7:			; MOVREL-LABEL: v_extract_v64i32_7:
	; MOVREL: ; %bb.0:			; MOVREL: ; %bb.0:
	; MOVREL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; MOVREL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; MOVREL-NEXT: v_add_u32_e32 v0, vcc, 16, v0			; MOVREL-NEXT: v_add_u32_e32 v0, vcc, 16, v0
	; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; MOVREL-NEXT: flat_load_dwordx4 v[4:7], v[0:1]			; MOVREL-NEXT: flat_load_dwordx4 v[4:7], v[0:1]
	; MOVREL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; MOVREL-NEXT: s_waitcnt vmcnt(0)
	; MOVREL-NEXT: v_mov_b32_e32 v0, v7			; MOVREL-NEXT: v_mov_b32_e32 v0, v7
	; MOVREL-NEXT: s_setpc_b64 s[30:31]			; MOVREL-NEXT: s_setpc_b64 s[30:31]
	%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr			%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr
	%elt = extractelement <64 x i32> %vec, i32 7			%elt = extractelement <64 x i32> %vec, i32 7
	ret i32 %elt			ret i32 %elt
	}			}

	define i32 @v_extract_v64i32_32(<64 x i32> addrspace(1)* %ptr) {			define i32 @v_extract_v64i32_32(<64 x i32> addrspace(1)* %ptr) {
	Show All 15 Lines
	; MOVREL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; MOVREL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; MOVREL-NEXT: s_movk_i32 s4, 0x80			; MOVREL-NEXT: s_movk_i32 s4, 0x80
	; MOVREL-NEXT: s_mov_b32 s5, 0			; MOVREL-NEXT: s_mov_b32 s5, 0
	; MOVREL-NEXT: v_mov_b32_e32 v2, s4			; MOVREL-NEXT: v_mov_b32_e32 v2, s4
	; MOVREL-NEXT: v_mov_b32_e32 v3, s5			; MOVREL-NEXT: v_mov_b32_e32 v3, s5
	; MOVREL-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; MOVREL-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; MOVREL-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; MOVREL-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; MOVREL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; MOVREL-NEXT: s_waitcnt vmcnt(0)
	; MOVREL-NEXT: s_setpc_b64 s[30:31]			; MOVREL-NEXT: s_setpc_b64 s[30:31]
	%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr			%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr
	%elt = extractelement <64 x i32> %vec, i32 32			%elt = extractelement <64 x i32> %vec, i32 32
	ret i32 %elt			ret i32 %elt
	}			}

	define i32 @v_extract_v64i32_33(<64 x i32> addrspace(1)* %ptr) {			define i32 @v_extract_v64i32_33(<64 x i32> addrspace(1)* %ptr) {
	; GPRIDX-LABEL: v_extract_v64i32_33:			; GPRIDX-LABEL: v_extract_v64i32_33:
	Show All 15 Lines
	; MOVREL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; MOVREL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; MOVREL-NEXT: s_movk_i32 s4, 0x80			; MOVREL-NEXT: s_movk_i32 s4, 0x80
	; MOVREL-NEXT: s_mov_b32 s5, 0			; MOVREL-NEXT: s_mov_b32 s5, 0
	; MOVREL-NEXT: v_mov_b32_e32 v2, s4			; MOVREL-NEXT: v_mov_b32_e32 v2, s4
	; MOVREL-NEXT: v_mov_b32_e32 v3, s5			; MOVREL-NEXT: v_mov_b32_e32 v3, s5
	; MOVREL-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; MOVREL-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; MOVREL-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; MOVREL-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; MOVREL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; MOVREL-NEXT: s_waitcnt vmcnt(0)
	; MOVREL-NEXT: v_mov_b32_e32 v0, v1			; MOVREL-NEXT: v_mov_b32_e32 v0, v1
	; MOVREL-NEXT: s_setpc_b64 s[30:31]			; MOVREL-NEXT: s_setpc_b64 s[30:31]
	%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr			%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr
	%elt = extractelement <64 x i32> %vec, i32 33			%elt = extractelement <64 x i32> %vec, i32 33
	ret i32 %elt			ret i32 %elt
	}			}

	define i32 @v_extract_v64i32_37(<64 x i32> addrspace(1)* %ptr) {			define i32 @v_extract_v64i32_37(<64 x i32> addrspace(1)* %ptr) {
	Show All 18 Lines
	; MOVREL-NEXT: s_mov_b32 s5, 0			; MOVREL-NEXT: s_mov_b32 s5, 0
	; MOVREL-NEXT: v_mov_b32_e32 v2, s4			; MOVREL-NEXT: v_mov_b32_e32 v2, s4
	; MOVREL-NEXT: v_mov_b32_e32 v3, s5			; MOVREL-NEXT: v_mov_b32_e32 v3, s5
	; MOVREL-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; MOVREL-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; MOVREL-NEXT: v_add_u32_e32 v0, vcc, 16, v0			; MOVREL-NEXT: v_add_u32_e32 v0, vcc, 16, v0
	; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; MOVREL-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; MOVREL-NEXT: flat_load_dwordx4 v[4:7], v[0:1]			; MOVREL-NEXT: flat_load_dwordx4 v[4:7], v[0:1]
	; MOVREL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; MOVREL-NEXT: s_waitcnt vmcnt(0)
	; MOVREL-NEXT: v_mov_b32_e32 v0, v5			; MOVREL-NEXT: v_mov_b32_e32 v0, v5
	; MOVREL-NEXT: s_setpc_b64 s[30:31]			; MOVREL-NEXT: s_setpc_b64 s[30:31]
	%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr			%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr
	%elt = extractelement <64 x i32> %vec, i32 37			%elt = extractelement <64 x i32> %vec, i32 37
	ret i32 %elt			ret i32 %elt
	}			}

llvm/test/CodeGen/AMDGPU/GlobalISel/fmed3.ll

	Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: flat_load_dword v2, v[4:5]			; VI-NEXT: flat_load_dword v2, v[4:5]
	; VI-NEXT: v_mov_b32_e32 v7, s1			; VI-NEXT: v_mov_b32_e32 v7, s1
	; VI-NEXT: v_mov_b32_e32 v6, s0			; VI-NEXT: v_mov_b32_e32 v6, s0
	; VI-NEXT: v_add_u32_e32 v6, vcc, v6, v8			; VI-NEXT: v_add_u32_e32 v6, vcc, v6, v8
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v7, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v7, vcc
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_sub_f32_e32 v0, 0x80000000, v0			; VI-NEXT: v_sub_f32_e32 v0, 0x80000000, v0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_med3_f32 v0, v0, v1, v2			; VI-NEXT: v_med3_f32 v0, v0, v1, v2
	; VI-NEXT: flat_store_dword v[6:7], v0			; VI-NEXT: flat_store_dword v[6:7], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod0:			; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: flat_load_dword v7, v[0:1]			; VI-NEXT: flat_load_dword v7, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: flat_load_dword v3, v[4:5]			; VI-NEXT: flat_load_dword v3, v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_sub_f32_e32 v4, 0x80000000, v7			; VI-NEXT: v_sub_f32_e32 v4, 0x80000000, v7
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_mul_f32_e32 v4, 1.0, v4			; VI-NEXT: v_mul_f32_e32 v4, 1.0, v4
	; VI-NEXT: v_min_f32_e32 v5, v4, v2			; VI-NEXT: v_min_f32_e32 v5, v4, v2
	; VI-NEXT: v_max_f32_e32 v2, v4, v2			; VI-NEXT: v_max_f32_e32 v2, v4, v2
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3			; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_min_f32_e32 v2, v2, v3			; VI-NEXT: v_min_f32_e32 v2, v2, v3
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5			; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_max_f32_e32 v2, v3, v2			; VI-NEXT: v_max_f32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; VI-NEXT: flat_load_dword v7, v[0:1]			; VI-NEXT: flat_load_dword v7, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: flat_load_dword v3, v[4:5]			; VI-NEXT: flat_load_dword v3, v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: s_mov_b32 s2, 0x80000000			; VI-NEXT: s_mov_b32 s2, 0x80000000
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_sub_f32_e32 v4, s2, v7			; VI-NEXT: v_sub_f32_e32 v4, s2, v7
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_f32_e64 v3, s2, \|v3\|			; VI-NEXT: v_sub_f32_e64 v3, s2, \|v3\|
	; VI-NEXT: v_med3_f32 v2, v4, \|v2\|, v3			; VI-NEXT: v_med3_f32 v2, v4, \|v2\|, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:			; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; VI-NEXT: flat_load_dword v7, v[0:1]			; VI-NEXT: flat_load_dword v7, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: flat_load_dword v3, v[4:5]			; VI-NEXT: flat_load_dword v3, v[4:5]
	; VI-NEXT: s_mov_b32 s2, 0x80000000			; VI-NEXT: s_mov_b32 s2, 0x80000000
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_sub_f32_e64 v4, s2, \|v7\|			; VI-NEXT: v_sub_f32_e64 v4, s2, \|v7\|
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_sub_f32_e64 v2, s2, \|v2\|			; VI-NEXT: v_sub_f32_e64 v2, s2, \|v2\|
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_f32_e64 v3, s2, \|v3\|			; VI-NEXT: v_sub_f32_e64 v3, s2, \|v3\|
	; VI-NEXT: v_med3_f32 v2, v4, v2, v3			; VI-NEXT: v_med3_f32 v2, v4, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_negabs012:			; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_negabs012:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: flat_load_dword v7, v[0:1]			; VI-NEXT: flat_load_dword v7, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: flat_load_dword v3, v[4:5]			; VI-NEXT: flat_load_dword v3, v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_add_f32_e32 v4, 1.0, v7			; VI-NEXT: v_add_f32_e32 v4, 1.0, v7
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_add_f32_e32 v2, 2.0, v2			; VI-NEXT: v_add_f32_e32 v2, 2.0, v2
	; VI-NEXT: v_min_f32_e32 v5, v4, v2			; VI-NEXT: v_min_f32_e32 v5, v4, v2
	; VI-NEXT: v_max_f32_e32 v2, v4, v2			; VI-NEXT: v_max_f32_e32 v2, v4, v2
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_f32_e32 v3, 4.0, v3			; VI-NEXT: v_add_f32_e32 v3, 4.0, v3
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_min_f32_e32 v2, v2, v3			; VI-NEXT: v_min_f32_e32 v2, v2, v3
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5			; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_max_f32_e32 v2, v3, v2			; VI-NEXT: v_max_f32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: flat_load_dword v7, v[0:1]			; VI-NEXT: flat_load_dword v7, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: flat_load_dword v3, v[4:5]			; VI-NEXT: flat_load_dword v3, v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_mul_f32_e32 v4, 1.0, v7			; VI-NEXT: v_mul_f32_e32 v4, 1.0, v7
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_min_f32_e32 v5, v4, v2			; VI-NEXT: v_min_f32_e32 v5, v4, v2
	; VI-NEXT: v_max_f32_e32 v2, v4, v2			; VI-NEXT: v_max_f32_e32 v2, v4, v2
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3			; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_min_f32_e32 v2, v2, v3			; VI-NEXT: v_min_f32_e32 v2, v2, v3
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5			; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_max_f32_e32 v2, v3, v2			; VI-NEXT: v_max_f32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v5			; VI-NEXT: flat_store_dword v[0:1], v5
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/frem.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v0, s6			; VI-NEXT: v_mov_b32_e32 v0, s6
	; VI-NEXT: s_add_u32 s0, s8, 8			; VI-NEXT: s_add_u32 s0, s8, 8
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: s_addc_u32 s1, s9, 0			; VI-NEXT: s_addc_u32 s1, s9, 0
	; VI-NEXT: flat_load_ushort v2, v[0:1]			; VI-NEXT: flat_load_ushort v2, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_cvt_f32_f16_e32 v1, v2			; VI-NEXT: v_cvt_f32_f16_e32 v1, v2
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_f16_e32 v3, v0			; VI-NEXT: v_cvt_f32_f16_e32 v3, v0
	; VI-NEXT: v_rcp_f32_e32 v3, v3			; VI-NEXT: v_rcp_f32_e32 v3, v3
	; VI-NEXT: v_mul_f32_e32 v1, v1, v3			; VI-NEXT: v_mul_f32_e32 v1, v1, v3
	; VI-NEXT: v_cvt_f16_f32_e32 v1, v1			; VI-NEXT: v_cvt_f16_f32_e32 v1, v1
	; VI-NEXT: v_div_fixup_f16 v1, v1, v0, v2			; VI-NEXT: v_div_fixup_f16 v1, v1, v0, v2
	; VI-NEXT: v_trunc_f16_e32 v1, v1			; VI-NEXT: v_trunc_f16_e32 v1, v1
	; VI-NEXT: v_fma_f16 v2, -v1, v0, v2			; VI-NEXT: v_fma_f16 v2, -v1, v0, v2
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v0, s6			; VI-NEXT: v_mov_b32_e32 v0, s6
	; VI-NEXT: s_add_u32 s0, s8, 8			; VI-NEXT: s_add_u32 s0, s8, 8
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: s_addc_u32 s1, s9, 0			; VI-NEXT: s_addc_u32 s1, s9, 0
	; VI-NEXT: flat_load_ushort v2, v[0:1]			; VI-NEXT: flat_load_ushort v2, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_rcp_f16_e32 v1, v0			; VI-NEXT: v_rcp_f16_e32 v1, v0
	; VI-NEXT: v_mul_f16_e32 v1, v2, v1			; VI-NEXT: v_mul_f16_e32 v1, v2, v1
	; VI-NEXT: v_trunc_f16_e32 v1, v1			; VI-NEXT: v_trunc_f16_e32 v1, v1
	; VI-NEXT: v_fma_f16 v2, -v1, v0, v2			; VI-NEXT: v_fma_f16 v2, -v1, v0, v2
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	Show All 38 Lines
	; VI-NEXT: v_mov_b32_e32 v0, s6			; VI-NEXT: v_mov_b32_e32 v0, s6
	; VI-NEXT: s_add_u32 s0, s8, 8			; VI-NEXT: s_add_u32 s0, s8, 8
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: s_addc_u32 s1, s9, 0			; VI-NEXT: s_addc_u32 s1, s9, 0
	; VI-NEXT: flat_load_ushort v2, v[0:1]			; VI-NEXT: flat_load_ushort v2, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_rcp_f16_e32 v1, v0			; VI-NEXT: v_rcp_f16_e32 v1, v0
	; VI-NEXT: v_mul_f16_e32 v1, v2, v1			; VI-NEXT: v_mul_f16_e32 v1, v2, v1
	; VI-NEXT: v_trunc_f16_e32 v1, v1			; VI-NEXT: v_trunc_f16_e32 v1, v1
	; VI-NEXT: v_fma_f16 v2, -v1, v0, v2			; VI-NEXT: v_fma_f16 v2, -v1, v0, v2
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 954 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i16.ll

	Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_and_b32 s1, s3, 1			; GFX8-NEXT: s_and_b32 s1, s3, 1
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: s_lshl_b32 s1, s1, 4			; GFX8-NEXT: s_lshl_b32 s1, s1, 4
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_lshl_b32 s2, s2, s1			; GFX8-NEXT: s_lshl_b32 s2, s2, s1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v0, s0, v0			; GFX8-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_or_b32_e32 v2, s2, v0			; GFX8-NEXT: v_or_b32_e32 v2, s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v2i16_s_s:			; GFX7-LABEL: insertelement_v_v2i16_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dword v0, v[0:1]			; GFX7-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-NEXT: s_and_b32 s1, s3, 1			; GFX7-NEXT: s_and_b32 s1, s3, 1
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: s_lshl_b32 s1, s1, 4			; GFX7-NEXT: s_lshl_b32 s1, s1, 4
	; GFX7-NEXT: s_and_b32 s2, s2, s0			; GFX7-NEXT: s_and_b32 s2, s2, s0
	; GFX7-NEXT: s_lshl_b32 s0, s0, s1			; GFX7-NEXT: s_lshl_b32 s0, s0, s1
	; GFX7-NEXT: s_not_b32 s0, s0			; GFX7-NEXT: s_not_b32 s0, s0
	; GFX7-NEXT: s_lshl_b32 s2, s2, s1			; GFX7-NEXT: s_lshl_b32 s2, s2, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_or_b32_e32 v2, s2, v0			; GFX7-NEXT: v_or_b32_e32 v2, s2, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, 0			; GFX7-NEXT: v_mov_b32_e32 v0, 0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	%vec = load <2 x i16>, <2 x i16> addrspace(1 )* %ptr			%vec = load <2 x i16>, <2 x i16> addrspace(1 )* %ptr
	%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx			%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx
	▲ Show 20 Lines • Show All 197 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: v_and_b32_e32 v1, 1, v2			; GFX8-NEXT: v_and_b32_e32 v1, 1, v2
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: s_and_b32 s1, s2, s0			; GFX8-NEXT: s_and_b32 s1, s2, s0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v1, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v1, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v0, v0, v1			; GFX8-NEXT: v_and_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v2			; GFX8-NEXT: v_or_b32_e32 v2, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v2i16_s_v:			; GFX7-LABEL: insertelement_v_v2i16_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dword v0, v[0:1]			; GFX7-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v2			; GFX7-NEXT: v_and_b32_e32 v1, 1, v2
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: s_and_b32 s1, s2, s0			; GFX7-NEXT: s_and_b32 s1, s2, s0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_lshl_b32_e32 v2, s1, v1			; GFX7-NEXT: v_lshl_b32_e32 v2, s1, v1
	; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v1			; GFX7-NEXT: v_and_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_or_b32_e32 v2, v0, v2			; GFX7-NEXT: v_or_b32_e32 v2, v0, v2
	; GFX7-NEXT: v_mov_b32_e32 v0, 0			; GFX7-NEXT: v_mov_b32_e32 v0, 0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	%vec = load <2 x i16>, <2 x i16> addrspace(1)* %ptr			%vec = load <2 x i16>, <2 x i16> addrspace(1)* %ptr
	%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx			%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx
	Show All 23 Lines
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_and_b32 s1, s2, 1			; GFX8-NEXT: s_and_b32 s1, s2, 1
	; GFX8-NEXT: s_lshl_b32 s1, s1, 4			; GFX8-NEXT: s_lshl_b32 s1, s1, 4
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v0, s0, v0			; GFX8-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v1			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v2i16_v_s:			; GFX7-LABEL: insertelement_v_v2i16_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dword v0, v[0:1]			; GFX7-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-NEXT: s_and_b32 s1, s2, 1			; GFX7-NEXT: s_and_b32 s1, s2, 1
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: s_lshl_b32 s1, s1, 4			; GFX7-NEXT: s_lshl_b32 s1, s1, 4
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v2			; GFX7-NEXT: v_and_b32_e32 v1, s0, v2
	; GFX7-NEXT: s_lshl_b32 s0, s0, s1			; GFX7-NEXT: s_lshl_b32 s0, s0, s1
	; GFX7-NEXT: s_not_b32 s0, s0			; GFX7-NEXT: s_not_b32 s0, s0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, s1, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, s1, v1
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_or_b32_e32 v2, v0, v1			; GFX7-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX7-NEXT: v_mov_b32_e32 v0, 0			; GFX7-NEXT: v_mov_b32_e32 v0, 0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	%vec = load <2 x i16>, <2 x i16> addrspace(1)* %ptr			%vec = load <2 x i16>, <2 x i16> addrspace(1)* %ptr
	%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx			%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx
	Show All 22 Lines
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: v_and_b32_e32 v1, 1, v3			; GFX8-NEXT: v_and_b32_e32 v1, 1, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v0, v0, v1			; GFX8-NEXT: v_and_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v2			; GFX8-NEXT: v_or_b32_e32 v2, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v2i16_v_v:			; GFX7-LABEL: insertelement_v_v2i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dword v0, v[0:1]			; GFX7-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v3			; GFX7-NEXT: v_and_b32_e32 v1, 1, v3
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2
	; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v1			; GFX7-NEXT: v_and_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_or_b32_e32 v2, v0, v2			; GFX7-NEXT: v_or_b32_e32 v2, v0, v2
	; GFX7-NEXT: v_mov_b32_e32 v0, 0			; GFX7-NEXT: v_mov_b32_e32 v0, 0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	%vec = load <2 x i16>, <2 x i16> addrspace(1)* %ptr			%vec = load <2 x i16>, <2 x i16> addrspace(1)* %ptr
	%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx			%insert = insertelement <2 x i16> %vec, i16 %val, i32 %idx
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_and_b32 s3, s3, 1			; GFX8-NEXT: s_and_b32 s3, s3, 1
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: s_lshl_b32 s3, s3, 4			; GFX8-NEXT: s_lshl_b32 s3, s3, 4
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s3			; GFX8-NEXT: s_lshl_b32 s0, s0, s3
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_lshl_b32 s2, s2, s3			; GFX8-NEXT: s_lshl_b32 s2, s2, s3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v2, s0, v2			; GFX8-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX8-NEXT: v_or_b32_e32 v2, s2, v2			; GFX8-NEXT: v_or_b32_e32 v2, s2, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i16_s_s:			; GFX7-LABEL: insertelement_v_v4i16_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_lshr_b32 s1, s3, 1			; GFX7-NEXT: s_lshr_b32 s1, s3, 1
	; GFX7-NEXT: s_and_b32 s3, s3, 1			; GFX7-NEXT: s_and_b32 s3, s3, 1
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: s_lshl_b32 s3, s3, 4			; GFX7-NEXT: s_lshl_b32 s3, s3, 4
	; GFX7-NEXT: s_and_b32 s2, s2, s0			; GFX7-NEXT: s_and_b32 s2, s2, s0
	; GFX7-NEXT: s_lshl_b32 s0, s0, s3			; GFX7-NEXT: s_lshl_b32 s0, s0, s3
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX7-NEXT: s_not_b32 s0, s0			; GFX7-NEXT: s_not_b32 s0, s0
	; GFX7-NEXT: s_lshl_b32 s2, s2, s3			; GFX7-NEXT: s_lshl_b32 s2, s2, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX7-NEXT: v_or_b32_e32 v2, s2, v2			; GFX7-NEXT: v_or_b32_e32 v2, s2, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_mov_b32_e32 v2, 0			; GFX7-NEXT: v_mov_b32_e32 v2, 0
	; GFX7-NEXT: v_mov_b32_e32 v3, 0			; GFX7-NEXT: v_mov_b32_e32 v3, 0
	▲ Show 20 Lines • Show All 297 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: s_and_b32 s1, s2, s0			; GFX8-NEXT: s_and_b32 s1, s2, s0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 4, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 4, v2
	; GFX8-NEXT: v_lshlrev_b32_e64 v4, v2, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v4, v2, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v2, v5, v2			; GFX8-NEXT: v_and_b32_e32 v2, v5, v2
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v4			; GFX8-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i16_s_v:			; GFX7-LABEL: insertelement_v_v4i16_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 1, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 1, v2
	; GFX7-NEXT: v_and_b32_e32 v2, 1, v2			; GFX7-NEXT: v_and_b32_e32 v2, 1, v2
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: s_and_b32 s1, s2, s0			; GFX7-NEXT: s_and_b32 s1, s2, s0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 4, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 4, v2
	; GFX7-NEXT: v_lshl_b32_e32 v4, s1, v2			; GFX7-NEXT: v_lshl_b32_e32 v4, s1, v2
	; GFX7-NEXT: v_lshl_b32_e32 v2, s0, v2			; GFX7-NEXT: v_lshl_b32_e32 v2, s0, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v2, v5, v2			; GFX7-NEXT: v_and_b32_e32 v2, v5, v2
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_mov_b32_e32 v2, 0			; GFX7-NEXT: v_mov_b32_e32 v2, 0
	; GFX7-NEXT: v_mov_b32_e32 v3, 0			; GFX7-NEXT: v_mov_b32_e32 v3, 0
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	Show All 34 Lines
	; GFX8-NEXT: s_and_b32 s2, s2, 1			; GFX8-NEXT: s_and_b32 s2, s2, 1
	; GFX8-NEXT: s_lshl_b32 s2, s2, 4			; GFX8-NEXT: s_lshl_b32 s2, s2, 4
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: s_lshl_b32 s0, s0, s2			; GFX8-NEXT: s_lshl_b32 s0, s0, s2
	; GFX8-NEXT: v_mov_b32_e32 v3, s2			; GFX8-NEXT: v_mov_b32_e32 v3, s2
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v3, s0, v3			; GFX8-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2			; GFX8-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i16_v_s:			; GFX7-LABEL: insertelement_v_v4i16_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_lshr_b32 s1, s2, 1			; GFX7-NEXT: s_lshr_b32 s1, s2, 1
	; GFX7-NEXT: s_and_b32 s2, s2, 1			; GFX7-NEXT: s_and_b32 s2, s2, 1
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: s_lshl_b32 s2, s2, 4			; GFX7-NEXT: s_lshl_b32 s2, s2, 4
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX7-NEXT: s_lshl_b32 s0, s0, s2			; GFX7-NEXT: s_lshl_b32 s0, s0, s2
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX7-NEXT: s_not_b32 s0, s0			; GFX7-NEXT: s_not_b32 s0, s0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, s2, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, s2, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v3, s0, v3			; GFX7-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v2			; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_mov_b32_e32 v2, 0			; GFX7-NEXT: v_mov_b32_e32 v2, 0
	; GFX7-NEXT: v_mov_b32_e32 v3, 0			; GFX7-NEXT: v_mov_b32_e32 v3, 0
	Show All 35 Lines
	; GFX8-NEXT: v_and_b32_e32 v3, 1, v3			; GFX8-NEXT: v_and_b32_e32 v3, 1, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 4, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 4, v3
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_lshlrev_b32_e64 v3, v3, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v3, v3, s0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v3, v5, v3			; GFX8-NEXT: v_and_b32_e32 v3, v5, v3
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2			; GFX8-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i16_v_v:			; GFX7-LABEL: insertelement_v_v4i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 1, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v3, 1, v3			; GFX7-NEXT: v_and_b32_e32 v3, 1, v3
	; GFX7-NEXT: s_mov_b32 s0, 0xffff			; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 4, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_lshl_b32_e32 v3, s0, v3			; GFX7-NEXT: v_lshl_b32_e32 v3, s0, v3
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v3, v5, v3			; GFX7-NEXT: v_and_b32_e32 v3, v5, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v2			; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_mov_b32_e32 v2, 0			; GFX7-NEXT: v_mov_b32_e32 v2, 0
	; GFX7-NEXT: v_mov_b32_e32 v3, 0			; GFX7-NEXT: v_mov_b32_e32 v3, 0
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_lshl_b32 s1, s1, 4			; GFX8-NEXT: s_lshl_b32 s1, s1, 4
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX8-NEXT: s_lshl_b32 s5, s2, s1			; GFX8-NEXT: s_lshl_b32 s5, s2, s1
	; GFX8-NEXT: s_not_b32 s6, s0			; GFX8-NEXT: s_not_b32 s6, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v3, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v3, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v4, s6, v4			; GFX8-NEXT: v_and_b32_e32 v4, s6, v4
	; GFX8-NEXT: v_or_b32_e32 v4, s5, v4			; GFX8-NEXT: v_or_b32_e32 v4, s5, v4
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	▲ Show 20 Lines • Show All 434 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v1, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v1, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v7, v3, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v7, v3, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v5, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v6, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v6, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v1, v7, v1			; GFX8-NEXT: v_and_b32_e32 v1, v7, v1
	; GFX8-NEXT: v_or_b32_e32 v7, v1, v2			; GFX8-NEXT: v_or_b32_e32 v7, v1, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v4, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v4, v7, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v7, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v7, s[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX8-NEXT: v_mov_b32_e32 v0, s1			; GFX8-NEXT: v_mov_b32_e32 v0, s1
	; GFX8-NEXT: s_not_b32 s5, s0			; GFX8-NEXT: s_not_b32 s5, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v1, s5, v1			; GFX8-NEXT: v_and_b32_e32 v1, s5, v1
	; GFX8-NEXT: v_or_b32_e32 v7, v1, v0			; GFX8-NEXT: v_or_b32_e32 v7, v1, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v4, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v4, v7, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v7, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v7, s[0:1]
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GFX8-NEXT: s_mov_b32 s0, 0xffff			; GFX8-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v1, v3, v1			; GFX8-NEXT: v_and_b32_e32 v1, v3, v1
	; GFX8-NEXT: v_or_b32_e32 v3, v1, v2			; GFX8-NEXT: v_or_b32_e32 v3, v1, v2
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v4, v3, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v4, v3, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v5, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v5, v3, vcc
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	▲ Show 20 Lines • Show All 289 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s12, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s12, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s12, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s12, 3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s12, 4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s12, 4
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], s12, 5			; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], s12, 5
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], s12, 6			; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], s12, 6
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], s12, 7			; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], s12, 7
	; GFX8-NEXT: v_mov_b32_e32 v10, 16			; GFX8-NEXT: v_mov_b32_e32 v10, 16
	; GFX8-NEXT: v_mov_b32_e32 v11, 0			; GFX8-NEXT: v_mov_b32_e32 v11, 0
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_cndmask_b32_e32 v8, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v8, v0, v1, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v3, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v3, s[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v4, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v4, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v5, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v5, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v6, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v6, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v7, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v8, v8, v7, s[10:11]
	; GFX8-NEXT: v_and_b32_e32 v8, s14, v8			; GFX8-NEXT: v_and_b32_e32 v8, s14, v8
	; GFX8-NEXT: v_or_b32_e32 v8, s13, v8			; GFX8-NEXT: v_or_b32_e32 v8, s13, v8
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], s12, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], s12, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[12:13]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[12:13]
	▲ Show 20 Lines • Show All 690 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v0
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v0
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_cndmask_b32_e32 v11, v3, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v11, v3, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v5, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v6, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v6, s[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v7, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v7, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v8, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v8, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v9, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v9, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v10, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v11, v11, v10, s[10:11]
	; GFX8-NEXT: v_and_b32_e32 v1, v11, v1			; GFX8-NEXT: v_and_b32_e32 v1, v11, v1
	; GFX8-NEXT: v_or_b32_e32 v11, v1, v2			; GFX8-NEXT: v_or_b32_e32 v11, v1, v2
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v3, v11, s[12:13]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v3, v11, s[12:13]
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v11, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v11, s[0:1]
	▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_not_b32 s13, s0			; GFX8-NEXT: s_not_b32 s13, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s12, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s12, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s12, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s12, 3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s12, 4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s12, 4
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], s12, 5			; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], s12, 5
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], s12, 6			; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], s12, 6
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], s12, 7			; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], s12, 7
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v8, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v8, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v10, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v10, s[10:11]
	; GFX8-NEXT: v_and_b32_e32 v1, s13, v1			; GFX8-NEXT: v_and_b32_e32 v1, s13, v1
	; GFX8-NEXT: v_or_b32_e32 v11, v1, v0			; GFX8-NEXT: v_or_b32_e32 v11, v1, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], s12, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], s12, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v3, v11, s[12:13]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v3, v11, s[12:13]
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v0
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v0
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v8, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v8, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v10, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v10, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v11, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v11, s[10:11]
	; GFX8-NEXT: v_and_b32_e32 v1, v3, v1			; GFX8-NEXT: v_and_b32_e32 v1, v3, v1
	; GFX8-NEXT: v_or_b32_e32 v12, v1, v2			; GFX8-NEXT: v_or_b32_e32 v12, v1, v2
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v4, v12, s[12:13]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v4, v12, s[12:13]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v5, v12, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v5, v12, vcc
	▲ Show 20 Lines • Show All 66 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show All 25 Lines
	;			;
	; GFX8-LABEL: insertelement_s_v2i8_s_s:			; GFX8-LABEL: insertelement_s_v2i8_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: global_store_short v[0:1], v2, off			; GFX9-NEXT: global_store_short v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v2i8_s_s:			; GFX8-LABEL: insertelement_v_v2i8_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v2, s2			; GFX8-NEXT: v_mov_b32_e32 v2, s2
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v2i8_v_s:			; GFX8-LABEL: insertelement_s_v2i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_mov_b32_e32 v1, s2			; GFX8-NEXT: v_mov_b32_e32 v1, s2
	; GFX8-NEXT: v_mov_b32_e32 v2, s3			; GFX8-NEXT: v_mov_b32_e32 v2, s3
	; GFX8-NEXT: flat_load_ushort v1, v[1:2]			; GFX8-NEXT: flat_load_ushort v1, v[1:2]
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	;			;
	; GFX8-LABEL: insertelement_s_v2i8_s_v:			; GFX8-LABEL: insertelement_s_v2i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_mov_b32_e32 v1, s2			; GFX8-NEXT: v_mov_b32_e32 v1, s2
	; GFX8-NEXT: v_mov_b32_e32 v2, s3			; GFX8-NEXT: v_mov_b32_e32 v2, s3
	; GFX8-NEXT: flat_load_ushort v1, v[1:2]			; GFX8-NEXT: flat_load_ushort v1, v[1:2]
	; GFX8-NEXT: v_mov_b32_e32 v3, s4			; GFX8-NEXT: v_mov_b32_e32 v3, s4
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
	; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v2i8_v_v:			; GFX8-LABEL: insertelement_s_v2i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_mov_b32_e32 v2, s2			; GFX8-NEXT: v_mov_b32_e32 v2, s2
	; GFX8-NEXT: v_mov_b32_e32 v3, s3			; GFX8-NEXT: v_mov_b32_e32 v3, s3
	; GFX8-NEXT: flat_load_ushort v2, v[2:3]			; GFX8-NEXT: flat_load_ushort v2, v[2:3]
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
	; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: global_store_short v[0:1], v2, off			; GFX9-NEXT: global_store_short v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v2i8_s_v:			; GFX8-LABEL: insertelement_v_v2i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v3, s2			; GFX8-NEXT: v_mov_b32_e32 v3, s2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_short v[0:1], v2, off			; GFX9-NEXT: global_store_short v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v2i8_v_s:			; GFX8-LABEL: insertelement_v_v2i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_short v[0:1], v2, off			; GFX9-NEXT: global_store_short v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v2i8_v_v:			; GFX8-LABEL: insertelement_v_v2i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_and_b32 s1, s3, 3			; GFX8-NEXT: s_and_b32 s1, s3, 3
	; GFX8-NEXT: v_mov_b32_e32 v3, s0			; GFX8-NEXT: v_mov_b32_e32 v3, s0
	; GFX8-NEXT: s_lshl_b32 s1, s1, 3			; GFX8-NEXT: s_lshl_b32 s1, s1, 3
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_lshl_b32 s2, s2, s1			; GFX8-NEXT: s_lshl_b32 s2, s2, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v6, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v6, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	▲ Show 20 Lines • Show All 477 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_mov_b32_e32 v4, s0			; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: s_and_b32 s1, s2, s0			; GFX8-NEXT: s_and_b32 s1, s2, s0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_lshlrev_b32_e64 v5, v2, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v5, v2, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v8, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v8, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8			; GFX8-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v0, v6
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v5, s1			; GFX8-NEXT: v_mov_b32_e32 v5, s1
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, s0			; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v7, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v7, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v7			; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v6, s0			; GFX8-NEXT: v_mov_b32_e32 v6, s0
	; GFX8-NEXT: v_and_b32_e32 v3, 3, v3			; GFX8-NEXT: v_and_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e64 v3, v3, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v3, v3, s0
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX8-NEXT: v_mov_b32_e32 v5, 8			; GFX8-NEXT: v_mov_b32_e32 v5, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, 0xff			; GFX8-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v6, v0, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v6, v0, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8			; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v7			; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	▲ Show 20 Lines • Show All 356 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_lshr_b32 s1, s3, 2			; GFX8-NEXT: s_lshr_b32 s1, s3, 2
	; GFX8-NEXT: s_and_b32 s3, s3, 3			; GFX8-NEXT: s_and_b32 s3, s3, 3
	; GFX8-NEXT: s_lshl_b32 s3, s3, 3			; GFX8-NEXT: s_lshl_b32 s3, s3, 3
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s3			; GFX8-NEXT: s_lshl_b32 s0, s0, s3
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_lshl_b32 s2, s2, s3			; GFX8-NEXT: s_lshl_b32 s2, s2, s3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6
	; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v9, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v9, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	▲ Show 20 Lines • Show All 826 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: s_and_b32 s1, s2, s0			; GFX8-NEXT: s_and_b32 s1, s2, s0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_lshlrev_b32_e64 v7, v2, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v7, v2, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9
	; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v12, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v12, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v5, s0			; GFX8-NEXT: v_mov_b32_e32 v5, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s2			; GFX8-NEXT: s_lshl_b32 s0, s0, s2
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v10, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v10, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	▲ Show 20 Lines • Show All 176 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_and_b32_e32 v3, 3, v3			; GFX8-NEXT: v_and_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_mov_b32_e32 v4, 0xff			; GFX8-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, v3, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v3, v3, v4
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v8
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v10			; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v10
	; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v6, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v6, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_and_b32_sdwa v13, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v13, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	▲ Show 20 Lines • Show All 615 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_lshl_b32 s1, s1, 3			; GFX8-NEXT: s_lshl_b32 s1, s1, 3
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX8-NEXT: s_lshl_b32 s5, s2, s1			; GFX8-NEXT: s_lshl_b32 s5, s2, s1
	; GFX8-NEXT: s_not_b32 s6, s0			; GFX8-NEXT: s_not_b32 s6, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8			; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v5, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v5, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v2
	▲ Show 20 Lines • Show All 1,426 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
	; GFX8-NEXT: v_lshlrev_b32_e64 v9, v2, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v9, v2, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v8
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v8
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v5
	; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v16, 8, v6			; GFX8-NEXT: v_lshrrev_b32_e32 v16, 8, v6
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v4
	▲ Show 20 Lines • Show All 299 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v7, s0			; GFX8-NEXT: v_mov_b32_e32 v7, s0
	; GFX8-NEXT: s_lshr_b32 s4, s2, 2			; GFX8-NEXT: s_lshr_b32 s4, s2, 2
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX8-NEXT: s_not_b32 s5, s0			; GFX8-NEXT: s_not_b32 s5, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v5
	▲ Show 20 Lines • Show All 302 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v10			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v10
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v10			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v10
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, v3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v3, v3, v0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v10			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v10
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v10			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v10
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 8, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v13, 8, v5
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v15, 8, v6			; GFX8-NEXT: v_lshrrev_b32_e32 v15, 8, v6
	; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v8, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v8, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v17, 8, v7			; GFX8-NEXT: v_lshrrev_b32_e32 v17, 8, v7
	; GFX8-NEXT: v_and_b32_sdwa v19, v4, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v19, v4, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	▲ Show 20 Lines • Show All 203 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/lds-global-non-entry-func.ll

	Show All 35 Lines
	; ERR: warning: <unknown>:0:0: in function func_use_lds_global_constexpr_cast void (): local memory global used by non-kernel function			; ERR: warning: <unknown>:0:0: in function func_use_lds_global_constexpr_cast void (): local memory global used by non-kernel function
	define void @func_use_lds_global_constexpr_cast() {			define void @func_use_lds_global_constexpr_cast() {
	; GFX8-LABEL: func_use_lds_global_constexpr_cast:			; GFX8-LABEL: func_use_lds_global_constexpr_cast:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b64 s[0:1], s[4:5]			; GFX8-NEXT: s_mov_b64 s[0:1], s[4:5]
	; GFX8-NEXT: s_trap 2			; GFX8-NEXT: s_trap 2
	; GFX8-NEXT: flat_store_dword v[0:1], v0			; GFX8-NEXT: flat_store_dword v[0:1], v0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: func_use_lds_global_constexpr_cast:			; GFX9-LABEL: func_use_lds_global_constexpr_cast:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_mov_b64 s[0:1], s[4:5]			; GFX9-NEXT: s_mov_b64 s[0:1], s[4:5]
	; GFX9-NEXT: s_trap 2			; GFX9-NEXT: s_trap 2
	; GFX9-NEXT: global_store_dword v[0:1], v0, off			; GFX9-NEXT: global_store_dword v[0:1], v0, off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	store i32 ptrtoint (float addrspace(3)* @lds to i32), i32 addrspace(1)* undef, align 4			store i32 ptrtoint (float addrspace(3)* @lds to i32), i32 addrspace(1)* undef, align 4
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.atomic.dec.ll

	Show First 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_mov_b32_e32 v2, 42			; CI-NEXT: v_mov_b32_e32 v2, 42
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc			; CI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_dec_ret_i32:			; VI-LABEL: global_atomic_dec_ret_i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc			; VI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	; GFX9-LABEL: global_atomic_dec_ret_i32:			; GFX9-LABEL: global_atomic_dec_ret_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	Show All 17 Lines
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_add_u32 s2, s2, 16			; CI-NEXT: s_add_u32 s2, s2, 16
	; CI-NEXT: s_addc_u32 s3, s3, 0			; CI-NEXT: s_addc_u32 s3, s3, 0
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc			; CI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_dec_ret_i32_offset:			; VI-LABEL: global_atomic_dec_ret_i32_offset:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_add_u32 s2, s2, 16			; VI-NEXT: s_add_u32 s2, s2, 16
	; VI-NEXT: s_addc_u32 s3, s3, 0			; VI-NEXT: s_addc_u32 s3, s3, 0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc			; VI-NEXT: flat_atomic_dec v2, v[0:1], v2 glc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	; GFX9-LABEL: global_atomic_dec_ret_i32_offset:			; GFX9-LABEL: global_atomic_dec_ret_i32_offset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_add_u32 s2, s2, 16			; GFX9-NEXT: s_add_u32 s2, s2, 16
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: v_add_i32_e32 v2, vcc, 20, v3			; CI-NEXT: v_add_i32_e32 v2, vcc, 20, v3
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; CI-NEXT: v_mov_b32_e32 v4, 42			; CI-NEXT: v_mov_b32_e32 v4, 42
	; CI-NEXT: flat_atomic_dec v2, v[2:3], v4 glc			; CI-NEXT: flat_atomic_dec v2, v[2:3], v4 glc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_dec_ret_i32_offset_addr64:			; VI-LABEL: global_atomic_dec_ret_i32_offset_addr64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 20, v3			; VI-NEXT: v_add_u32_e32 v2, vcc, 20, v3
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v4, 42			; VI-NEXT: v_mov_b32_e32 v4, 42
	; VI-NEXT: flat_atomic_dec v2, v[2:3], v4 glc			; VI-NEXT: flat_atomic_dec v2, v[2:3], v4 glc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	; GFX9-LABEL: global_atomic_dec_ret_i32_offset_addr64:			; GFX9-LABEL: global_atomic_dec_ret_i32_offset_addr64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GFX9-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mul_lo_u32 v2, 0, v0			; GFX9-NEXT: v_mul_lo_u32 v2, 0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, 4, v1			; GFX9-NEXT: v_mul_lo_u32 v1, 4, v1
	▲ Show 20 Lines • Show All 949 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_mov_b32_e32 v2, 42			; CI-NEXT: v_mov_b32_e32 v2, 42
	; CI-NEXT: v_mov_b32_e32 v3, 0			; CI-NEXT: v_mov_b32_e32 v3, 0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc			; CI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_mov_b32_e32 v2, s0			; CI-NEXT: v_mov_b32_e32 v2, s0
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_dec_ret_i64:			; VI-LABEL: global_atomic_dec_ret_i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: v_mov_b32_e32 v3, 0			; VI-NEXT: v_mov_b32_e32 v3, 0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc			; VI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	; GFX9-LABEL: global_atomic_dec_ret_i64:			; GFX9-LABEL: global_atomic_dec_ret_i64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	Show All 19 Lines
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_add_u32 s2, s2, 32			; CI-NEXT: s_add_u32 s2, s2, 32
	; CI-NEXT: s_addc_u32 s3, s3, 0			; CI-NEXT: s_addc_u32 s3, s3, 0
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc			; CI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_mov_b32_e32 v2, s0			; CI-NEXT: v_mov_b32_e32 v2, s0
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_dec_ret_i64_offset:			; VI-LABEL: global_atomic_dec_ret_i64_offset:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: v_mov_b32_e32 v3, 0			; VI-NEXT: v_mov_b32_e32 v3, 0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_add_u32 s2, s2, 32			; VI-NEXT: s_add_u32 s2, s2, 32
	; VI-NEXT: s_addc_u32 s3, s3, 0			; VI-NEXT: s_addc_u32 s3, s3, 0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc			; VI-NEXT: flat_atomic_dec_x2 v[0:1], v[0:1], v[2:3] glc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	; GFX9-LABEL: global_atomic_dec_ret_i64_offset:			; GFX9-LABEL: global_atomic_dec_ret_i64_offset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: v_add_i32_e32 v2, vcc, 40, v3			; CI-NEXT: v_add_i32_e32 v2, vcc, 40, v3
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; CI-NEXT: v_mov_b32_e32 v4, 42			; CI-NEXT: v_mov_b32_e32 v4, 42
	; CI-NEXT: v_mov_b32_e32 v5, 0			; CI-NEXT: v_mov_b32_e32 v5, 0
	; CI-NEXT: flat_atomic_dec_x2 v[2:3], v[2:3], v[4:5] glc			; CI-NEXT: flat_atomic_dec_x2 v[2:3], v[2:3], v[4:5] glc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]			; CI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_dec_ret_i64_offset_addr64:			; VI-LABEL: global_atomic_dec_ret_i64_offset_addr64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 40, v3			; VI-NEXT: v_add_u32_e32 v2, vcc, 40, v3
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v4, 42			; VI-NEXT: v_mov_b32_e32 v4, 42
	; VI-NEXT: v_mov_b32_e32 v5, 0			; VI-NEXT: v_mov_b32_e32 v5, 0
	; VI-NEXT: flat_atomic_dec_x2 v[2:3], v[2:3], v[4:5] glc			; VI-NEXT: flat_atomic_dec_x2 v[2:3], v[2:3], v[4:5] glc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]			; VI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	; GFX9-LABEL: global_atomic_dec_ret_i64_offset_addr64:			; GFX9-LABEL: global_atomic_dec_ret_i64_offset_addr64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GFX9-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mul_lo_u32 v2, 0, v0			; GFX9-NEXT: v_mul_lo_u32 v2, 0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, 8, v1			; GFX9-NEXT: v_mul_lo_u32 v1, 8, v1
	▲ Show 20 Lines • Show All 155 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.atomic.inc.ll

	Show First 20 Lines • Show All 190 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_mov_b32_e32 v2, 42			; CI-NEXT: v_mov_b32_e32 v2, 42
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc			; CI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_inc_ret_i32:			; VI-LABEL: global_atomic_inc_ret_i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc			; VI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: global_atomic_inc_ret_i32:			; GFX9-LABEL: global_atomic_inc_ret_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	Show All 18 Lines
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_add_u32 s2, s2, 16			; CI-NEXT: s_add_u32 s2, s2, 16
	; CI-NEXT: s_addc_u32 s3, s3, 0			; CI-NEXT: s_addc_u32 s3, s3, 0
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc			; CI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_inc_ret_i32_offset:			; VI-LABEL: global_atomic_inc_ret_i32_offset:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_add_u32 s2, s2, 16			; VI-NEXT: s_add_u32 s2, s2, 16
	; VI-NEXT: s_addc_u32 s3, s3, 0			; VI-NEXT: s_addc_u32 s3, s3, 0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc			; VI-NEXT: flat_atomic_inc v2, v[0:1], v2 glc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: global_atomic_inc_ret_i32_offset:			; GFX9-LABEL: global_atomic_inc_ret_i32_offset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: v_add_i32_e32 v2, vcc, 20, v3			; CI-NEXT: v_add_i32_e32 v2, vcc, 20, v3
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; CI-NEXT: v_mov_b32_e32 v4, 42			; CI-NEXT: v_mov_b32_e32 v4, 42
	; CI-NEXT: flat_atomic_inc v2, v[2:3], v4 glc			; CI-NEXT: flat_atomic_inc v2, v[2:3], v4 glc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_inc_ret_i32_offset_addr64:			; VI-LABEL: global_atomic_inc_ret_i32_offset_addr64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 20, v3			; VI-NEXT: v_add_u32_e32 v2, vcc, 20, v3
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v4, 42			; VI-NEXT: v_mov_b32_e32 v4, 42
	; VI-NEXT: flat_atomic_inc v2, v[2:3], v4 glc			; VI-NEXT: flat_atomic_inc v2, v[2:3], v4 glc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: global_atomic_inc_ret_i32_offset_addr64:			; GFX9-LABEL: global_atomic_inc_ret_i32_offset_addr64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v1, 42			; GFX9-NEXT: v_mov_b32_e32 v1, 42
	▲ Show 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_mov_b32_e32 v2, 42			; CI-NEXT: v_mov_b32_e32 v2, 42
	; CI-NEXT: v_mov_b32_e32 v3, 0			; CI-NEXT: v_mov_b32_e32 v3, 0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc			; CI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_mov_b32_e32 v2, s0			; CI-NEXT: v_mov_b32_e32 v2, s0
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_inc_ret_i64:			; VI-LABEL: global_atomic_inc_ret_i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: v_mov_b32_e32 v3, 0			; VI-NEXT: v_mov_b32_e32 v3, 0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc			; VI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: global_atomic_inc_ret_i64:			; GFX9-LABEL: global_atomic_inc_ret_i64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	Show All 20 Lines
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_add_u32 s2, s2, 32			; CI-NEXT: s_add_u32 s2, s2, 32
	; CI-NEXT: s_addc_u32 s3, s3, 0			; CI-NEXT: s_addc_u32 s3, s3, 0
	; CI-NEXT: v_mov_b32_e32 v0, s2			; CI-NEXT: v_mov_b32_e32 v0, s2
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc			; CI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_mov_b32_e32 v2, s0			; CI-NEXT: v_mov_b32_e32 v2, s0
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_inc_ret_i64_offset:			; VI-LABEL: global_atomic_inc_ret_i64_offset:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_mov_b32_e32 v2, 42			; VI-NEXT: v_mov_b32_e32 v2, 42
	; VI-NEXT: v_mov_b32_e32 v3, 0			; VI-NEXT: v_mov_b32_e32 v3, 0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_add_u32 s2, s2, 32			; VI-NEXT: s_add_u32 s2, s2, 32
	; VI-NEXT: s_addc_u32 s3, s3, 0			; VI-NEXT: s_addc_u32 s3, s3, 0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc			; VI-NEXT: flat_atomic_inc_x2 v[0:1], v[0:1], v[2:3] glc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: global_atomic_inc_ret_i64_offset:			; GFX9-LABEL: global_atomic_inc_ret_i64_offset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: v_mov_b32_e32 v2, 42			; GFX9-NEXT: v_mov_b32_e32 v2, 42
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: v_add_i32_e32 v2, vcc, 40, v3			; CI-NEXT: v_add_i32_e32 v2, vcc, 40, v3
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; CI-NEXT: v_mov_b32_e32 v4, 42			; CI-NEXT: v_mov_b32_e32 v4, 42
	; CI-NEXT: v_mov_b32_e32 v5, 0			; CI-NEXT: v_mov_b32_e32 v5, 0
	; CI-NEXT: flat_atomic_inc_x2 v[2:3], v[2:3], v[4:5] glc			; CI-NEXT: flat_atomic_inc_x2 v[2:3], v[2:3], v[4:5] glc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]			; CI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: global_atomic_inc_ret_i64_offset_addr64:			; VI-LABEL: global_atomic_inc_ret_i64_offset_addr64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v3, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 40, v3			; VI-NEXT: v_add_u32_e32 v2, vcc, 40, v3
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v4, 42			; VI-NEXT: v_mov_b32_e32 v4, 42
	; VI-NEXT: v_mov_b32_e32 v5, 0			; VI-NEXT: v_mov_b32_e32 v5, 0
	; VI-NEXT: flat_atomic_inc_x2 v[2:3], v[2:3], v[4:5] glc			; VI-NEXT: flat_atomic_inc_x2 v[2:3], v[2:3], v[4:5] glc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]			; VI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: global_atomic_inc_ret_i64_offset_addr64:			; GFX9-LABEL: global_atomic_inc_ret_i64_offset_addr64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, 42			; GFX9-NEXT: v_mov_b32_e32 v0, 42
	▲ Show 20 Lines • Show All 539 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_mov_b32_e32 v1, s4			; CI-NEXT: v_mov_b32_e32 v1, s4
	; CI-NEXT: ds_inc_rtn_u32 v4, v1, v0			; CI-NEXT: ds_inc_rtn_u32 v4, v1, v0
	; CI-NEXT: ds_inc_rtn_u32 v5, v1, v0			; CI-NEXT: ds_inc_rtn_u32 v5, v1, v0
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: v_mov_b32_e32 v3, s3			; CI-NEXT: v_mov_b32_e32 v3, s3
	; CI-NEXT: s_waitcnt lgkmcnt(1)			; CI-NEXT: s_waitcnt lgkmcnt(1)
	; CI-NEXT: flat_store_dword v[0:1], v4			; CI-NEXT: flat_store_dword v[0:1], v4
	; CI-NEXT: s_waitcnt lgkmcnt(1)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: flat_store_dword v[2:3], v5			; CI-NEXT: flat_store_dword v[2:3], v5
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; VI-LABEL: nocse_lds_atomic_inc_ret_i32:			; VI-LABEL: nocse_lds_atomic_inc_ret_i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: s_load_dword s4, s[4:5], 0x10			; VI-NEXT: s_load_dword s4, s[4:5], 0x10
	; VI-NEXT: v_mov_b32_e32 v0, 42			; VI-NEXT: v_mov_b32_e32 v0, 42
	; VI-NEXT: s_mov_b32 m0, -1			; VI-NEXT: s_mov_b32 m0, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v2, s2			; VI-NEXT: v_mov_b32_e32 v2, s2
	; VI-NEXT: v_mov_b32_e32 v1, s4			; VI-NEXT: v_mov_b32_e32 v1, s4
	; VI-NEXT: ds_inc_rtn_u32 v4, v1, v0			; VI-NEXT: ds_inc_rtn_u32 v4, v1, v0
	; VI-NEXT: ds_inc_rtn_u32 v5, v1, v0			; VI-NEXT: ds_inc_rtn_u32 v5, v1, v0
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_mov_b32_e32 v3, s3			; VI-NEXT: v_mov_b32_e32 v3, s3
	; VI-NEXT: s_waitcnt lgkmcnt(1)			; VI-NEXT: s_waitcnt lgkmcnt(1)
	; VI-NEXT: flat_store_dword v[0:1], v4			; VI-NEXT: flat_store_dword v[0:1], v4
	; VI-NEXT: s_waitcnt lgkmcnt(1)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: flat_store_dword v[2:3], v5			; VI-NEXT: flat_store_dword v[2:3], v5
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: nocse_lds_atomic_inc_ret_i32:			; GFX9-LABEL: nocse_lds_atomic_inc_ret_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: s_load_dword s4, s[4:5], 0x10			; GFX9-NEXT: s_load_dword s4, s[4:5], 0x10
	; GFX9-NEXT: v_mov_b32_e32 v0, 42			; GFX9-NEXT: v_mov_b32_e32 v0, 42
	Show All 24 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.div.fmas.ll

	Show First 20 Lines • Show All 882 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_addc_u32 s1, s5, 0			; GFX8-NEXT: s_addc_u32 s1, s5, 0
	; GFX8-NEXT: s_cmp_lg_u32 s2, 0			; GFX8-NEXT: s_cmp_lg_u32 s2, 0
	; GFX8-NEXT: s_cselect_b32 s2, 1, 0			; GFX8-NEXT: s_cselect_b32 s2, 1, 0
	; GFX8-NEXT: s_and_b32 s2, 1, s2			; GFX8-NEXT: s_and_b32 s2, 1, s2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX8-NEXT: v_cmp_ne_u32_e64 s[2:3], 0, s2			; GFX8-NEXT: v_cmp_ne_u32_e64 s[2:3], 0, s2
	; GFX8-NEXT: s_and_b64 vcc, vcc, s[2:3]			; GFX8-NEXT: s_and_b64 vcc, vcc, s[2:3]
	; GFX8-NEXT: s_nop 1			; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3			; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10_W32-LABEL: test_div_fmas_f32_logical_cond_to_vcc:			; GFX10_W32-LABEL: test_div_fmas_f32_logical_cond_to_vcc:
	; GFX10_W32: ; %bb.0:			; GFX10_W32: ; %bb.0:
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_cselect_b32 s2, 1, 0			; GFX8-NEXT: s_cselect_b32 s2, 1, 0
	; GFX8-NEXT: BB13_2: ; %exit			; GFX8-NEXT: BB13_2: ; %exit
	; GFX8-NEXT: s_or_b64 exec, exec, s[6:7]			; GFX8-NEXT: s_or_b64 exec, exec, s[6:7]
	; GFX8-NEXT: s_add_u32 s0, s4, 8			; GFX8-NEXT: s_add_u32 s0, s4, 8
	; GFX8-NEXT: s_addc_u32 s1, s5, 0			; GFX8-NEXT: s_addc_u32 s1, s5, 0
	; GFX8-NEXT: s_and_b32 s2, 1, s2			; GFX8-NEXT: s_and_b32 s2, 1, s2
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s2			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s2
	; GFX8-NEXT: s_nop 3			; GFX8-NEXT: s_nop 3
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3			; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10_W32-LABEL: test_div_fmas_f32_i1_phi_vcc:			; GFX10_W32-LABEL: test_div_fmas_f32_i1_phi_vcc:
	; GFX10_W32: ; %bb.0: ; %entry			; GFX10_W32: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.div.scale.ll

	Show All 30 Lines
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: flat_load_dword v1, v[2:3]			; GFX8-NEXT: flat_load_dword v1, v[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v1, v1, v0			; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v1, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_1:			; GFX10-LABEL: test_div_scale_f32_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: flat_load_dword v1, v[2:3]			; GFX8-NEXT: flat_load_dword v1, v[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v0, v1, v0			; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v0, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_2:			; GFX10-LABEL: test_div_scale_f32_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	Show All 33 Lines
	; GFX7-NEXT: v_mov_b32_e32 v0, s2			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s3			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX7-NEXT: v_add_i32_e32 v2, vcc, 8, v0			; GFX7-NEXT: v_add_i32_e32 v2, vcc, 8, v0
	; GFX7-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; GFX7-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[2:3], v[2:3], v[0:1]			; GFX7-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[2:3], v[2:3], v[0:1]
	; GFX7-NEXT: v_mov_b32_e32 v3, s1			; GFX7-NEXT: v_mov_b32_e32 v3, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s0			; GFX7-NEXT: v_mov_b32_e32 v2, s0
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_div_scale_f64_1:			; GFX8-LABEL: test_div_scale_f64_1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, 8, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, 8, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[2:3], v[2:3], v[0:1]			; GFX8-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[2:3], v[2:3], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f64_1:			; GFX10-LABEL: test_div_scale_f64_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	Show All 34 Lines
	; GFX7-NEXT: v_mov_b32_e32 v0, s2			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s3			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX7-NEXT: v_add_i32_e32 v2, vcc, 8, v0			; GFX7-NEXT: v_add_i32_e32 v2, vcc, 8, v0
	; GFX7-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; GFX7-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[0:1], v[2:3], v[0:1]			; GFX7-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[0:1], v[2:3], v[0:1]
	; GFX7-NEXT: v_mov_b32_e32 v3, s1			; GFX7-NEXT: v_mov_b32_e32 v3, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s0			; GFX7-NEXT: v_mov_b32_e32 v2, s0
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_div_scale_f64_2:			; GFX8-LABEL: test_div_scale_f64_2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, 8, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, 8, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[0:1], v[2:3], v[0:1]			; GFX8-NEXT: v_div_scale_f64 v[0:1], s[2:3], v[0:1], v[2:3], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f64_2:			; GFX10-LABEL: test_div_scale_f64_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_load_dword s0, s[0:1], 0x54			; GFX8-NEXT: s_load_dword s0, s[0:1], 0x54
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], v0, v0, s0			; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], v0, v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_scalar_num_1:			; GFX10-LABEL: test_div_scale_f32_scalar_num_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_load_dword s0, s[0:1], 0x34			; GFX8-NEXT: s_load_dword s0, s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], s0, v0, s0			; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], s0, v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_scalar_num_2:			; GFX10-LABEL: test_div_scale_f32_scalar_num_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_load_dword s0, s[0:1], 0x34			; GFX8-NEXT: s_load_dword s0, s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], s0, s0, v0			; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], s0, s0, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_scalar_den_1:			; GFX10-LABEL: test_div_scale_f32_scalar_den_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_load_dword s0, s[0:1], 0x34			; GFX8-NEXT: s_load_dword s0, s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], v0, s0, v0			; GFX8-NEXT: v_div_scale_f32 v2, s[0:1], v0, s0, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_scalar_den_2:			; GFX10-LABEL: test_div_scale_f32_scalar_den_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	Show All 29 Lines
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s6			; GFX7-NEXT: v_mov_b32_e32 v0, s6
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX7-NEXT: v_mov_b32_e32 v1, s7			; GFX7-NEXT: v_mov_b32_e32 v1, s7
	; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s5			; GFX7-NEXT: v_mov_b32_e32 v3, s5
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], v[0:1], s[0:1]			; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], v[0:1], s[0:1]
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_div_scale_f64_scalar_num_1:			; GFX8-LABEL: test_div_scale_f64_scalar_num_1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_mov_b32_e32 v3, s5			; GFX8-NEXT: v_mov_b32_e32 v3, s5
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], v[0:1], s[0:1]			; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], v[0:1], s[0:1]
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f64_scalar_num_1:			; GFX10-LABEL: test_div_scale_f64_scalar_num_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	Show All 27 Lines
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s6			; GFX7-NEXT: v_mov_b32_e32 v0, s6
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX7-NEXT: v_mov_b32_e32 v1, s7			; GFX7-NEXT: v_mov_b32_e32 v1, s7
	; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s5			; GFX7-NEXT: v_mov_b32_e32 v3, s5
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], v[0:1], s[0:1]			; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], v[0:1], s[0:1]
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_div_scale_f64_scalar_num_2:			; GFX8-LABEL: test_div_scale_f64_scalar_num_2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_mov_b32_e32 v3, s5			; GFX8-NEXT: v_mov_b32_e32 v3, s5
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], v[0:1], s[0:1]			; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], v[0:1], s[0:1]
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f64_scalar_num_2:			; GFX10-LABEL: test_div_scale_f64_scalar_num_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	Show All 27 Lines
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s6			; GFX7-NEXT: v_mov_b32_e32 v0, s6
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX7-NEXT: v_mov_b32_e32 v1, s7			; GFX7-NEXT: v_mov_b32_e32 v1, s7
	; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s5			; GFX7-NEXT: v_mov_b32_e32 v3, s5
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], s[0:1], v[0:1]			; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], s[0:1], v[0:1]
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_div_scale_f64_scalar_den_1:			; GFX8-LABEL: test_div_scale_f64_scalar_den_1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_mov_b32_e32 v3, s5			; GFX8-NEXT: v_mov_b32_e32 v3, s5
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], s[0:1], v[0:1]			; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], s[0:1], s[0:1], v[0:1]
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f64_scalar_den_1:			; GFX10-LABEL: test_div_scale_f64_scalar_den_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	Show All 27 Lines
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s6			; GFX7-NEXT: v_mov_b32_e32 v0, s6
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX7-NEXT: v_mov_b32_e32 v1, s7			; GFX7-NEXT: v_mov_b32_e32 v1, s7
	; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX7-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s5			; GFX7-NEXT: v_mov_b32_e32 v3, s5
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], s[0:1], v[0:1]			; GFX7-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], s[0:1], v[0:1]
	; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX7-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_div_scale_f64_scalar_den_2:			; GFX8-LABEL: test_div_scale_f64_scalar_den_2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x54
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_mov_b32_e32 v3, s5			; GFX8-NEXT: v_mov_b32_e32 v3, s5
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], s[0:1], v[0:1]			; GFX8-NEXT: v_div_scale_f64 v[0:1], s[0:1], v[0:1], s[0:1], v[0:1]
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f64_scalar_den_2:			; GFX10-LABEL: test_div_scale_f64_scalar_den_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	▲ Show 20 Lines • Show All 229 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v0, v0, 1.0			; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v0, v0, 1.0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_inline_imm_num:			; GFX10-LABEL: test_div_scale_f32_inline_imm_num:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], 2.0, 2.0, v0			; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], 2.0, 2.0, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_inline_imm_den:			; GFX10-LABEL: test_div_scale_f32_inline_imm_den:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: flat_load_dword v1, v[2:3]			; GFX8-NEXT: flat_load_dword v1, v[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0			; GFX8-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v1, v1, v0			; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v1, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_fabs_num:			; GFX10-LABEL: test_div_scale_f32_fabs_num:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, 4, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: flat_load_dword v1, v[2:3]			; GFX8-NEXT: flat_load_dword v1, v[2:3]
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v1, 0x7fffffff, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0x7fffffff, v1
	; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v1, v1, v0			; GFX8-NEXT: v_div_scale_f32 v2, s[2:3], v1, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: test_div_scale_f32_fabs_den:			; GFX10-LABEL: test_div_scale_f32_fabs_den:
	▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.update.dpp.ll

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v5, s3			; GFX8-NEXT: v_mov_b32_e32 v5, s3
	; GFX8-NEXT: v_mov_b32_e32 v4, s2			; GFX8-NEXT: v_mov_b32_e32 v4, s2
	; GFX8-NEXT: s_nop 0			; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_dpp v5, v3 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1			; GFX8-NEXT: v_mov_b32_dpp v5, v3 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1
	; GFX8-NEXT: v_mov_b32_dpp v4, v2 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1			; GFX8-NEXT: v_mov_b32_dpp v4, v2 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1
	; GFX8-NEXT: flat_store_dwordx2 v[0:1], v[4:5]			; GFX8-NEXT: flat_store_dwordx2 v[0:1], v[4:5]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: update_dpp64_test:			; GFX10-LABEL: update_dpp64_test:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	Show All 25 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/shl-ext-reduce.ll

	Show First 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3			; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3
	; GFX8-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc			; GFX8-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
	; GFX8-NEXT: flat_load_dword v4, v[1:2]			; GFX8-NEXT: flat_load_dword v4, v[1:2]
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5			; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_or_b32_e32 v0, 0xff800000, v4			; GFX8-NEXT: v_or_b32_e32 v0, 0xff800000, v4
	; GFX8-NEXT: v_mul_i32_i24_e32 v0, -7, v0			; GFX8-NEXT: v_mul_i32_i24_e32 v0, -7, v0
	; GFX8-NEXT: v_lshlrev_b64 v[0:1], 3, v[0:1]			; GFX8-NEXT: v_lshlrev_b64 v[0:1], 3, v[0:1]
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: muli24_shl64:			; GFX9-LABEL: muli24_shl64:
	; GFX9: ; %bb.0: ; %bb			; GFX9: ; %bb.0: ; %bb
	▲ Show 20 Lines • Show All 293 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/zextload.ll

	Show All 12 Lines
	; GFX9-NEXT: v_and_b32_e32 v0, 1, v0			; GFX9-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: zextload_global_i1_to_i64:			; GFX8-LABEL: zextload_global_i1_to_i64:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_ubyte v0, v[0:1]			; GFX8-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v0, 1, v0			; GFX8-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-LABEL: zextload_global_i1_to_i64:			; GFX6-LABEL: zextload_global_i1_to_i64:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s6, 0			; GFX6-NEXT: s_mov_b32 s6, 0
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	Show All 17 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: zextload_global_i8_to_i64:			; GFX8-LABEL: zextload_global_i8_to_i64:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_ubyte v0, v[0:1]			; GFX8-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-LABEL: zextload_global_i8_to_i64:			; GFX6-LABEL: zextload_global_i8_to_i64:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s6, 0			; GFX6-NEXT: s_mov_b32 s6, 0
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b64 s[4:5], 0			; GFX6-NEXT: s_mov_b64 s[4:5], 0
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: zextload_global_i16_to_i64:			; GFX8-LABEL: zextload_global_i16_to_i64:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-LABEL: zextload_global_i16_to_i64:			; GFX6-LABEL: zextload_global_i16_to_i64:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s6, 0			; GFX6-NEXT: s_mov_b32 s6, 0
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b64 s[4:5], 0			; GFX6-NEXT: s_mov_b64 s[4:5], 0
	Show All 15 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: zextload_global_i32_to_i64:			; GFX8-LABEL: zextload_global_i32_to_i64:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-LABEL: zextload_global_i32_to_i64:			; GFX6-LABEL: zextload_global_i32_to_i64:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s6, 0			; GFX6-NEXT: s_mov_b32 s6, 0
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b64 s[4:5], 0			; GFX6-NEXT: s_mov_b64 s[4:5], 0
	Show All 17 Lines
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: zextload_global_i32_to_i96:			; GFX8-LABEL: zextload_global_i32_to_i96:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-LABEL: zextload_global_i32_to_i96:			; GFX6-LABEL: zextload_global_i32_to_i96:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s6, 0			; GFX6-NEXT: s_mov_b32 s6, 0
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b64 s[4:5], 0			; GFX6-NEXT: s_mov_b64 s[4:5], 0
	Show All 20 Lines
	;			;
	; GFX8-LABEL: zextload_global_i32_to_i128:			; GFX8-LABEL: zextload_global_i32_to_i128:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-LABEL: zextload_global_i32_to_i128:			; GFX6-LABEL: zextload_global_i32_to_i128:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s6, 0			; GFX6-NEXT: s_mov_b32 s6, 0
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b64 s[4:5], 0			; GFX6-NEXT: s_mov_b64 s[4:5], 0
	Show All 10 Lines

llvm/test/CodeGen/AMDGPU/bitreverse.ll

	Show First 20 Lines • Show All 137 Lines • ▼ Show 20 Lines
	; FLAT-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; FLAT-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; FLAT-NEXT: s_mov_b32 s7, 0xf000			; FLAT-NEXT: s_mov_b32 s7, 0xf000
	; FLAT-NEXT: s_mov_b32 s6, -1			; FLAT-NEXT: s_mov_b32 s6, -1
	; FLAT-NEXT: s_waitcnt lgkmcnt(0)			; FLAT-NEXT: s_waitcnt lgkmcnt(0)
	; FLAT-NEXT: v_mov_b32_e32 v1, s1			; FLAT-NEXT: v_mov_b32_e32 v1, s1
	; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; FLAT-NEXT: flat_load_dword v0, v[0:1]			; FLAT-NEXT: flat_load_dword v0, v[0:1]
	; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; FLAT-NEXT: s_waitcnt vmcnt(0)
	; FLAT-NEXT: v_bfrev_b32_e32 v0, v0			; FLAT-NEXT: v_bfrev_b32_e32 v0, v0
	; FLAT-NEXT: buffer_store_dword v0, off, s[4:7], 0			; FLAT-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; FLAT-NEXT: s_endpgm			; FLAT-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %valptr, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %valptr, i32 %tid
	%val = load i32, i32 addrspace(1)* %gep			%val = load i32, i32 addrspace(1)* %gep
	%brev = call i32 @llvm.bitreverse.i32(i32 %val) #1			%brev = call i32 @llvm.bitreverse.i32(i32 %val) #1
	store i32 %brev, i32 addrspace(1)* %out			store i32 %brev, i32 addrspace(1)* %out
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; FLAT-NEXT: s_mov_b32 s7, 0xf000			; FLAT-NEXT: s_mov_b32 s7, 0xf000
	; FLAT-NEXT: s_mov_b32 s6, -1			; FLAT-NEXT: s_mov_b32 s6, -1
	; FLAT-NEXT: s_waitcnt lgkmcnt(0)			; FLAT-NEXT: s_waitcnt lgkmcnt(0)
	; FLAT-NEXT: v_mov_b32_e32 v1, s1			; FLAT-NEXT: v_mov_b32_e32 v1, s1
	; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; FLAT-NEXT: s_waitcnt vmcnt(0)
	; FLAT-NEXT: v_bfrev_b32_e32 v1, v1			; FLAT-NEXT: v_bfrev_b32_e32 v1, v1
	; FLAT-NEXT: v_bfrev_b32_e32 v0, v0			; FLAT-NEXT: v_bfrev_b32_e32 v0, v0
	; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; FLAT-NEXT: s_endpgm			; FLAT-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x i32>, <2 x i32> addrspace(1)* %valptr, i32 %tid			%gep = getelementptr <2 x i32>, <2 x i32> addrspace(1)* %valptr, i32 %tid
	%val = load <2 x i32>, <2 x i32> addrspace(1)* %gep			%val = load <2 x i32>, <2 x i32> addrspace(1)* %gep
	%brev = call <2 x i32> @llvm.bitreverse.v2i32(<2 x i32> %val) #1			%brev = call <2 x i32> @llvm.bitreverse.v2i32(<2 x i32> %val) #1
	▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; FLAT-NEXT: s_waitcnt lgkmcnt(0)			; FLAT-NEXT: s_waitcnt lgkmcnt(0)
	; FLAT-NEXT: v_mov_b32_e32 v1, s1			; FLAT-NEXT: v_mov_b32_e32 v1, s1
	; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; FLAT-NEXT: s_mov_b32 s0, 0x10203			; FLAT-NEXT: s_mov_b32 s0, 0x10203
	; FLAT-NEXT: s_mov_b32 s1, 0xf0f0f0f			; FLAT-NEXT: s_mov_b32 s1, 0xf0f0f0f
	; FLAT-NEXT: s_mov_b32 s7, 0xf000			; FLAT-NEXT: s_mov_b32 s7, 0xf000
	; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; FLAT-NEXT: s_waitcnt vmcnt(0)
	; FLAT-NEXT: v_perm_b32 v2, 0, v0, s0			; FLAT-NEXT: v_perm_b32 v2, 0, v0, s0
	; FLAT-NEXT: v_perm_b32 v4, 0, v1, s0			; FLAT-NEXT: v_perm_b32 v4, 0, v1, s0
	; FLAT-NEXT: v_and_b32_e32 v1, s1, v2			; FLAT-NEXT: v_and_b32_e32 v1, s1, v2
	; FLAT-NEXT: v_and_b32_e32 v0, s1, v4			; FLAT-NEXT: v_and_b32_e32 v0, s1, v4
	; FLAT-NEXT: v_and_b32_e32 v3, s2, v2			; FLAT-NEXT: v_and_b32_e32 v3, s2, v2
	; FLAT-NEXT: v_and_b32_e32 v2, s2, v4			; FLAT-NEXT: v_and_b32_e32 v2, s2, v4
	; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]			; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]
	; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]			; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]
	▲ Show 20 Lines • Show All 277 Lines • ▼ Show 20 Lines
	; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; FLAT-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; FLAT-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; FLAT-NEXT: s_mov_b32 s0, 0x10203			; FLAT-NEXT: s_mov_b32 s0, 0x10203
	; FLAT-NEXT: s_mov_b32 s1, 0xf0f0f0f			; FLAT-NEXT: s_mov_b32 s1, 0xf0f0f0f
	; FLAT-NEXT: s_mov_b32 s9, 0x55555555			; FLAT-NEXT: s_mov_b32 s9, 0x55555555
	; FLAT-NEXT: s_mov_b32 s10, 0xaaaaaaaa			; FLAT-NEXT: s_mov_b32 s10, 0xaaaaaaaa
	; FLAT-NEXT: s_mov_b32 s7, 0xf000			; FLAT-NEXT: s_mov_b32 s7, 0xf000
	; FLAT-NEXT: s_mov_b32 s6, -1			; FLAT-NEXT: s_mov_b32 s6, -1
	; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; FLAT-NEXT: s_waitcnt vmcnt(0)
	; FLAT-NEXT: v_perm_b32 v6, 0, v0, s0			; FLAT-NEXT: v_perm_b32 v6, 0, v0, s0
	; FLAT-NEXT: v_perm_b32 v4, 0, v3, s0			; FLAT-NEXT: v_perm_b32 v4, 0, v3, s0
	; FLAT-NEXT: v_perm_b32 v2, 0, v2, s0			; FLAT-NEXT: v_perm_b32 v2, 0, v2, s0
	; FLAT-NEXT: v_perm_b32 v8, 0, v1, s0			; FLAT-NEXT: v_perm_b32 v8, 0, v1, s0
	; FLAT-NEXT: v_and_b32_e32 v1, s1, v2			; FLAT-NEXT: v_and_b32_e32 v1, s1, v2
	; FLAT-NEXT: v_and_b32_e32 v0, s1, v4			; FLAT-NEXT: v_and_b32_e32 v0, s1, v4
	; FLAT-NEXT: v_and_b32_e32 v3, s2, v2			; FLAT-NEXT: v_and_b32_e32 v3, s2, v2
	; FLAT-NEXT: v_and_b32_e32 v2, s2, v4			; FLAT-NEXT: v_and_b32_e32 v2, s2, v4
	▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

	Show All 31 Lines
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s0, s4			; VI-NEXT: s_mov_b32 s0, s4
	; VI-NEXT: s_mov_b32 s1, s5			; VI-NEXT: s_mov_b32 s1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
	%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4			%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
	store <4 x i8> %val, <4 x i8> addrspace(1)* %out, align 4			store <4 x i8> %val, <4 x i8> addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	Show All 34 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s0, s4			; VI-NEXT: s_mov_b32 s0, s4
	; VI-NEXT: s_mov_b32 s1, s5			; VI-NEXT: s_mov_b32 s1, s5
	; VI-NEXT: s_mov_b32 s11, s3			; VI-NEXT: s_mov_b32 s11, s3
	; VI-NEXT: s_mov_b32 s8, s6			; VI-NEXT: s_mov_b32 s8, s6
	; VI-NEXT: s_mov_b32 s9, s7			; VI-NEXT: s_mov_b32 s9, s7
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: buffer_store_dword v0, off, s[8:11], 0			; VI-NEXT: buffer_store_dword v0, off, s[8:11], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
	%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4			%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
	store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4			store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4
	store <4 x i8> %val, <4 x i8> addrspace(1)* %out1, align 4			store <4 x i8> %val, <4 x i8> addrspace(1)* %out1, align 4
	Show All 40 Lines
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s8, s0			; VI-NEXT: s_mov_b32 s8, s0
	; VI-NEXT: s_mov_b32 s9, s1			; VI-NEXT: s_mov_b32 s9, s1
	; VI-NEXT: s_mov_b32 s15, s11			; VI-NEXT: s_mov_b32 s15, s11
	; VI-NEXT: s_mov_b32 s6, s10			; VI-NEXT: s_mov_b32 s6, s10
	; VI-NEXT: s_mov_b32 s7, s11			; VI-NEXT: s_mov_b32 s7, s11
	; VI-NEXT: s_mov_b32 s12, s2			; VI-NEXT: s_mov_b32 s12, s2
	; VI-NEXT: s_mov_b32 s13, s3			; VI-NEXT: s_mov_b32 s13, s3
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: buffer_store_dword v0, off, s[8:11], 0			; VI-NEXT: buffer_store_dword v0, off, s[8:11], 0
	; VI-NEXT: buffer_store_dword v0, off, s[12:15], 0			; VI-NEXT: buffer_store_dword v0, off, s[12:15], 0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
	%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4			%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
	store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4			store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4
	▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_mov_b32 s0, s4			; VI-NEXT: s_mov_b32 s0, s4
	; VI-NEXT: s_mov_b32 s1, s5			; VI-NEXT: s_mov_b32 s1, s5
	; VI-NEXT: s_mov_b32 s10, s2			; VI-NEXT: s_mov_b32 s10, s2
	; VI-NEXT: s_mov_b32 s11, s3			; VI-NEXT: s_mov_b32 s11, s3
	; VI-NEXT: s_mov_b32 s8, s6			; VI-NEXT: s_mov_b32 s8, s6
	; VI-NEXT: s_mov_b32 s9, s7			; VI-NEXT: s_mov_b32 s9, s7
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; VI-NEXT: v_and_b32_e32 v4, s12, v1			; VI-NEXT: v_and_b32_e32 v4, s12, v1
	; VI-NEXT: v_add_u16_e32 v1, 9, v1			; VI-NEXT: v_add_u16_e32 v1, 9, v1
	; VI-NEXT: v_add_u16_e32 v3, 9, v0			; VI-NEXT: v_add_u16_e32 v3, 9, v0
	; VI-NEXT: v_and_b32_e32 v1, s13, v1			; VI-NEXT: v_and_b32_e32 v1, s13, v1
	; VI-NEXT: v_or_b32_e32 v1, v4, v1			; VI-NEXT: v_or_b32_e32 v1, v4, v1
	; VI-NEXT: v_and_b32_e32 v2, s12, v0			; VI-NEXT: v_and_b32_e32 v2, s12, v0
	; VI-NEXT: v_and_b32_e32 v3, s13, v3			; VI-NEXT: v_and_b32_e32 v3, s13, v3
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_mov_b32 s14, s10			; VI-NEXT: s_mov_b32 s14, s10
	; VI-NEXT: s_mov_b32 s15, s11			; VI-NEXT: s_mov_b32 s15, s11
	; VI-NEXT: s_mov_b32 s8, s0			; VI-NEXT: s_mov_b32 s8, s0
	; VI-NEXT: s_mov_b32 s9, s1			; VI-NEXT: s_mov_b32 s9, s1
	; VI-NEXT: s_mov_b32 s12, s2			; VI-NEXT: s_mov_b32 s12, s2
	; VI-NEXT: s_mov_b32 s13, s3			; VI-NEXT: s_mov_b32 s13, s3
	; VI-NEXT: s_mov_b32 s6, s10			; VI-NEXT: s_mov_b32 s6, s10
	; VI-NEXT: s_mov_b32 s7, s11			; VI-NEXT: s_mov_b32 s7, s11
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; VI-NEXT: v_and_b32_e32 v4, s16, v1			; VI-NEXT: v_and_b32_e32 v4, s16, v1
	; VI-NEXT: v_add_u16_e32 v1, 9, v1			; VI-NEXT: v_add_u16_e32 v1, 9, v1
	; VI-NEXT: v_add_u16_e32 v3, 9, v0			; VI-NEXT: v_add_u16_e32 v3, 9, v0
	; VI-NEXT: v_and_b32_e32 v1, s17, v1			; VI-NEXT: v_and_b32_e32 v1, s17, v1
	; VI-NEXT: v_or_b32_e32 v1, v4, v1			; VI-NEXT: v_or_b32_e32 v1, v4, v1
	; VI-NEXT: v_and_b32_e32 v2, s16, v0			; VI-NEXT: v_and_b32_e32 v2, s16, v0
	; VI-NEXT: v_and_b32_e32 v3, s17, v3			; VI-NEXT: v_and_b32_e32 v3, s17, v3
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; VI-NEXT: buffer_store_short v0, off, s[0:3], 0			; VI-NEXT: buffer_store_short v0, off, s[0:3], 0
	; VI-NEXT: buffer_store_byte v1, off, s[0:3], 0 offset:2			; VI-NEXT: buffer_store_byte v1, off, s[0:3], 0 offset:2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <3 x i8>, <3 x i8> addrspace(1)* %in, i32 %tid.x			%gep = getelementptr <3 x i8>, <3 x i8> addrspace(1)* %in, i32 %tid.x
	%val = load <3 x i8>, <3 x i8> addrspace(1)* %gep, align 4			%val = load <3 x i8>, <3 x i8> addrspace(1)* %gep, align 4
	store <3 x i8> %val, <3 x i8> addrspace(1)* %out, align 4			store <3 x i8> %val, <3 x i8> addrspace(1)* %out, align 4
	▲ Show 20 Lines • Show All 186 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ctlz.ll

	Show First 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v1, v0			; VI-NEXT: v_ffbh_u32_e32 v1, v0
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_ctlz_i32:			; EG-LABEL: v_ctlz_i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v2, v1			; VI-NEXT: v_ffbh_u32_e32 v2, v1
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	; VI-NEXT: v_cndmask_b32_e32 v1, 32, v2, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, 32, v2, vcc
	; VI-NEXT: v_ffbh_u32_e32 v3, v0			; VI-NEXT: v_ffbh_u32_e32 v3, v0
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, 32, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, 32, v3, vcc
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 4, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 4, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v4, v3			; VI-NEXT: v_ffbh_u32_e32 v4, v3
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
	; VI-NEXT: v_cndmask_b32_e32 v3, 32, v4, vcc			; VI-NEXT: v_cndmask_b32_e32 v3, 32, v4, vcc
	; VI-NEXT: v_ffbh_u32_e32 v5, v2			; VI-NEXT: v_ffbh_u32_e32 v5, v2
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; VI-NEXT: v_cndmask_b32_e32 v2, 32, v5, vcc			; VI-NEXT: v_cndmask_b32_e32 v2, 32, v5, vcc
	; VI-NEXT: v_ffbh_u32_e32 v6, v1			; VI-NEXT: v_ffbh_u32_e32 v6, v1
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	▲ Show 20 Lines • Show All 275 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v5, s3			; VI-NEXT: v_mov_b32_e32 v5, s3
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v3			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v3
	; VI-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v3, vcc, s2, v3			; VI-NEXT: v_add_u32_e32 v3, vcc, s2, v3
	; VI-NEXT: v_addc_u32_e32 v4, vcc, v5, v4, vcc			; VI-NEXT: v_addc_u32_e32 v4, vcc, v5, v4, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v5, v0			; VI-NEXT: v_ffbh_u32_e32 v5, v0
	; VI-NEXT: v_add_u32_e32 v5, vcc, 32, v5			; VI-NEXT: v_add_u32_e32 v5, vcc, 32, v5
	; VI-NEXT: v_ffbh_u32_e32 v6, v1			; VI-NEXT: v_ffbh_u32_e32 v6, v1
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1			; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
	; VI-NEXT: v_cndmask_b32_e32 v1, v6, v5, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v6, v5, vcc
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; VI-NEXT: v_cndmask_b32_e32 v1, 64, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, 64, v1, vcc
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v5, s3			; VI-NEXT: v_mov_b32_e32 v5, s3
	; VI-NEXT: v_mov_b32_e32 v2, s1			; VI-NEXT: v_mov_b32_e32 v2, s1
	; VI-NEXT: v_add_u32_e32 v1, vcc, s0, v1			; VI-NEXT: v_add_u32_e32 v1, vcc, s0, v1
	; VI-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc			; VI-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
	; VI-NEXT: flat_load_dwordx2 v[1:2], v[1:2]			; VI-NEXT: flat_load_dwordx2 v[1:2], v[1:2]
	; VI-NEXT: v_add_u32_e32 v3, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v3, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v4, vcc, v5, v4, vcc			; VI-NEXT: v_addc_u32_e32 v4, vcc, v5, v4, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v0, v1			; VI-NEXT: v_ffbh_u32_e32 v0, v1
	; VI-NEXT: v_add_u32_e32 v0, vcc, 32, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, 32, v0
	; VI-NEXT: v_ffbh_u32_e32 v5, v2			; VI-NEXT: v_ffbh_u32_e32 v5, v2
	; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; VI-NEXT: v_or_b32_e32 v1, v1, v2			; VI-NEXT: v_or_b32_e32 v1, v1, v2
	; VI-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	; VI-NEXT: v_cndmask_b32_e32 v0, 64, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, 64, v0, vcc
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v0, v0			; VI-NEXT: v_ffbh_u32_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_ctlz_i32_sel_eq_neg1:			; EG-LABEL: v_ctlz_i32_sel_eq_neg1:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v0, v0			; VI-NEXT: v_ffbh_u32_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_ctlz_i32_sel_ne_neg1:			; EG-LABEL: v_ctlz_i32_sel_ne_neg1:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v1, v0			; VI-NEXT: v_ffbh_u32_e32 v1, v0
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v1, v0			; VI-NEXT: v_ffbh_u32_e32 v1, v0
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v0, v0			; VI-NEXT: v_ffbh_u32_e32 v0, v0
	; VI-NEXT: buffer_store_byte v0, off, s[4:7], 0			; VI-NEXT: buffer_store_byte v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_ctlz_i8_sel_eq_neg1:			; EG-LABEL: v_ctlz_i8_sel_eq_neg1:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ffbh_u32_e32 v0, v0			; VI-NEXT: v_ffbh_u32_e32 v0, v0
	; VI-NEXT: v_and_b32_e32 v0, 0x7f, v0			; VI-NEXT: v_and_b32_e32 v0, 0x7f, v0
	; VI-NEXT: buffer_store_byte v0, off, s[4:7], 0			; VI-NEXT: buffer_store_byte v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_ctlz_i7_sel_eq_neg1:			; EG-LABEL: v_ctlz_i7_sel_eq_neg1:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	Show All 32 Lines

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 403 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid			%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid
	%load = load i8, i8 addrspace(1)* %gep, align 1			%load = load i8, i8 addrspace(1)* %gep, align 1
	%cvt = uitofp i8 %load to float			%cvt = uitofp i8 %load to float
	store float %cvt, float addrspace(1)* %out, align 4			store float %cvt, float addrspace(1)* %out, align 4
	Show All 26 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0			; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x i8>, <2 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <2 x i8>, <2 x i8> addrspace(1)* %in, i32 %tid
	%load = load <2 x i8>, <2 x i8> addrspace(1)* %gep, align 2			%load = load <2 x i8>, <2 x i8> addrspace(1)* %gep, align 2
	%cvt = uitofp <2 x i8> %load to <2 x float>			%cvt = uitofp <2 x i8> %load to <2 x float>
	Show All 29 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0			; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dwordx3 v[0:2], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx3 v[0:2], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <3 x i8>, <3 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <3 x i8>, <3 x i8> addrspace(1)* %in, i32 %tid
	%load = load <3 x i8>, <3 x i8> addrspace(1)* %gep, align 4			%load = load <3 x i8>, <3 x i8> addrspace(1)* %gep, align 4
	Show All 30 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0			; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v4, v[4:5]			; VI-NEXT: flat_load_ubyte v4, v[4:5]
	; VI-NEXT: flat_load_ubyte v5, v[6:7]			; VI-NEXT: flat_load_ubyte v5, v[6:7]
	; VI-NEXT: flat_load_ubyte v6, v[2:3]			; VI-NEXT: flat_load_ubyte v6, v[2:3]
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)			; VI-NEXT: s_waitcnt vmcnt(3)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v4			; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v4
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v3, v5			; VI-NEXT: v_cvt_f32_ubyte0_e32 v3, v5
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v6			; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v6
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1			%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1
	%cvt = uitofp <4 x i8> %load to <4 x float>			%cvt = uitofp <4 x i8> %load to <4 x float>
	store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16			store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: s_mov_b32 s6, s10			; VI-NEXT: s_mov_b32 s6, s10
	; VI-NEXT: s_mov_b32 s7, s11			; VI-NEXT: s_mov_b32 s7, s11
	; VI-NEXT: s_movk_i32 s0, 0x900			; VI-NEXT: s_movk_i32 s0, 0x900
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v6, 24, v4			; VI-NEXT: v_lshrrev_b32_e32 v6, 24, v4
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4			; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: v_and_b32_e32 v7, 0xffffff00, v4			; VI-NEXT: v_and_b32_e32 v7, 0xffffff00, v4
	; VI-NEXT: v_add_u16_e32 v8, 9, v4			; VI-NEXT: v_add_u16_e32 v8, 9, v4
	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v10, vcc, 1, v0			; VI-NEXT: v_add_u32_e32 v10, vcc, 1, v0
	; VI-NEXT: v_addc_u32_e32 v11, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v11, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v8, v[8:9]			; VI-NEXT: flat_load_ubyte v8, v[8:9]
	; VI-NEXT: flat_load_ubyte v9, v[10:11]			; VI-NEXT: flat_load_ubyte v9, v[10:11]
	; VI-NEXT: flat_load_ubyte v6, v[6:7]			; VI-NEXT: flat_load_ubyte v6, v[6:7]
	; VI-NEXT: flat_load_ubyte v7, v[4:5]			; VI-NEXT: flat_load_ubyte v7, v[4:5]
	; VI-NEXT: flat_load_ubyte v2, v[2:3]			; VI-NEXT: flat_load_ubyte v2, v[2:3]
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(5) lgkmcnt(5)			; VI-NEXT: s_waitcnt vmcnt(5)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v5, v8			; VI-NEXT: v_cvt_f32_ubyte2_e32 v5, v8
	; VI-NEXT: s_waitcnt vmcnt(4) lgkmcnt(4)			; VI-NEXT: s_waitcnt vmcnt(4)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v9			; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v9
	; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)			; VI-NEXT: s_waitcnt vmcnt(3)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v6			; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v6
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v7			; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v7
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; VI-NEXT: v_or_b32_sdwa v2, v2, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v2, v2, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2
	; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[4:7], 0 offset:16			; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[4:7], 0 offset:16
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid
	%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1			%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[7:8], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[7:8], v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v7			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v7
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v7			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v7
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v7			; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v7
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v7			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v7
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v7, v8			; VI-NEXT: v_cvt_f32_ubyte3_e32 v7, v8
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v6, v8			; VI-NEXT: v_cvt_f32_ubyte2_e32 v6, v8
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v5, v8			; VI-NEXT: v_cvt_f32_ubyte1_e32 v5, v8
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8			; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8
	Show All 34 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v0, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, 2, v0
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%load = load i32, i32 addrspace(1)* %gep, align 4			%load = load i32, i32 addrspace(1)* %gep, align 4
	%add = add i32 %load, 2			%add = add i32 %load, 2
	Show All 28 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%load = load i32, i32 addrspace(1)* %gep, align 4			%load = load i32, i32 addrspace(1)* %gep, align 4
	%inreg = and i32 %load, 65280			%inreg = and i32 %load, 65280
	%shr = lshr i32 %inreg, 8			%shr = lshr i32 %inreg, 8
	Show All 27 Lines
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid			%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid
	%load = load i8, i8 addrspace(1)* %gep, align 1			%load = load i8, i8 addrspace(1)* %gep, align 1
	%ext = zext i8 %load to i32			%ext = zext i8 %load to i32
	%cvt = uitofp i32 %ext to float			%cvt = uitofp i32 %ext to float
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v4, v[4:5]			; VI-NEXT: flat_load_ubyte v4, v[4:5]
	; VI-NEXT: flat_load_ubyte v5, v[6:7]			; VI-NEXT: flat_load_ubyte v5, v[6:7]
	; VI-NEXT: flat_load_ubyte v2, v[2:3]			; VI-NEXT: flat_load_ubyte v2, v[2:3]
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshlrev_b32_e32 v1, 8, v2			; VI-NEXT: v_lshlrev_b32_e32 v1, 8, v2
	; VI-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v1			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v1
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v1			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v1
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v5			; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v5
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	Show All 29 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%val = load i32, i32 addrspace(1)* %gep			%val = load i32, i32 addrspace(1)* %gep
	%and = and i32 %val, 255			%and = and i32 %val, 255
	%cvt = uitofp i32 %and to float			%cvt = uitofp i32 %and to float
	Show All 26 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%val = load i32, i32 addrspace(1)* %gep			%val = load i32, i32 addrspace(1)* %gep
	%srl = lshr i32 %val, 8			%srl = lshr i32 %val, 8
	%and = and i32 %srl, 255			%and = and i32 %srl, 255
	Show All 27 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte2_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%val = load i32, i32 addrspace(1)* %gep			%val = load i32, i32 addrspace(1)* %gep
	%srl = lshr i32 %val, 16			%srl = lshr i32 %val, 16
	%and = and i32 %srl, 255			%and = and i32 %srl, 255
	Show All 27 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte3_e32 v0, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid			%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
	%val = load i32, i32 addrspace(1)* %gep			%val = load i32, i32 addrspace(1)* %gep
	%srl = lshr i32 %val, 24			%srl = lshr i32 %val, 24
	%and = and i32 %srl, 255			%and = and i32 %srl, 255
	Show All 31 Lines
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s0, s6			; VI-NEXT: s_mov_b32 s0, s6
	; VI-NEXT: s_mov_b32 s1, s7			; VI-NEXT: s_mov_b32 s1, s7
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_e32 v0, 0x80000001, v0			; VI-NEXT: v_or_b32_e32 v0, 0x80000001, v0
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, v0
	; VI-NEXT: v_add_f32_e32 v0, v0, v1			; VI-NEXT: v_add_f32_e32 v0, v0, v1
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	bb:			bb:
	%lid = tail call i32 @llvm.amdgcn.workitem.id.x()			%lid = tail call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i32 %lid			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i32 %lid
	Show All 9 Lines

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.global.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -mattr=-unaligned-buffer-access < %s \| FileCheck -check-prefixes=GCN,GFX7-ALIGNED %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -mattr=-unaligned-buffer-access < %s \| FileCheck -check-prefixes=GCN,GFX7-ALIGNED %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -mattr=+unaligned-buffer-access < %s \| FileCheck -check-prefixes=GCN,GFX7-UNALIGNED %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -mattr=+unaligned-buffer-access < %s \| FileCheck -check-prefixes=GCN,GFX7-UNALIGNED %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -mattr=+unaligned-buffer-access < %s \| FileCheck -check-prefixes=GCN,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -mattr=+unaligned-buffer-access < %s \| FileCheck -check-prefixes=GCN,GFX9 %s

	; Should not merge this to a dword load			; Should not merge this to a dword load
	define i32 @global_load_2xi16_align2(i16 addrspace(1)* %p) #0 {			define i32 @global_load_2xi16_align2(i16 addrspace(1)* %p) #0 {
	; GFX7-ALIGNED-LABEL: global_load_2xi16_align2:			; GFX7-ALIGNED-LABEL: global_load_2xi16_align2:
	; GFX7-ALIGNED: ; %bb.0:			; GFX7-ALIGNED: ; %bb.0:
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v0
	; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX7-ALIGNED-NEXT: flat_load_ushort v0, v[0:1]			; GFX7-ALIGNED-NEXT: flat_load_ushort v0, v[0:1]
	; GFX7-ALIGNED-NEXT: flat_load_ushort v1, v[2:3]			; GFX7-ALIGNED-NEXT: flat_load_ushort v1, v[2:3]
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-UNALIGNED-LABEL: global_load_2xi16_align2:			; GFX7-UNALIGNED-LABEL: global_load_2xi16_align2:
	; GFX7-UNALIGNED: ; %bb.0:			; GFX7-UNALIGNED: ; %bb.0:
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-UNALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX7-UNALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v0
	; GFX7-UNALIGNED-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX7-UNALIGNED-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX7-UNALIGNED-NEXT: flat_load_ushort v0, v[0:1]			; GFX7-UNALIGNED-NEXT: flat_load_ushort v0, v[0:1]
	; GFX7-UNALIGNED-NEXT: flat_load_ushort v1, v[2:3]			; GFX7-UNALIGNED-NEXT: flat_load_ushort v1, v[2:3]
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-UNALIGNED-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-UNALIGNED-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-UNALIGNED-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: global_load_2xi16_align2:			; GFX9-LABEL: global_load_2xi16_align2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_ushort v2, v[0:1], off			; GFX9-NEXT: global_load_ushort v2, v[0:1], off
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v4, vcc, 1, v0
	; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v6, vcc, 3, v0			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v6, vcc, 3, v0
	; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v0, v[0:1]			; GFX7-ALIGNED-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v1, v[6:7]			; GFX7-ALIGNED-NEXT: flat_load_ubyte v1, v[6:7]
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v4, v[4:5]			; GFX7-ALIGNED-NEXT: flat_load_ubyte v4, v[4:5]
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v2, v[2:3]			; GFX7-ALIGNED-NEXT: flat_load_ubyte v2, v[2:3]
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(2)
	; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(1)
	; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v3, 8, v4			; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v3, 8, v4
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-ALIGNED-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-ALIGNED-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v3, v0			; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-UNALIGNED-LABEL: global_load_2xi16_align1:			; GFX7-UNALIGNED-LABEL: global_load_2xi16_align1:
	; GFX7-UNALIGNED: ; %bb.0:			; GFX7-UNALIGNED: ; %bb.0:
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]			; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: global_load_2xi16_align1:			; GFX9-LABEL: global_load_2xi16_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, 0xffff			; GFX9-NEXT: s_mov_b32 s4, 0xffff
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: flat_load_dword v0, v[0:1]			; GFX7-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-ALIGNED-LABEL: global_load_2xi16_align4:			; GFX7-ALIGNED-LABEL: global_load_2xi16_align4:
	; GFX7-ALIGNED: ; %bb.0:			; GFX7-ALIGNED: ; %bb.0:
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-ALIGNED-NEXT: flat_load_dword v0, v[0:1]			; GFX7-ALIGNED-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-UNALIGNED-LABEL: global_load_2xi16_align4:			; GFX7-UNALIGNED-LABEL: global_load_2xi16_align4:
	; GFX7-UNALIGNED: ; %bb.0:			; GFX7-UNALIGNED: ; %bb.0:
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]			; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: global_load_2xi16_align4:			; GFX9-LABEL: global_load_2xi16_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, 0xffff			; GFX9-NEXT: s_mov_b32 s4, 0xffff
	▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fmax_legacy.f64.ll

	Show All 31 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_nlt_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_nlt_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_ge_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_ge_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_nle_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_nle_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_gt_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_gt_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/fmin_legacy.f64.ll

	Show All 29 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_nlt_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_nlt_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_nle_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_nle_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_ngt_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_ngt_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_nge_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_nge_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_ge_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_ge_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_gt_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_gt_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_le_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_le_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 35 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cmp_lt_f64_e32 vcc, v[0:1], v[2:3]			; VI-NEXT: v_cmp_lt_f64_e32 vcc, v[0:1], v[2:3]
	; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid			%gep.0 = getelementptr double, double addrspace(1)* %in, i32 %tid
	%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1			%gep.1 = getelementptr double, double addrspace(1)* %gep.0, i32 1
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/frem.ll

	Show First 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: flat_load_ushort v4, v[2:3]			; VI-NEXT: flat_load_ushort v4, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: flat_load_ushort v2, v[2:3]			; VI-NEXT: flat_load_ushort v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_cvt_f32_f16_e32 v3, v4			; VI-NEXT: v_cvt_f32_f16_e32 v3, v4
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_f16_e32 v5, v2			; VI-NEXT: v_cvt_f32_f16_e32 v5, v2
	; VI-NEXT: v_rcp_f32_e32 v5, v5			; VI-NEXT: v_rcp_f32_e32 v5, v5
	; VI-NEXT: v_mul_f32_e32 v3, v3, v5			; VI-NEXT: v_mul_f32_e32 v3, v3, v5
	; VI-NEXT: v_cvt_f16_f32_e32 v3, v3			; VI-NEXT: v_cvt_f16_f32_e32 v3, v3
	; VI-NEXT: v_div_fixup_f16 v3, v3, v2, v4			; VI-NEXT: v_div_fixup_f16 v3, v3, v2, v4
	; VI-NEXT: v_trunc_f16_e32 v3, v3			; VI-NEXT: v_trunc_f16_e32 v3, v3
	; VI-NEXT: v_fma_f16 v2, -v3, v2, v4			; VI-NEXT: v_fma_f16 v2, -v3, v2, v4
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: flat_load_ushort v4, v[2:3]			; VI-NEXT: flat_load_ushort v4, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: flat_load_ushort v2, v[2:3]			; VI-NEXT: flat_load_ushort v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_rcp_f16_e32 v3, v2			; VI-NEXT: v_rcp_f16_e32 v3, v2
	; VI-NEXT: v_mul_f16_e32 v3, v4, v3			; VI-NEXT: v_mul_f16_e32 v3, v4, v3
	; VI-NEXT: v_trunc_f16_e32 v3, v3			; VI-NEXT: v_trunc_f16_e32 v3, v3
	; VI-NEXT: v_fma_f16 v2, -v3, v2, v4			; VI-NEXT: v_fma_f16 v2, -v3, v2, v4
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	half addrspace(1)* %in2) #0 {			half addrspace(1)* %in2) #0 {
	%gep2 = getelementptr half, half addrspace(1)* %in2, i32 4			%gep2 = getelementptr half, half addrspace(1)* %in2, i32 4
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: flat_load_ushort v4, v[2:3]			; VI-NEXT: flat_load_ushort v4, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: flat_load_ushort v2, v[2:3]			; VI-NEXT: flat_load_ushort v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_rcp_f16_e32 v3, v2			; VI-NEXT: v_rcp_f16_e32 v3, v2
	; VI-NEXT: v_mul_f16_e32 v3, v4, v3			; VI-NEXT: v_mul_f16_e32 v3, v4, v3
	; VI-NEXT: v_trunc_f16_e32 v3, v3			; VI-NEXT: v_trunc_f16_e32 v3, v3
	; VI-NEXT: v_fma_f16 v2, -v3, v2, v4			; VI-NEXT: v_fma_f16 v2, -v3, v2, v4
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	half addrspace(1)* %in2) #1 {			half addrspace(1)* %in2) #1 {
	%gep2 = getelementptr half, half addrspace(1)* %in2, i32 4			%gep2 = getelementptr half, half addrspace(1)* %in2, i32 4
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: flat_load_dword v4, v[2:3]			; VI-NEXT: flat_load_dword v4, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_div_scale_f32 v5, s[0:1], v2, v2, v4			; VI-NEXT: v_div_scale_f32 v5, s[0:1], v2, v2, v4
	; VI-NEXT: v_div_scale_f32 v3, vcc, v4, v2, v4			; VI-NEXT: v_div_scale_f32 v3, vcc, v4, v2, v4
	; VI-NEXT: v_rcp_f32_e32 v6, v5			; VI-NEXT: v_rcp_f32_e32 v6, v5
	; VI-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3			; VI-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	; VI-NEXT: v_fma_f32 v7, -v5, v6, 1.0			; VI-NEXT: v_fma_f32 v7, -v5, v6, 1.0
	; VI-NEXT: v_fma_f32 v6, v7, v6, v6			; VI-NEXT: v_fma_f32 v6, v7, v6, v6
	; VI-NEXT: v_mul_f32_e32 v7, v3, v6			; VI-NEXT: v_mul_f32_e32 v7, v3, v6
	; VI-NEXT: v_fma_f32 v8, -v5, v7, v3			; VI-NEXT: v_fma_f32 v8, -v5, v7, v3
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: flat_load_dword v4, v[2:3]			; VI-NEXT: flat_load_dword v4, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_rcp_f32_e32 v3, v2			; VI-NEXT: v_rcp_f32_e32 v3, v2
	; VI-NEXT: v_mul_f32_e32 v3, v4, v3			; VI-NEXT: v_mul_f32_e32 v3, v4, v3
	; VI-NEXT: v_trunc_f32_e32 v3, v3			; VI-NEXT: v_trunc_f32_e32 v3, v3
	; VI-NEXT: v_fma_f32 v2, -v3, v2, v4			; VI-NEXT: v_fma_f32 v2, -v3, v2, v4
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	float addrspace(1)* %in2) #0 {			float addrspace(1)* %in2) #0 {
	%gep2 = getelementptr float, float addrspace(1)* %in2, i32 4			%gep2 = getelementptr float, float addrspace(1)* %in2, i32 4
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: flat_load_dword v4, v[2:3]			; VI-NEXT: flat_load_dword v4, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_rcp_f32_e32 v3, v2			; VI-NEXT: v_rcp_f32_e32 v3, v2
	; VI-NEXT: v_mul_f32_e32 v3, v4, v3			; VI-NEXT: v_mul_f32_e32 v3, v4, v3
	; VI-NEXT: v_trunc_f32_e32 v3, v3			; VI-NEXT: v_trunc_f32_e32 v3, v3
	; VI-NEXT: v_fma_f32 v2, -v3, v2, v4			; VI-NEXT: v_fma_f32 v2, -v3, v2, v4
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	float addrspace(1)* %in2) #1 {			float addrspace(1)* %in2) #1 {
	%gep2 = getelementptr float, float addrspace(1)* %in2, i32 4			%gep2 = getelementptr float, float addrspace(1)* %in2, i32 4
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v2, s6			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]			; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[2:3]			; VI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[2:3]
	; VI-NEXT: v_rcp_f64_e32 v[8:9], v[6:7]			; VI-NEXT: v_rcp_f64_e32 v[8:9], v[6:7]
	; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0			; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0
	; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]			; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
	; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0			; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0
	; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]			; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
	; VI-NEXT: v_div_scale_f64 v[10:11], vcc, v[2:3], v[4:5], v[2:3]			; VI-NEXT: v_div_scale_f64 v[10:11], vcc, v[2:3], v[4:5], v[2:3]
	; VI-NEXT: v_mul_f64 v[12:13], v[10:11], v[8:9]			; VI-NEXT: v_mul_f64 v[12:13], v[10:11], v[8:9]
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v2, s6			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]			; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[2:3]			; VI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[2:3]
	; VI-NEXT: v_rcp_f64_e32 v[8:9], v[6:7]			; VI-NEXT: v_rcp_f64_e32 v[8:9], v[6:7]
	; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0			; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0
	; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]			; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
	; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0			; VI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0
	; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]			; VI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
	; VI-NEXT: v_div_scale_f64 v[10:11], vcc, v[2:3], v[4:5], v[2:3]			; VI-NEXT: v_div_scale_f64 v[10:11], vcc, v[2:3], v[4:5], v[2:3]
	; VI-NEXT: v_mul_f64 v[12:13], v[10:11], v[8:9]			; VI-NEXT: v_mul_f64 v[12:13], v[10:11], v[8:9]
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v2, s6			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]			; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_rcp_f64_e32 v[6:7], v[4:5]			; VI-NEXT: v_rcp_f64_e32 v[6:7], v[4:5]
	; VI-NEXT: v_mul_f64 v[6:7], v[2:3], v[6:7]			; VI-NEXT: v_mul_f64 v[6:7], v[2:3], v[6:7]
	; VI-NEXT: v_trunc_f64_e32 v[6:7], v[6:7]			; VI-NEXT: v_trunc_f64_e32 v[6:7], v[6:7]
	; VI-NEXT: v_fma_f64 v[2:3], -v[6:7], v[4:5], v[2:3]			; VI-NEXT: v_fma_f64 v[2:3], -v[6:7], v[4:5], v[2:3]
	; VI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]			; VI-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	double addrspace(1)* %in2) #1 {			double addrspace(1)* %in2) #1 {
	%r0 = load double, double addrspace(1)* %in1, align 8			%r0 = load double, double addrspace(1)* %in1, align 8
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: flat_load_dword v4, v[2:3]			; VI-NEXT: flat_load_dword v4, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v4			; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v4
	; VI-NEXT: v_cvt_f32_f16_e32 v5, v3			; VI-NEXT: v_cvt_f32_f16_e32 v5, v3
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v2
	; VI-NEXT: v_cvt_f32_f16_e32 v7, v6			; VI-NEXT: v_cvt_f32_f16_e32 v7, v6
	; VI-NEXT: v_rcp_f32_e32 v7, v7			; VI-NEXT: v_rcp_f32_e32 v7, v7
	; VI-NEXT: v_mul_f32_e32 v5, v5, v7			; VI-NEXT: v_mul_f32_e32 v5, v5, v7
	; VI-NEXT: v_cvt_f16_f32_e32 v5, v5			; VI-NEXT: v_cvt_f16_f32_e32 v5, v5
	; VI-NEXT: v_div_fixup_f16 v5, v5, v6, v3			; VI-NEXT: v_div_fixup_f16 v5, v5, v6, v3
	; VI-NEXT: v_trunc_f16_e32 v5, v5			; VI-NEXT: v_trunc_f16_e32 v5, v5
	; VI-NEXT: v_fma_f16 v3, -v5, v6, v3			; VI-NEXT: v_fma_f16 v3, -v5, v6, v3
	▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]			; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshrrev_b32_e32 v8, 16, v5			; VI-NEXT: v_lshrrev_b32_e32 v8, 16, v5
	; VI-NEXT: v_cvt_f32_f16_e32 v9, v8			; VI-NEXT: v_cvt_f32_f16_e32 v9, v8
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v3			; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v3
	; VI-NEXT: v_cvt_f32_f16_e32 v7, v6			; VI-NEXT: v_cvt_f32_f16_e32 v7, v6
	; VI-NEXT: v_rcp_f32_e32 v9, v9			; VI-NEXT: v_rcp_f32_e32 v9, v9
	; VI-NEXT: v_mul_f32_e32 v7, v7, v9			; VI-NEXT: v_mul_f32_e32 v7, v7, v9
	; VI-NEXT: v_cvt_f16_f32_e32 v7, v7			; VI-NEXT: v_cvt_f16_f32_e32 v7, v7
	; VI-NEXT: v_div_fixup_f16 v7, v7, v8, v6			; VI-NEXT: v_div_fixup_f16 v7, v7, v8, v6
	; VI-NEXT: v_trunc_f16_e32 v7, v7			; VI-NEXT: v_trunc_f16_e32 v7, v7
	; VI-NEXT: v_fma_f16 v6, -v7, v8, v6			; VI-NEXT: v_fma_f16 v6, -v7, v8, v6
	▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]			; VI-NEXT: flat_load_dwordx2 v[4:5], v[4:5]
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_div_scale_f32 v7, s[0:1], v5, v5, v3			; VI-NEXT: v_div_scale_f32 v7, s[0:1], v5, v5, v3
	; VI-NEXT: v_div_scale_f32 v6, vcc, v3, v5, v3			; VI-NEXT: v_div_scale_f32 v6, vcc, v3, v5, v3
	; VI-NEXT: v_rcp_f32_e32 v8, v7			; VI-NEXT: v_rcp_f32_e32 v8, v7
	; VI-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 4, 2), s2			; VI-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 4, 2), s2
	; VI-NEXT: v_fma_f32 v9, -v7, v8, 1.0			; VI-NEXT: v_fma_f32 v9, -v7, v8, 1.0
	; VI-NEXT: v_fma_f32 v8, v9, v8, v8			; VI-NEXT: v_fma_f32 v8, v9, v8, v8
	; VI-NEXT: v_mul_f32_e32 v9, v6, v8			; VI-NEXT: v_mul_f32_e32 v9, v6, v8
	; VI-NEXT: v_fma_f32 v10, -v7, v9, v6			; VI-NEXT: v_fma_f32 v10, -v7, v9, v6
	▲ Show 20 Lines • Show All 209 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]			; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]
	; VI-NEXT: v_mov_b32_e32 v8, s4			; VI-NEXT: v_mov_b32_e32 v8, s4
	; VI-NEXT: v_mov_b32_e32 v9, s5			; VI-NEXT: v_mov_b32_e32 v9, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_div_scale_f32 v11, s[0:1], v7, v7, v3			; VI-NEXT: v_div_scale_f32 v11, s[0:1], v7, v7, v3
	; VI-NEXT: v_div_scale_f32 v10, vcc, v3, v7, v3			; VI-NEXT: v_div_scale_f32 v10, vcc, v3, v7, v3
	; VI-NEXT: v_rcp_f32_e32 v12, v11			; VI-NEXT: v_rcp_f32_e32 v12, v11
	; VI-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 4, 2), s2			; VI-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 4, 2), s2
	; VI-NEXT: v_fma_f32 v13, -v11, v12, 1.0			; VI-NEXT: v_fma_f32 v13, -v11, v12, 1.0
	; VI-NEXT: v_fma_f32 v12, v13, v12, v12			; VI-NEXT: v_fma_f32 v12, v13, v12, v12
	; VI-NEXT: v_mul_f32_e32 v13, v10, v12			; VI-NEXT: v_mul_f32_e32 v13, v10, v12
	; VI-NEXT: v_fma_f32 v14, -v11, v13, v10			; VI-NEXT: v_fma_f32 v14, -v11, v13, v10
	▲ Show 20 Lines • Show All 206 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_addc_u32 s1, s1, 0			; VI-NEXT: s_addc_u32 s1, s1, 0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]			; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]
	; VI-NEXT: v_mov_b32_e32 v8, s4			; VI-NEXT: v_mov_b32_e32 v8, s4
	; VI-NEXT: v_mov_b32_e32 v9, s5			; VI-NEXT: v_mov_b32_e32 v9, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_div_scale_f64 v[10:11], s[0:1], v[6:7], v[6:7], v[2:3]			; VI-NEXT: v_div_scale_f64 v[10:11], s[0:1], v[6:7], v[6:7], v[2:3]
	; VI-NEXT: v_rcp_f64_e32 v[12:13], v[10:11]			; VI-NEXT: v_rcp_f64_e32 v[12:13], v[10:11]
	; VI-NEXT: v_fma_f64 v[14:15], -v[10:11], v[12:13], 1.0			; VI-NEXT: v_fma_f64 v[14:15], -v[10:11], v[12:13], 1.0
	; VI-NEXT: v_fma_f64 v[12:13], v[12:13], v[14:15], v[12:13]			; VI-NEXT: v_fma_f64 v[12:13], v[12:13], v[14:15], v[12:13]
	; VI-NEXT: v_fma_f64 v[14:15], -v[10:11], v[12:13], 1.0			; VI-NEXT: v_fma_f64 v[14:15], -v[10:11], v[12:13], 1.0
	; VI-NEXT: v_fma_f64 v[12:13], v[12:13], v[14:15], v[12:13]			; VI-NEXT: v_fma_f64 v[12:13], v[12:13], v[14:15], v[12:13]
	; VI-NEXT: v_div_scale_f64 v[14:15], vcc, v[2:3], v[6:7], v[2:3]			; VI-NEXT: v_div_scale_f64 v[14:15], vcc, v[2:3], v[6:7], v[2:3]
	; VI-NEXT: v_mul_f64 v[16:17], v[14:15], v[12:13]			; VI-NEXT: v_mul_f64 v[16:17], v[14:15], v[12:13]
	Show All 33 Lines

llvm/test/CodeGen/AMDGPU/idot2.ll

	Show First 20 Lines • Show All 2,725 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_mov_b32_e32 v2, s6			; GFX8-NEXT: v_mov_b32_e32 v2, s6
	; GFX8-NEXT: v_mov_b32_e32 v3, s7			; GFX8-NEXT: v_mov_b32_e32 v3, s7
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: flat_load_ushort v1, v[2:3]			; GFX8-NEXT: flat_load_ushort v1, v[2:3]
	; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_bfe_i32 v2, v0, 0, 8			; GFX8-NEXT: v_bfe_i32 v2, v0, 0, 8
	; GFX8-NEXT: v_lshrrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_bfe_i32 v3, v1, 0, 8			; GFX8-NEXT: v_bfe_i32 v3, v1, 0, 8
	; GFX8-NEXT: v_lshrrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: v_bfe_i32 v0, v0, 0, 8			; GFX8-NEXT: v_bfe_i32 v0, v0, 0, 8
	; GFX8-NEXT: v_bfe_i32 v1, v1, 0, 8			; GFX8-NEXT: v_bfe_i32 v1, v1, 0, 8
				; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_i32_i24 v0, v1, v0, s2			; GFX8-NEXT: v_mad_i32_i24 v0, v1, v0, s2
	; GFX8-NEXT: v_mad_i32_i24 v2, v3, v2, v0			; GFX8-NEXT: v_mad_i32_i24 v2, v3, v2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: notsdot2_sext8:			; GFX9-NODL-LABEL: notsdot2_sext8:
	▲ Show 20 Lines • Show All 108 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/imm16.ll

	Show First 20 Lines • Show All 1,407 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: mul_inline_imm_0.5_i16:			; VI-LABEL: mul_inline_imm_0.5_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: v_mul_lo_u16_e32 v2, 0x3800, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0x38,0x00,0x00]			; VI-NEXT: v_mul_lo_u16_e32 v2, 0x3800, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0x38,0x00,0x00]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: mul_inline_imm_0.5_i16:			; SI-LABEL: mul_inline_imm_0.5_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 19 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: mul_inline_imm_neg_0.5_i16:			; VI-LABEL: mul_inline_imm_neg_0.5_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: v_mul_lo_u16_e32 v2, 0xb800, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0xb8,0xff,0xff]			; VI-NEXT: v_mul_lo_u16_e32 v2, 0xb800, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0xb8,0xff,0xff]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: mul_inline_imm_neg_0.5_i16:			; SI-LABEL: mul_inline_imm_neg_0.5_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 19 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: mul_inline_imm_1.0_i16:			; VI-LABEL: mul_inline_imm_1.0_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: v_mul_lo_u16_e32 v2, 0x3c00, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0x3c,0x00,0x00]			; VI-NEXT: v_mul_lo_u16_e32 v2, 0x3c00, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0x3c,0x00,0x00]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: mul_inline_imm_1.0_i16:			; SI-LABEL: mul_inline_imm_1.0_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 19 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: mul_inline_imm_neg_1.0_i16:			; VI-LABEL: mul_inline_imm_neg_1.0_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: v_mul_lo_u16_e32 v2, 0xbc00, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0xbc,0xff,0xff]			; VI-NEXT: v_mul_lo_u16_e32 v2, 0xbc00, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0xbc,0xff,0xff]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: mul_inline_imm_neg_1.0_i16:			; SI-LABEL: mul_inline_imm_neg_1.0_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 20 Lines
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: shl_inline_imm_2.0_i16:			; VI-LABEL: shl_inline_imm_2.0_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: s_movk_i32 s4, 0x4000 ; encoding: [0x00,0x40,0x04,0xb0]			; VI-NEXT: s_movk_i32 s4, 0x4000 ; encoding: [0x00,0x40,0x04,0xb0]
	; VI-NEXT: v_lshlrev_b16_e64 v2, v2, s4 ; encoding: [0x02,0x00,0x2a,0xd1,0x02,0x09,0x00,0x00]			; VI-NEXT: v_lshlrev_b16_e64 v2, v2, s4 ; encoding: [0x02,0x00,0x2a,0xd1,0x02,0x09,0x00,0x00]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: shl_inline_imm_2.0_i16:			; SI-LABEL: shl_inline_imm_2.0_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 20 Lines
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: shl_inline_imm_neg_2.0_i16:			; VI-LABEL: shl_inline_imm_neg_2.0_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: s_movk_i32 s4, 0xc000 ; encoding: [0x00,0xc0,0x04,0xb0]			; VI-NEXT: s_movk_i32 s4, 0xc000 ; encoding: [0x00,0xc0,0x04,0xb0]
	; VI-NEXT: v_lshlrev_b16_e64 v2, v2, s4 ; encoding: [0x02,0x00,0x2a,0xd1,0x02,0x09,0x00,0x00]			; VI-NEXT: v_lshlrev_b16_e64 v2, v2, s4 ; encoding: [0x02,0x00,0x2a,0xd1,0x02,0x09,0x00,0x00]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: shl_inline_imm_neg_2.0_i16:			; SI-LABEL: shl_inline_imm_neg_2.0_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 19 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: mul_inline_imm_4.0_i16:			; VI-LABEL: mul_inline_imm_4.0_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: v_mul_lo_u16_e32 v2, 0x4400, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0x44,0x00,0x00]			; VI-NEXT: v_mul_lo_u16_e32 v2, 0x4400, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0x44,0x00,0x00]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: mul_inline_imm_4.0_i16:			; SI-LABEL: mul_inline_imm_4.0_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 19 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: mul_inline_imm_neg_4.0_i16:			; VI-LABEL: mul_inline_imm_neg_4.0_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: v_mul_lo_u16_e32 v2, 0xc400, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0xc4,0xff,0xff]			; VI-NEXT: v_mul_lo_u16_e32 v2, 0xc400, v2 ; encoding: [0xff,0x04,0x04,0x52,0x00,0xc4,0xff,0xff]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: mul_inline_imm_neg_4.0_i16:			; SI-LABEL: mul_inline_imm_neg_4.0_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 19 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]			; GFX10-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x20,0x80,0xbe]
	;			;
	; VI-LABEL: mul_inline_imm_inv2pi_i16:			; VI-LABEL: mul_inline_imm_inv2pi_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0) ; encoding: [0x00,0x00,0x8c,0xbf]
	; VI-NEXT: v_mul_lo_u16_e32 v2, 0x3118, v2 ; encoding: [0xff,0x04,0x04,0x52,0x18,0x31,0x00,0x00]			; VI-NEXT: v_mul_lo_u16_e32 v2, 0x3118, v2 ; encoding: [0xff,0x04,0x04,0x52,0x18,0x31,0x00,0x00]
	; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]			; VI-NEXT: flat_store_short v[0:1], v2 ; encoding: [0x00,0x00,0x68,0xdc,0x00,0x02,0x00,0x00]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0) ; encoding: [0x70,0x00,0x8c,0xbf]			; VI-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x0f,0x8c,0xbf]
	; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]			; VI-NEXT: s_setpc_b64 s[30:31] ; encoding: [0x1e,0x1d,0x80,0xbe]
	;			;
	; SI-LABEL: mul_inline_imm_inv2pi_i16:			; SI-LABEL: mul_inline_imm_inv2pi_i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	Show All 10 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

	Show First 20 Lines • Show All 529 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; VI-NEXT: v_or_b32_e32 v0, 0x3e7, v0			; VI-NEXT: v_or_b32_e32 v0, 0x3e7, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_0:			; CI-LABEL: v_insertelement_v2i16_0:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; CI-NEXT: v_or_b32_e32 v0, 0x3e7, v0			; CI-NEXT: v_or_b32_e32 v0, 0x3e7, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	Show All 27 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: s_lshr_b32 s0, s4, 16			; VI-NEXT: s_lshr_b32 s0, s4, 16
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; VI-NEXT: v_or_b32_e32 v0, s0, v0			; VI-NEXT: v_or_b32_e32 v0, s0, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_0_reghi:			; CI-LABEL: v_insertelement_v2i16_0_reghi:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v3, v[0:1]			; CI-NEXT: flat_load_dword v3, v[0:1]
	; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v2
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: s_lshr_b32 s0, s4, 16			; CI-NEXT: s_lshr_b32 s0, s4, 16
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3			; CI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3
	; CI-NEXT: v_or_b32_e32 v2, s0, v2			; CI-NEXT: v_or_b32_e32 v2, s0, v2
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	Show All 25 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; VI-NEXT: v_or_b32_e32 v0, 53, v0			; VI-NEXT: v_or_b32_e32 v0, 53, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_0_inlineimm:			; CI-LABEL: v_insertelement_v2i16_0_inlineimm:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; CI-NEXT: v_or_b32_e32 v0, 53, v0			; CI-NEXT: v_or_b32_e32 v0, 53, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	Show All 26 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0x3e70000			; VI-NEXT: v_mov_b32_e32 v1, 0x3e70000
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_1:			; CI-LABEL: v_insertelement_v2i16_1:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; CI-NEXT: v_or_b32_e32 v0, 0x3e70000, v0			; CI-NEXT: v_or_b32_e32 v0, 0x3e70000, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	Show All 24 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0xfff10000			; VI-NEXT: v_mov_b32_e32 v1, 0xfff10000
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_1_inlineimm:			; CI-LABEL: v_insertelement_v2i16_1_inlineimm:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; CI-NEXT: v_or_b32_e32 v0, 0xfff10000, v0			; CI-NEXT: v_or_b32_e32 v0, 0xfff10000, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	Show All 24 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; VI-NEXT: v_or_b32_e32 v0, 0x4500, v0			; VI-NEXT: v_or_b32_e32 v0, 0x4500, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2f16_0:			; CI-LABEL: v_insertelement_v2f16_0:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; CI-NEXT: v_or_b32_e32 v0, 0x4500, v0			; CI-NEXT: v_or_b32_e32 v0, 0x4500, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
	Show All 23 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; VI-NEXT: v_or_b32_e32 v0, 53, v0			; VI-NEXT: v_or_b32_e32 v0, 53, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2f16_0_inlineimm:			; CI-LABEL: v_insertelement_v2f16_0_inlineimm:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; CI-NEXT: v_or_b32_e32 v0, 53, v0			; CI-NEXT: v_or_b32_e32 v0, 53, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
	Show All 25 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0x45000000			; VI-NEXT: v_mov_b32_e32 v1, 0x45000000
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2f16_1:			; CI-LABEL: v_insertelement_v2f16_1:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; CI-NEXT: v_or_b32_e32 v0, 0x45000000, v0			; CI-NEXT: v_or_b32_e32 v0, 0x45000000, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
	Show All 24 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0x230000			; VI-NEXT: v_mov_b32_e32 v1, 0x230000
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2f16_1_inlineimm:			; CI-LABEL: v_insertelement_v2f16_1_inlineimm:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; CI-NEXT: v_or_b32_e32 v0, 0x230000, v0			; CI-NEXT: v_or_b32_e32 v0, 0x230000, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: s_lshl_b32 s0, s4, 4			; VI-NEXT: s_lshl_b32 s0, s4, 4
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: s_lshl_b32 s0, 0xffff, s0			; VI-NEXT: s_lshl_b32 s0, 0xffff, s0
	; VI-NEXT: v_mov_b32_e32 v1, 0x3e703e7			; VI-NEXT: v_mov_b32_e32 v1, 0x3e703e7
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v0, s0, v1, v0			; VI-NEXT: v_bfi_b32 v0, s0, v1, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_dynamic_sgpr:			; CI-LABEL: v_insertelement_v2i16_dynamic_sgpr:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v0, v[0:1]			; CI-NEXT: flat_load_dword v0, v[0:1]
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: s_lshl_b32 s0, s4, 4			; CI-NEXT: s_lshl_b32 s0, s4, 4
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: s_lshl_b32 s0, 0xffff, s0			; CI-NEXT: s_lshl_b32 s0, 0xffff, s0
	; CI-NEXT: v_mov_b32_e32 v1, 0x3e703e7			; CI-NEXT: v_mov_b32_e32 v1, 0x3e703e7
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_bfi_b32 v0, s0, v1, v0			; CI-NEXT: v_bfi_b32 v0, s0, v1, v0
	; CI-NEXT: flat_store_dword v[2:3], v0			; CI-NEXT: flat_store_dword v[2:3], v0
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep			%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
	Show All 35 Lines
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_mov_b32 s2, 0xffff			; VI-NEXT: s_mov_b32 s2, 0xffff
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v4
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: s_mov_b32 s0, 0x12341234			; VI-NEXT: s_mov_b32 s0, 0x12341234
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshlrev_b32_e32 v2, 4, v2			; VI-NEXT: v_lshlrev_b32_e32 v2, 4, v2
	; VI-NEXT: v_lshlrev_b32_e64 v2, v2, s2			; VI-NEXT: v_lshlrev_b32_e64 v2, v2, s2
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v2, v2, s0, v3			; VI-NEXT: v_bfi_b32 v2, v2, s0, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2f16_dynamic_vgpr:			; CI-LABEL: v_insertelement_v2f16_dynamic_vgpr:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x4			; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v4, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v4, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v4			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v4
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: v_mov_b32_e32 v3, s5			; CI-NEXT: v_mov_b32_e32 v3, s5
	; CI-NEXT: v_add_i32_e32 v2, vcc, s4, v4			; CI-NEXT: v_add_i32_e32 v2, vcc, s4, v4
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: flat_load_dword v2, v[2:3]			; CI-NEXT: flat_load_dword v2, v[2:3]
	; CI-NEXT: flat_load_dword v3, v[0:1]			; CI-NEXT: flat_load_dword v3, v[0:1]
	; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v4			; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v4
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: s_mov_b32 s0, 0x12341234			; CI-NEXT: s_mov_b32 s0, 0x12341234
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; CI-NEXT: s_waitcnt vmcnt(1)
	; CI-NEXT: v_lshlrev_b32_e32 v2, 4, v2			; CI-NEXT: v_lshlrev_b32_e32 v2, 4, v2
	; CI-NEXT: v_lshl_b32_e32 v2, 0xffff, v2			; CI-NEXT: v_lshl_b32_e32 v2, 0xffff, v2
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_bfi_b32 v2, v2, s0, v3			; CI-NEXT: v_bfi_b32 v2, v2, s0, v3
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
	%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext			%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
	Show All 28 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: s_mov_b32 s0, 0xffff			; VI-NEXT: s_mov_b32 s0, 0xffff
	; VI-NEXT: v_mov_b32_e32 v4, s4			; VI-NEXT: v_mov_b32_e32 v4, s4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v0, s0, v4, v0			; VI-NEXT: v_bfi_b32 v0, s0, v4, v0
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4f16_0:			; CI-LABEL: v_insertelement_v4f16_0:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0xc			; CI-NEXT: s_load_dword s4, s[4:5], 0xc
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: s_mov_b32 s0, 0xffff			; CI-NEXT: s_mov_b32 s0, 0xffff
	; CI-NEXT: v_mov_b32_e32 v4, s4			; CI-NEXT: v_mov_b32_e32 v4, s4
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_bfi_b32 v0, s0, v4, v0			; CI-NEXT: v_bfi_b32 v0, s0, v4, v0
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
	%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep			%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
	Show All 28 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: s_lshl_b32 s0, s4, 16			; VI-NEXT: s_lshl_b32 s0, s4, 16
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4f16_1:			; CI-LABEL: v_insertelement_v4f16_1:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: s_lshl_b32 s0, s4, 16			; CI-NEXT: s_lshl_b32 s0, s4, 16
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; CI-NEXT: v_or_b32_e32 v0, s0, v0			; CI-NEXT: v_or_b32_e32 v0, s0, v0
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
	Show All 29 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: s_mov_b32 s0, 0xffff			; VI-NEXT: s_mov_b32 s0, 0xffff
	; VI-NEXT: v_mov_b32_e32 v4, s4			; VI-NEXT: v_mov_b32_e32 v4, s4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v1, s0, v4, v1			; VI-NEXT: v_bfi_b32 v1, s0, v4, v1
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4f16_2:			; CI-LABEL: v_insertelement_v4f16_2:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0xc			; CI-NEXT: s_load_dword s4, s[4:5], 0xc
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: s_mov_b32 s0, 0xffff			; CI-NEXT: s_mov_b32 s0, 0xffff
	; CI-NEXT: v_mov_b32_e32 v4, s4			; CI-NEXT: v_mov_b32_e32 v4, s4
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_bfi_b32 v1, s0, v4, v1			; CI-NEXT: v_bfi_b32 v1, s0, v4, v1
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
	%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep			%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
	Show All 28 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: s_lshl_b32 s0, s4, 16			; VI-NEXT: s_lshl_b32 s0, s4, 16
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4f16_3:			; CI-LABEL: v_insertelement_v4f16_3:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: s_lshl_b32 s0, s4, 16			; CI-NEXT: s_lshl_b32 s0, s4, 16
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v1, 0xffff, v1			; CI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; CI-NEXT: v_or_b32_e32 v1, s0, v1			; CI-NEXT: v_or_b32_e32 v1, s0, v1
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
	Show All 29 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: s_mov_b32 s0, 0xffff			; VI-NEXT: s_mov_b32 s0, 0xffff
	; VI-NEXT: v_mov_b32_e32 v4, s4			; VI-NEXT: v_mov_b32_e32 v4, s4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v1, s0, v4, v1			; VI-NEXT: v_bfi_b32 v1, s0, v4, v1
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4i16_2:			; CI-LABEL: v_insertelement_v4i16_2:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: s_mov_b32 s0, 0xffff			; CI-NEXT: s_mov_b32 s0, 0xffff
	; CI-NEXT: v_mov_b32_e32 v4, s4			; CI-NEXT: v_mov_b32_e32 v4, s4
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_bfi_b32 v1, s0, v4, v1			; CI-NEXT: v_bfi_b32 v1, s0, v4, v1
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext
	%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep			%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep
	Show All 40 Lines
	; VI-NEXT: s_mov_b32 s2, 0xffff			; VI-NEXT: s_mov_b32 s2, 0xffff
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: s_mov_b32 s3, 0			; VI-NEXT: s_mov_b32 s3, 0
	; VI-NEXT: s_and_b32 s1, s4, s2			; VI-NEXT: s_and_b32 s1, s4, s2
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: s_lshl_b32 s0, s1, 16			; VI-NEXT: s_lshl_b32 s0, s1, 16
	; VI-NEXT: s_or_b32 s0, s1, s0			; VI-NEXT: s_or_b32 s0, s1, s0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v4			; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v4
	; VI-NEXT: v_lshlrev_b64 v[4:5], v4, s[2:3]			; VI-NEXT: v_lshlrev_b64 v[4:5], v4, s[2:3]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v1, v5, s0, v1			; VI-NEXT: v_bfi_b32 v1, v5, s0, v1
	; VI-NEXT: v_bfi_b32 v0, v4, s0, v0			; VI-NEXT: v_bfi_b32 v0, v4, s0, v0
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4i16_dynamic_vgpr:			; CI-LABEL: v_insertelement_v4i16_dynamic_vgpr:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v4, v[0:1]			; CI-NEXT: flat_load_dword v4, v[0:1]
	; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; CI-NEXT: s_mov_b32 s2, 0xffff			; CI-NEXT: s_mov_b32 s2, 0xffff
	; CI-NEXT: s_mov_b32 s3, 0			; CI-NEXT: s_mov_b32 s3, 0
	; CI-NEXT: v_mov_b32_e32 v3, s1			; CI-NEXT: v_mov_b32_e32 v3, s1
	; CI-NEXT: s_lshl_b32 s1, s4, 16			; CI-NEXT: s_lshl_b32 s1, s4, 16
	; CI-NEXT: s_and_b32 s4, s4, s2			; CI-NEXT: s_and_b32 s4, s4, s2
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: s_or_b32 s0, s4, s1			; CI-NEXT: s_or_b32 s0, s4, s1
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; CI-NEXT: s_waitcnt vmcnt(1)
	; CI-NEXT: v_lshlrev_b32_e32 v4, 4, v4			; CI-NEXT: v_lshlrev_b32_e32 v4, 4, v4
	; CI-NEXT: v_lshl_b64 v[4:5], s[2:3], v4			; CI-NEXT: v_lshl_b64 v[4:5], s[2:3], v4
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_bfi_b32 v1, v5, s0, v1			; CI-NEXT: v_bfi_b32 v1, v5, s0, v1
	; CI-NEXT: v_bfi_b32 v0, v4, s0, v0			; CI-NEXT: v_bfi_b32 v0, v4, s0, v0
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_and_b32 s4, s4, s2			; VI-NEXT: s_and_b32 s4, s4, s2
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: s_lshl_b64 s[0:1], s[2:3], s1			; VI-NEXT: s_lshl_b64 s[0:1], s[2:3], s1
	; VI-NEXT: s_lshl_b32 s2, s4, 16			; VI-NEXT: s_lshl_b32 s2, s4, 16
	; VI-NEXT: s_or_b32 s2, s4, s2			; VI-NEXT: s_or_b32 s2, s4, s2
	; VI-NEXT: v_mov_b32_e32 v4, s2			; VI-NEXT: v_mov_b32_e32 v4, s2
	; VI-NEXT: v_mov_b32_e32 v5, s2			; VI-NEXT: v_mov_b32_e32 v5, s2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v1, s1, v4, v1			; VI-NEXT: v_bfi_b32 v1, s1, v4, v1
	; VI-NEXT: v_bfi_b32 v0, s0, v5, v0			; VI-NEXT: v_bfi_b32 v0, s0, v5, v0
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4f16_dynamic_sgpr:			; CI-LABEL: v_insertelement_v4f16_dynamic_sgpr:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	Show All 11 Lines
	; CI-NEXT: s_lshl_b32 s1, s5, 4			; CI-NEXT: s_lshl_b32 s1, s5, 4
	; CI-NEXT: s_lshl_b32 s4, s4, 16			; CI-NEXT: s_lshl_b32 s4, s4, 16
	; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
	; CI-NEXT: s_lshl_b64 s[0:1], s[2:3], s1			; CI-NEXT: s_lshl_b64 s[0:1], s[2:3], s1
	; CI-NEXT: s_or_b32 s2, s6, s4			; CI-NEXT: s_or_b32 s2, s6, s4
	; CI-NEXT: v_mov_b32_e32 v4, s2			; CI-NEXT: v_mov_b32_e32 v4, s2
	; CI-NEXT: v_mov_b32_e32 v5, s2			; CI-NEXT: v_mov_b32_e32 v5, s2
	; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_bfi_b32 v1, s1, v4, v1			; CI-NEXT: v_bfi_b32 v1, s1, v4, v1
	; CI-NEXT: v_bfi_b32 v0, s0, v5, v0			; CI-NEXT: v_bfi_b32 v0, s0, v5, v0
	; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
	Show All 12 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pkrtz.ll

	Show First 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, v0, v1			; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, v0, v1
	; VI-NEXT: flat_store_dword v[4:5], v0			; VI-NEXT: flat_store_dword v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32:			; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, v0, 1.0			; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, v0, 1.0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_reg_imm:			; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_reg_imm:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	Show All 37 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, 1.0, v0			; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, 1.0, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_imm_reg:			; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_imm_reg:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, -v0, v1			; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, -v0, v1
	; VI-NEXT: flat_store_dword v[4:5], v0			; VI-NEXT: flat_store_dword v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_lo:			; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_lo:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, v0, -v1			; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, v0, -v1
	; VI-NEXT: flat_store_dword v[4:5], v0			; VI-NEXT: flat_store_dword v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_hi:			; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_hi:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, -v0, -v1			; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, -v0, -v1
	; VI-NEXT: flat_store_dword v[4:5], v0			; VI-NEXT: flat_store_dword v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_lo_hi:			; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_lo_hi:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, -\|v0\|, -v1			; VI-NEXT: v_cvt_pkrtz_f16_f32 v0, -\|v0\|, -v1
	; VI-NEXT: flat_store_dword v[4:5], v0			; VI-NEXT: flat_store_dword v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_fabs_lo_fneg_hi:			; GFX9-LABEL: v_cvt_pkrtz_v2f16_f32_fneg_fabs_lo_fneg_hi:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	Show All 30 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.d16.dim.ll

	Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_mov_b32_e32 v4, s12			; TONGA-NEXT: v_mov_b32_e32 v4, s12
	; TONGA-NEXT: v_mov_b32_e32 v5, s13			; TONGA-NEXT: v_mov_b32_e32 v5, s13
	; TONGA-NEXT: v_mov_b32_e32 v3, v2			; TONGA-NEXT: v_mov_b32_e32 v3, v2
	; TONGA-NEXT: s_and_b64 exec, exec, s[14:15]			; TONGA-NEXT: s_and_b64 exec, exec, s[14:15]
	; TONGA-NEXT: image_sample v[2:3], v[0:1], s[0:7], s[8:11] dmask:0x1 tfe d16			; TONGA-NEXT: image_sample v[2:3], v[0:1], s[0:7], s[8:11] dmask:0x1 tfe d16
	; TONGA-NEXT: s_waitcnt vmcnt(0)			; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: v_mov_b32_e32 v0, v2			; TONGA-NEXT: v_mov_b32_e32 v0, v2
	; TONGA-NEXT: flat_store_dword v[4:5], v3			; TONGA-NEXT: flat_store_dword v[4:5], v3
	; TONGA-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: ; return to shader part epilog			; TONGA-NEXT: ; return to shader part epilog
	;			;
	; GFX81-LABEL: image_sample_2d_f16_tfe:			; GFX81-LABEL: image_sample_2d_f16_tfe:
	; GFX81: ; %bb.0: ; %main_body			; GFX81: ; %bb.0: ; %main_body
	; GFX81-NEXT: s_mov_b64 s[14:15], exec			; GFX81-NEXT: s_mov_b64 s[14:15], exec
	; GFX81-NEXT: s_wqm_b64 exec, exec			; GFX81-NEXT: s_wqm_b64 exec, exec
	; GFX81-NEXT: v_mov_b32_e32 v2, 0			; GFX81-NEXT: v_mov_b32_e32 v2, 0
	; GFX81-NEXT: v_mov_b32_e32 v4, s12			; GFX81-NEXT: v_mov_b32_e32 v4, s12
	; GFX81-NEXT: v_mov_b32_e32 v5, s13			; GFX81-NEXT: v_mov_b32_e32 v5, s13
	; GFX81-NEXT: v_mov_b32_e32 v3, v2			; GFX81-NEXT: v_mov_b32_e32 v3, v2
	; GFX81-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX81-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX81-NEXT: image_sample v[2:3], v[0:1], s[0:7], s[8:11] dmask:0x1 tfe d16			; GFX81-NEXT: image_sample v[2:3], v[0:1], s[0:7], s[8:11] dmask:0x1 tfe d16
	; GFX81-NEXT: s_waitcnt vmcnt(0)			; GFX81-NEXT: s_waitcnt vmcnt(0)
	; GFX81-NEXT: v_mov_b32_e32 v0, v2			; GFX81-NEXT: v_mov_b32_e32 v0, v2
	; GFX81-NEXT: flat_store_dword v[4:5], v3			; GFX81-NEXT: flat_store_dword v[4:5], v3
	; GFX81-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX81-NEXT: s_waitcnt vmcnt(0)
	; GFX81-NEXT: ; return to shader part epilog			; GFX81-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: image_sample_2d_f16_tfe:			; GFX9-LABEL: image_sample_2d_f16_tfe:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mov_b32_e32 v4, s12			; GFX9-NEXT: v_mov_b32_e32 v4, s12
	▲ Show 20 Lines • Show All 387 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.cos.f16.ll

	Show All 28 Lines
	; GFX8-LABEL: cos_f16:			; GFX8-LABEL: cos_f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0			; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0
	; GFX8-NEXT: v_fract_f16_e32 v0, v0			; GFX8-NEXT: v_fract_f16_e32 v0, v0
	; GFX8-NEXT: v_cos_f16_e32 v2, v0			; GFX8-NEXT: v_cos_f16_e32 v2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: flat_store_short v[0:1], v2			; GFX8-NEXT: flat_store_short v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: cos_f16:			; GFX9-LABEL: cos_f16:
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX8-LABEL: cos_v2f16:			; GFX8-LABEL: cos_v2f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0x3118			; GFX8-NEXT: v_mov_b32_e32 v1, 0x3118
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mul_f16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_mul_f16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0			; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0
	; GFX8-NEXT: v_fract_f16_e32 v1, v1			; GFX8-NEXT: v_fract_f16_e32 v1, v1
	; GFX8-NEXT: v_fract_f16_e32 v0, v0			; GFX8-NEXT: v_fract_f16_e32 v0, v0
	; GFX8-NEXT: v_cos_f16_sdwa v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD			; GFX8-NEXT: v_cos_f16_sdwa v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
	; GFX8-NEXT: v_cos_f16_e32 v3, v0			; GFX8-NEXT: v_cos_f16_e32 v3, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	Show All 31 Lines

llvm/test/CodeGen/AMDGPU/llvm.sin.f16.ll

	Show All 28 Lines
	; GFX8-LABEL: sin_f16:			; GFX8-LABEL: sin_f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: flat_load_ushort v0, v[0:1]			; GFX8-NEXT: flat_load_ushort v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0			; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0
	; GFX8-NEXT: v_fract_f16_e32 v0, v0			; GFX8-NEXT: v_fract_f16_e32 v0, v0
	; GFX8-NEXT: v_sin_f16_e32 v2, v0			; GFX8-NEXT: v_sin_f16_e32 v2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: flat_store_short v[0:1], v2			; GFX8-NEXT: flat_store_short v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sin_f16:			; GFX9-LABEL: sin_f16:
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX8-LABEL: sin_v2f16:			; GFX8-LABEL: sin_v2f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, 0x3118			; GFX8-NEXT: v_mov_b32_e32 v1, 0x3118
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mul_f16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_mul_f16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0			; GFX8-NEXT: v_mul_f16_e32 v0, 0.15915494, v0
	; GFX8-NEXT: v_fract_f16_e32 v1, v1			; GFX8-NEXT: v_fract_f16_e32 v1, v1
	; GFX8-NEXT: v_fract_f16_e32 v0, v0			; GFX8-NEXT: v_fract_f16_e32 v0, v0
	; GFX8-NEXT: v_sin_f16_sdwa v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD			; GFX8-NEXT: v_sin_f16_sdwa v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
	; GFX8-NEXT: v_sin_f16_e32 v3, v0			; GFX8-NEXT: v_sin_f16_e32 v3, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	Show All 31 Lines

llvm/test/CodeGen/AMDGPU/load-lo16.ll

	Show First 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u16 v0, v0			; GFX803-NEXT: ds_read_u16 v0, v0
	; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%load = load i16, i16 addrspace(3)* %in			%load = load i16, i16 addrspace(3)* %in
	%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1			%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
	%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0			%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u16 v0, v0			; GFX803-NEXT: ds_read_u16 v0, v0
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%load = load half, half addrspace(3)* %in			%load = load half, half addrspace(3)* %in
	%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	ret void			ret void
	}			}
	Show All 25 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u16 v0, v0			; GFX803-NEXT: ds_read_u16 v0, v0
	; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%load = load half, half addrspace(3)* %in			%load = load half, half addrspace(3)* %in
	%build0 = insertelement <2 x half> undef, half %reg, i32 1			%build0 = insertelement <2 x half> undef, half %reg, i32 1
	%build1 = insertelement <2 x half> %build0, half %load, i32 0			%build1 = insertelement <2 x half> %build0, half %load, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	ret void			ret void
	}			}
	Show All 24 Lines
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u8 v0, v0			; GFX803-NEXT: ds_read_u8 v0, v0
	; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4			; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load i8, i8 addrspace(3)* %in			%load = load i8, i8 addrspace(3)* %in
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 26 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u8 v0, v0			; GFX803-NEXT: ds_read_u8 v0, v0
	; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%load = load i8, i8 addrspace(3)* %in			%load = load i8, i8 addrspace(3)* %in
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1			%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
	%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 24 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_i8 v0, v0			; GFX803-NEXT: ds_read_i8 v0, v0
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load i8, i8 addrspace(3)* %in			%load = load i8, i8 addrspace(3)* %in
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 26 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_i8 v0, v0			; GFX803-NEXT: ds_read_i8 v0, v0
	; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%load = load i8, i8 addrspace(3)* %in			%load = load i8, i8 addrspace(3)* %in
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1			%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
	%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 26 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u8 v0, v0			; GFX803-NEXT: ds_read_u8 v0, v0
	; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%load = load i8, i8 addrspace(3)* %in			%load = load i8, i8 addrspace(3)* %in
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build0 = insertelement <2 x half> undef, half %reg, i32 1			%build0 = insertelement <2 x half> undef, half %reg, i32 1
	%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0			%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	Show All 27 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_i8 v0, v0			; GFX803-NEXT: ds_read_i8 v0, v0
	; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%load = load i8, i8 addrspace(3)* %in			%load = load i8, i8 addrspace(3)* %in
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build0 = insertelement <2 x half> undef, half %reg, i32 1			%build0 = insertelement <2 x half> undef, half %reg, i32 1
	%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0			%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	▲ Show 20 Lines • Show All 175 Lines • ▼ Show 20 Lines
	;			;
	; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg:			; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 -2047			%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 -2047
	%load = load i16, i16 addrspace(1)* %gep			%load = load i16, i16 addrspace(1)* %gep
	%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 23 Lines
	;			;
	; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg:			; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%gep = getelementptr inbounds half, half addrspace(1)* %in, i64 -2047			%gep = getelementptr inbounds half, half addrspace(1)* %in, i64 -2047
	%load = load half, half addrspace(1)* %gep			%load = load half, half addrspace(1)* %gep
	%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	ret void			ret void
	Show All 23 Lines
	; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_zexti8:			; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_zexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ubyte v0, v[0:1]			; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4			; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095			%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095
	%load = load i8, i8 addrspace(1)* %gep			%load = load i8, i8 addrspace(1)* %gep
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	Show All 23 Lines
	;			;
	; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_sexti8:			; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_sexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_sbyte v0, v[0:1]			; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095			%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095
	%load = load i8, i8 addrspace(1)* %gep			%load = load i8, i8 addrspace(1)* %gep
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	Show All 25 Lines
	; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_zexti8:			; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_zexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ubyte v0, v[0:1]			; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4			; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095			%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095
	%load = load i8, i8 addrspace(1)* %gep			%load = load i8, i8 addrspace(1)* %gep
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0
	Show All 25 Lines
	;			;
	; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_sexti8:			; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_sexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_sbyte v0, v[0:1]			; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095			%gep = getelementptr inbounds i8, i8 addrspace(1)* %in, i64 -4095
	%load = load i8, i8 addrspace(1)* %gep			%load = load i8, i8 addrspace(1)* %gep
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0
	Show All 25 Lines
	; GFX803-LABEL: load_flat_lo_v2i16_reghi_vreg:			; GFX803-LABEL: load_flat_lo_v2i16_reghi_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load i16, i16* %in			%load = load i16, i16* %in
	%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	}			}
	Show All 23 Lines
	; GFX803-LABEL: load_flat_lo_v2f16_reghi_vreg:			; GFX803-LABEL: load_flat_lo_v2f16_reghi_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]

	; FIXME: the and above should be removable			; FIXME: the and above should be removable
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%load = load half, half* %in			%load = load half, half* %in
	%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	Show All 25 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: flat_load_ubyte v0, v[0:1]			; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX803-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX803-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v2, v0, s4			; GFX803-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load i8, i8* %in			%load = load i8, i8* %in
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 23 Lines
	; GFX803-LABEL: load_flat_lo_v2i16_reglo_vreg_sexti8:			; GFX803-LABEL: load_flat_lo_v2i16_reglo_vreg_sexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: flat_load_sbyte v0, v[0:1]			; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load i8, i8* %in			%load = load i8, i8* %in
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 25 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: flat_load_ubyte v0, v[0:1]			; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX803-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX803-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v2, v0, s4			; GFX803-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%load = load i8, i8* %in			%load = load i8, i8* %in
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	Show All 25 Lines
	; GFX803-LABEL: load_flat_lo_v2f16_reglo_vreg_sexti8:			; GFX803-LABEL: load_flat_lo_v2f16_reglo_vreg_sexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: flat_load_sbyte v0, v[0:1]			; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%load = load i8, i8* %in			%load = load i8, i8* %in
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	Show All 24 Lines
	; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg:			; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094			; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
	; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v1, v0			; GFX803-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%gep = getelementptr inbounds i16, i16 addrspace(5)* %in, i64 2047			%gep = getelementptr inbounds i16, i16 addrspace(5)* %in, i64 2047
	%load = load i16, i16 addrspace(5)* %gep			%load = load i16, i16 addrspace(5)* %gep
	%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 25 Lines
	; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg:			; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094			; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
	; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v1, v0			; GFX803-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%gep = getelementptr inbounds i16, i16 addrspace(5)* %in, i64 2047			%gep = getelementptr inbounds i16, i16 addrspace(5)* %in, i64 2047
	%load = load i16, i16 addrspace(5)* %gep			%load = load i16, i16 addrspace(5)* %gep
	%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1			%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
	%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0			%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 24 Lines
	; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg:			; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094			; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
	; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v1, v0			; GFX803-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%gep = getelementptr inbounds half, half addrspace(5)* %in, i64 2047			%gep = getelementptr inbounds half, half addrspace(5)* %in, i64 2047
	%load = load half, half addrspace(5)* %gep			%load = load half, half addrspace(5)* %gep
	%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	ret void			ret void
	Show All 23 Lines
	; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff:			; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094			; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load volatile i16, i16 addrspace(5)* inttoptr (i32 4094 to i16 addrspace(5)*)			%load = load volatile i16, i16 addrspace(5)* inttoptr (i32 4094 to i16 addrspace(5)*)
	%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	}			}
	Show All 22 Lines
	; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg_nooff:			; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg_nooff:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094			; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load volatile i16, i16 addrspace(5)* inttoptr (i32 4094 to i16 addrspace(5)*)			%load = load volatile i16, i16 addrspace(5)* inttoptr (i32 4094 to i16 addrspace(5)*)
	%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	}			}
	Show All 23 Lines
	; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_nooff:			; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_nooff:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094			; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%load = load volatile half, half addrspace(5)* inttoptr (i32 4094 to half addrspace(5)*)			%load = load volatile half, half addrspace(5)* inttoptr (i32 4094 to half addrspace(5)*)
	%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	ret void			ret void
	}			}
	Show All 23 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095			; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
	; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%gep = getelementptr inbounds i8, i8 addrspace(5)* %in, i64 4095			%gep = getelementptr inbounds i8, i8 addrspace(5)* %in, i64 4095
	%load = load i8, i8 addrspace(5)* %gep			%load = load i8, i8 addrspace(5)* %gep
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	Show All 24 Lines
	; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8:			; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095			; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
	; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%gep = getelementptr inbounds i8, i8 addrspace(5)* %in, i64 4095			%gep = getelementptr inbounds i8, i8 addrspace(5)* %in, i64 4095
	%load = load i8, i8 addrspace(5)* %gep			%load = load i8, i8 addrspace(5)* %gep
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	Show All 25 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v1
	; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], 0 offset:4094			; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], 0 offset:4094
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load volatile i8, i8 addrspace(5)* inttoptr (i32 4094 to i8 addrspace(5)*)			%load = load volatile i8, i8 addrspace(5)* inttoptr (i32 4094 to i8 addrspace(5)*)
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 23 Lines
	; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_sexti8:			; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_sexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094			; GFX803-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%load = load volatile i8, i8 addrspace(5)* inttoptr (i32 4094 to i8 addrspace(5)*)			%load = load volatile i8, i8 addrspace(5)* inttoptr (i32 4094 to i8 addrspace(5)*)
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 25 Lines
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v1
	; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], 0 offset:4094			; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], 0 offset:4094
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%load = load volatile i8, i8 addrspace(5)* inttoptr (i32 4094 to i8 addrspace(5)*)			%load = load volatile i8, i8 addrspace(5)* inttoptr (i32 4094 to i8 addrspace(5)*)
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%bc.ext = bitcast i16 %ext to half			%bc.ext = bitcast i16 %ext to half
	%build1 = insertelement <2 x half> %reg.bc, half %bc.ext, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %bc.ext, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	Show All 23 Lines
	;			;
	; GFX803-LABEL: load_constant_lo_v2i16_reglo_vreg:			; GFX803-LABEL: load_constant_lo_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%gep = getelementptr inbounds i16, i16 addrspace(4)* %in, i64 -2047			%gep = getelementptr inbounds i16, i16 addrspace(4)* %in, i64 -2047
	%load = load i16, i16 addrspace(4)* %gep			%load = load i16, i16 addrspace(4)* %gep
	%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0			%build1 = insertelement <2 x i16> %reg.bc, i16 %load, i32 0
	store <2 x i16> %build1, <2 x i16> addrspace(1)* undef			store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
	ret void			ret void
	Show All 23 Lines
	;			;
	; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg:			; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%gep = getelementptr inbounds half, half addrspace(4)* %in, i64 -2047			%gep = getelementptr inbounds half, half addrspace(4)* %in, i64 -2047
	%load = load half, half addrspace(4)* %gep			%load = load half, half addrspace(4)* %gep
	%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0
	store <2 x half> %build1, <2 x half> addrspace(1)* undef			store <2 x half> %build1, <2 x half> addrspace(1)* undef
	ret void			ret void
	Show All 24 Lines
	; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_zexti8:			; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_zexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ubyte v0, v[0:1]			; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
	; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX803-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4			; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%gep = getelementptr inbounds i8, i8 addrspace(4)* %in, i64 -4095			%gep = getelementptr inbounds i8, i8 addrspace(4)* %in, i64 -4095
	%load = load i8, i8 addrspace(4)* %gep			%load = load i8, i8 addrspace(4)* %gep
	%ext = zext i8 %load to i16			%ext = zext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0
	Show All 25 Lines
	;			;
	; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_sexti8:			; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_sexti8:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_sbyte v0, v[0:1]			; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
	; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2			; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v2
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%gep = getelementptr inbounds i8, i8 addrspace(4)* %in, i64 -4095			%gep = getelementptr inbounds i8, i8 addrspace(4)* %in, i64 -4095
	%load = load i8, i8 addrspace(4)* %gep			%load = load i8, i8 addrspace(4)* %gep
	%ext = sext i8 %load to i16			%ext = sext i8 %load to i16
	%bitcast = bitcast i16 %ext to half			%bitcast = bitcast i16 %ext to half
	%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0			%build1 = insertelement <2 x half> %reg.bc, half %bitcast, i32 0
	Show All 31 Lines
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b			; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
	; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32			; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32
	; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094			; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
	; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_e32 v0, v1, v0			; GFX803-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%obj0 = alloca [10 x i32], align 4, addrspace(5)			%obj0 = alloca [10 x i32], align 4, addrspace(5)
	%obj1 = alloca [4096 x i16], align 2, addrspace(5)			%obj1 = alloca [4096 x i16], align 2, addrspace(5)
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*			%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*
	store volatile i32 123, i32 addrspace(5)* %bc			store volatile i32 123, i32 addrspace(5)* %bc
	%gep = getelementptr inbounds [4096 x i16], [4096 x i16] addrspace(5)* %obj1, i32 0, i32 2027			%gep = getelementptr inbounds [4096 x i16], [4096 x i16] addrspace(5)* %obj1, i32 0, i32 2027
	Show All 33 Lines
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b			; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
	; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32			; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32
	; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095			; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
	; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%obj0 = alloca [10 x i32], align 4, addrspace(5)			%obj0 = alloca [10 x i32], align 4, addrspace(5)
	%obj1 = alloca [4096 x i8], align 2, addrspace(5)			%obj1 = alloca [4096 x i8], align 2, addrspace(5)
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*			%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*
	store volatile i32 123, i32 addrspace(5)* %bc			store volatile i32 123, i32 addrspace(5)* %bc
	%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055			%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055
	Show All 35 Lines
	; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b			; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
	; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32			; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32
	; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095			; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
	; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%obj0 = alloca [10 x i32], align 4, addrspace(5)			%obj0 = alloca [10 x i32], align 4, addrspace(5)
	%obj1 = alloca [4096 x i8], align 2, addrspace(5)			%obj1 = alloca [4096 x i8], align 2, addrspace(5)
	%reg.bc = bitcast i32 %reg to <2 x i16>			%reg.bc = bitcast i32 %reg to <2 x i16>
	%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*			%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*
	store volatile i32 123, i32 addrspace(5)* %bc			store volatile i32 123, i32 addrspace(5)* %bc
	%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055			%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055
	Show All 35 Lines
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b			; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
	; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32			; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32
	; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095			; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
	; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0			; GFX803-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%obj0 = alloca [10 x i32], align 4, addrspace(5)			%obj0 = alloca [10 x i32], align 4, addrspace(5)
	%obj1 = alloca [4096 x i8], align 2, addrspace(5)			%obj1 = alloca [4096 x i8], align 2, addrspace(5)
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*			%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*
	store volatile i32 123, i32 addrspace(5)* %bc			store volatile i32 123, i32 addrspace(5)* %bc
	%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055			%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055
	Show All 37 Lines
	; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b			; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
	; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32			; GFX803-NEXT: buffer_store_dword v1, off, s[0:3], s32
	; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095			; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
	; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX803-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX803-NEXT: s_mov_b32 s4, 0x5040c00			; GFX803-NEXT: s_mov_b32 s4, 0x5040c00
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%obj0 = alloca [10 x i32], align 4, addrspace(5)			%obj0 = alloca [10 x i32], align 4, addrspace(5)
	%obj1 = alloca [4096 x i8], align 2, addrspace(5)			%obj1 = alloca [4096 x i8], align 2, addrspace(5)
	%reg.bc = bitcast i32 %reg to <2 x half>			%reg.bc = bitcast i32 %reg to <2 x half>
	%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*			%bc = bitcast [10 x i32] addrspace(5)* %obj0 to i32 addrspace(5)*
	store volatile i32 123, i32 addrspace(5)* %bc			store volatile i32 123, i32 addrspace(5)* %bc
	%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055			%gep = getelementptr inbounds [4096 x i8], [4096 x i8] addrspace(5)* %obj1, i32 0, i32 4055
	Show All 9 Lines

llvm/test/CodeGen/AMDGPU/lshr.v2i16.ll

	Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 4, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 4, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v5, v[0:1]			; VI-NEXT: flat_load_dword v5, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b16_e32 v3, v2, v5			; VI-NEXT: v_lshrrev_b16_e32 v3, v2, v5
	; VI-NEXT: v_lshrrev_b16_sdwa v2, v2, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_lshrrev_b16_sdwa v2, v2, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_lshr_v2i16:			; CI-LABEL: v_lshr_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_lshr_b32 s1, s0, 16			; VI-NEXT: s_lshr_b32 s1, s0, 16
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; VI-NEXT: v_mov_b32_e32 v2, s1			; VI-NEXT: v_mov_b32_e32 v2, s1
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b16_e32 v4, s0, v3			; VI-NEXT: v_lshrrev_b16_e32 v4, s0, v3
	; VI-NEXT: v_lshrrev_b16_sdwa v2, v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshrrev_b16_sdwa v2, v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v4, v2			; VI-NEXT: v_or_b32_e32 v2, v4, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: lshr_v_s_v2i16:			; CI-LABEL: lshr_v_s_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_lshr_b32 s1, s0, 16			; VI-NEXT: s_lshr_b32 s1, s0, 16
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; VI-NEXT: v_mov_b32_e32 v2, s1			; VI-NEXT: v_mov_b32_e32 v2, s1
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b16_e64 v4, v3, s0			; VI-NEXT: v_lshrrev_b16_e64 v4, v3, s0
	; VI-NEXT: v_lshrrev_b16_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_lshrrev_b16_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v4, v2			; VI-NEXT: v_or_b32_e32 v2, v4, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: lshr_s_v_v2i16:			; CI-LABEL: lshr_s_v_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b16_e64 v2, v3, 8			; VI-NEXT: v_lshrrev_b16_e64 v2, v3, 8
	; VI-NEXT: v_lshrrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_lshrrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: lshr_imm_v_v2i16:			; CI-LABEL: lshr_imm_v_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v1, 24, v0			; VI-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: lshr_v_imm_v2i16:			; CI-LABEL: lshr_v_imm_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 8, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 8, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b16_e32 v6, v3, v1			; VI-NEXT: v_lshrrev_b16_e32 v6, v3, v1
	; VI-NEXT: v_lshrrev_b16_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_lshrrev_b16_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_lshrrev_b16_e32 v3, v2, v0			; VI-NEXT: v_lshrrev_b16_e32 v3, v2, v0
	; VI-NEXT: v_lshrrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_lshrrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v1, v6, v1			; VI-NEXT: v_or_b32_e32 v1, v6, v1
	; VI-NEXT: v_or_b32_e32 v0, v3, v0			; VI-NEXT: v_or_b32_e32 v0, v3, v0
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; VI-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; VI-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; VI-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; VI-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; VI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; VI-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; VI-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; VI-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	Show All 34 Lines

llvm/test/CodeGen/AMDGPU/max.i16.ll

	Show All 15 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: flat_load_ushort v1, v[2:3]			; VI-NEXT: flat_load_ushort v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_i16_e32 v0, v0, v1			; VI-NEXT: v_max_i16_e32 v0, v0, v1
	; VI-NEXT: flat_store_short v[4:5], v0			; VI-NEXT: flat_store_short v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_imax_sge_i16:			; GFX9-LABEL: v_test_imax_sge_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	Show All 31 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v5, v[0:1]			; VI-NEXT: flat_load_dword v5, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_i16_e32 v3, v5, v2			; VI-NEXT: v_max_i16_e32 v3, v5, v2
	; VI-NEXT: v_max_i16_sdwa v2, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_max_i16_sdwa v2, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_imax_sge_v2i16:			; GFX9-LABEL: v_test_imax_sge_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v7, v[2:3]			; VI-NEXT: flat_load_dword v7, v[2:3]
	; VI-NEXT: flat_load_ushort v8, v[0:1]			; VI-NEXT: flat_load_ushort v8, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v6
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 4, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 4, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_max_i16_e32 v6, v5, v7			; VI-NEXT: v_max_i16_e32 v6, v5, v7
	; VI-NEXT: v_max_i16_sdwa v5, v5, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_max_i16_sdwa v5, v5, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_i16_e32 v4, v4, v8			; VI-NEXT: v_max_i16_e32 v4, v4, v8
	; VI-NEXT: v_or_b32_e32 v5, v6, v5			; VI-NEXT: v_or_b32_e32 v5, v6, v5
	; VI-NEXT: flat_store_short v[2:3], v4			; VI-NEXT: flat_store_short v[2:3], v4
	; VI-NEXT: flat_store_dword v[0:1], v5			; VI-NEXT: flat_store_dword v[0:1], v5
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_imax_sge_v3i16:			; GFX9-LABEL: v_test_imax_sge_v3i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 40 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_i16_e32 v6, v1, v3			; VI-NEXT: v_max_i16_e32 v6, v1, v3
	; VI-NEXT: v_max_i16_sdwa v1, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_max_i16_sdwa v1, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_max_i16_e32 v3, v0, v2			; VI-NEXT: v_max_i16_e32 v3, v0, v2
	; VI-NEXT: v_max_i16_sdwa v0, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_max_i16_sdwa v0, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v1, v6, v1			; VI-NEXT: v_or_b32_e32 v1, v6, v1
	; VI-NEXT: v_or_b32_e32 v0, v3, v0			; VI-NEXT: v_or_b32_e32 v0, v3, v0
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	Show All 37 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: flat_load_ushort v1, v[2:3]			; VI-NEXT: flat_load_ushort v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_i16_e32 v0, v0, v1			; VI-NEXT: v_max_i16_e32 v0, v0, v1
	; VI-NEXT: flat_store_short v[4:5], v0			; VI-NEXT: flat_store_short v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_imax_sgt_i16:			; GFX9-LABEL: v_test_imax_sgt_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	Show All 31 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: flat_load_ushort v1, v[2:3]			; VI-NEXT: flat_load_ushort v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_u16_e32 v0, v0, v1			; VI-NEXT: v_max_u16_e32 v0, v0, v1
	; VI-NEXT: flat_store_short v[4:5], v0			; VI-NEXT: flat_store_short v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_umax_uge_i16:			; GFX9-LABEL: v_test_umax_uge_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	Show All 31 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: flat_load_ushort v1, v[2:3]			; VI-NEXT: flat_load_ushort v1, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_u16_e32 v0, v0, v1			; VI-NEXT: v_max_u16_e32 v0, v0, v1
	; VI-NEXT: flat_store_short v[4:5], v0			; VI-NEXT: flat_store_short v[4:5], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_umax_ugt_i16:			; GFX9-LABEL: v_test_umax_ugt_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	Show All 30 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v5, v[0:1]			; VI-NEXT: flat_load_dword v5, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_max_u16_e32 v3, v5, v2			; VI-NEXT: v_max_u16_e32 v3, v5, v2
	; VI-NEXT: v_max_u16_sdwa v2, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_max_u16_sdwa v2, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_umax_ugt_v2i16:			; GFX9-LABEL: v_test_umax_ugt_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 23 Lines

llvm/test/CodeGen/AMDGPU/saddo.ll

	Show First 20 Lines • Show All 195 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v2, s6			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: flat_load_dword v5, v[2:3]			; VI-NEXT: flat_load_dword v5, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_mov_b32_e32 v2, s2			; VI-NEXT: v_mov_b32_e32 v2, s2
	; VI-NEXT: v_mov_b32_e32 v3, s3			; VI-NEXT: v_mov_b32_e32 v3, s3
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v6, vcc, v5, v4			; VI-NEXT: v_add_u32_e32 v6, vcc, v5, v4
	; VI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v5			; VI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v5
	; VI-NEXT: v_cmp_lt_i32_e64 s[0:1], v6, v4			; VI-NEXT: v_cmp_lt_i32_e64 s[0:1], v6, v4
	; VI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]			; VI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]
	; VI-NEXT: flat_store_dword v[0:1], v6			; VI-NEXT: flat_store_dword v[0:1], v6
	; VI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; VI-NEXT: flat_store_byte v[2:3], v0			; VI-NEXT: flat_store_byte v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v2, s6			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_mov_b32_e32 v6, s2			; VI-NEXT: v_mov_b32_e32 v6, s2
	; VI-NEXT: v_mov_b32_e32 v7, s3			; VI-NEXT: v_mov_b32_e32 v7, s3
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v8, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v8, vcc, v0, v2
	; VI-NEXT: v_addc_u32_e32 v9, vcc, v1, v3, vcc			; VI-NEXT: v_addc_u32_e32 v9, vcc, v1, v3, vcc
	; VI-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[2:3]			; VI-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[2:3]
	; VI-NEXT: v_cmp_lt_i64_e64 s[0:1], v[8:9], v[0:1]			; VI-NEXT: v_cmp_lt_i64_e64 s[0:1], v[8:9], v[0:1]
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[8:9]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[8:9]
	; VI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]			; VI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]
	; VI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; VI-NEXT: flat_store_byte v[6:7], v0			; VI-NEXT: flat_store_byte v[6:7], v0
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v2, s6			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_mov_b32_e32 v6, s2			; VI-NEXT: v_mov_b32_e32 v6, s2
	; VI-NEXT: v_mov_b32_e32 v7, s3			; VI-NEXT: v_mov_b32_e32 v7, s3
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v9, vcc, v1, v3			; VI-NEXT: v_add_u32_e32 v9, vcc, v1, v3
	; VI-NEXT: v_add_u32_e32 v8, vcc, v0, v2			; VI-NEXT: v_add_u32_e32 v8, vcc, v0, v2
	; VI-NEXT: v_cmp_gt_i32_e64 s[0:1], 0, v3			; VI-NEXT: v_cmp_gt_i32_e64 s[0:1], 0, v3
	; VI-NEXT: v_cmp_lt_i32_e64 s[4:5], v9, v1			; VI-NEXT: v_cmp_lt_i32_e64 s[4:5], v9, v1
	; VI-NEXT: s_xor_b64 s[0:1], s[0:1], s[4:5]			; VI-NEXT: s_xor_b64 s[0:1], s[0:1], s[4:5]
	; VI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v2			; VI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v2
	; VI-NEXT: v_cmp_lt_i32_e64 s[2:3], v8, v0			; VI-NEXT: v_cmp_lt_i32_e64 s[2:3], v8, v0
	; VI-NEXT: v_cndmask_b32_e64 v1, 0, 1, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v1, 0, 1, s[0:1]
	▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shl.v2i16.ll

	Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 4, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 4, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v5, v[0:1]			; VI-NEXT: flat_load_dword v5, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b16_e32 v3, v2, v5			; VI-NEXT: v_lshlrev_b16_e32 v3, v2, v5
	; VI-NEXT: v_lshlrev_b16_sdwa v2, v2, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v2, v2, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_shl_v2i16:			; CI-LABEL: v_shl_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_lshr_b32 s1, s0, 16			; VI-NEXT: s_lshr_b32 s1, s0, 16
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; VI-NEXT: v_mov_b32_e32 v2, s1			; VI-NEXT: v_mov_b32_e32 v2, s1
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b16_e32 v4, s0, v3			; VI-NEXT: v_lshlrev_b16_e32 v4, s0, v3
	; VI-NEXT: v_lshlrev_b16_sdwa v2, v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v2, v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v4, v2			; VI-NEXT: v_or_b32_e32 v2, v4, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: shl_v_s_v2i16:			; CI-LABEL: shl_v_s_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_lshr_b32 s1, s0, 16			; VI-NEXT: s_lshr_b32 s1, s0, 16
	; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; VI-NEXT: v_mov_b32_e32 v2, s1			; VI-NEXT: v_mov_b32_e32 v2, s1
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b16_e64 v4, v3, s0			; VI-NEXT: v_lshlrev_b16_e64 v4, v3, s0
	; VI-NEXT: v_lshlrev_b16_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_lshlrev_b16_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v4, v2			; VI-NEXT: v_or_b32_e32 v2, v4, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: shl_s_v_v2i16:			; CI-LABEL: shl_s_v_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b16_e64 v2, v3, 8			; VI-NEXT: v_lshlrev_b16_e64 v2, v3, 8
	; VI-NEXT: v_lshlrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_lshlrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: shl_imm_v_v2i16:			; CI-LABEL: shl_imm_v_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v3			; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v3
	; VI-NEXT: v_and_b32_e32 v2, 0xff000000, v2			; VI-NEXT: v_and_b32_e32 v2, 0xff000000, v2
	; VI-NEXT: v_lshlrev_b16_e32 v3, 8, v3			; VI-NEXT: v_lshlrev_b16_e32 v3, 8, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: shl_v_imm_v2i16:			; CI-LABEL: shl_v_imm_v2i16:
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 8, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 8, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; VI-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b16_e32 v6, v3, v1			; VI-NEXT: v_lshlrev_b16_e32 v6, v3, v1
	; VI-NEXT: v_lshlrev_b16_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_lshlrev_b16_e32 v3, v2, v0			; VI-NEXT: v_lshlrev_b16_e32 v3, v2, v0
	; VI-NEXT: v_lshlrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v1, v6, v1			; VI-NEXT: v_or_b32_e32 v1, v6, v1
	; VI-NEXT: v_or_b32_e32 v0, v3, v0			; VI-NEXT: v_or_b32_e32 v0, v3, v0
	; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: s_mov_b32 s2, 0xff000000			; VI-NEXT: s_mov_b32 s2, 0xff000000
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b32_e32 v4, 8, v1			; VI-NEXT: v_lshlrev_b32_e32 v4, 8, v1
	; VI-NEXT: v_lshlrev_b16_e32 v5, 8, v0			; VI-NEXT: v_lshlrev_b16_e32 v5, 8, v0
	; VI-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
	; VI-NEXT: v_and_b32_e32 v0, s2, v0			; VI-NEXT: v_and_b32_e32 v0, s2, v0
	; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; VI-NEXT: v_and_b32_e32 v4, s2, v4			; VI-NEXT: v_and_b32_e32 v4, s2, v4
	; VI-NEXT: v_or_b32_e32 v1, v1, v4			; VI-NEXT: v_or_b32_e32 v1, v1, v4
	; VI-NEXT: v_or_b32_e32 v0, v5, v0			; VI-NEXT: v_or_b32_e32 v0, v5, v0
	Show All 40 Lines

llvm/test/CodeGen/AMDGPU/shrink-add-sub-constant.ll

	Show All 30 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_subrev_u32_e32 v0, vcc, 64, v0			; VI-NEXT: v_subrev_u32_e32 v0, vcc, 64, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_x_sub_64:			; GFX9-LABEL: v_test_i32_x_sub_64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_subrev_u32_e32 v2, vcc, 64, v3			; VI-NEXT: v_subrev_u32_e32 v2, vcc, 64, v3
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, 64, v4			; VI-NEXT: v_subrev_u32_e32 v3, vcc, 64, v4
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: flat_store_dword v[0:1], v3			; VI-NEXT: flat_store_dword v[0:1], v3
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_x_sub_64_multi_use:			; GFX9-LABEL: v_test_i32_x_sub_64_multi_use:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u32_e32 v0, vcc, 64, v0			; VI-NEXT: v_sub_u32_e32 v0, vcc, 64, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_64_sub_x:			; GFX9-LABEL: v_test_i32_64_sub_x:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v0, vcc, 0xffffffbf, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, 0xffffffbf, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_x_sub_65:			; GFX9-LABEL: v_test_i32_x_sub_65:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u32_e32 v0, vcc, 0x41, v0			; VI-NEXT: v_sub_u32_e32 v0, vcc, 0x41, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_65_sub_x:			; GFX9-LABEL: v_test_i32_65_sub_x:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v0, vcc, 16, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, 16, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_x_sub_neg16:			; GFX9-LABEL: v_test_i32_x_sub_neg16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u32_e32 v0, vcc, -16, v0			; VI-NEXT: v_sub_u32_e32 v0, vcc, -16, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_neg16_sub_x:			; GFX9-LABEL: v_test_i32_neg16_sub_x:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v0, vcc, 17, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, 17, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_x_sub_neg17:			; GFX9-LABEL: v_test_i32_x_sub_neg17:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u32_e32 v0, vcc, 0xffffffef, v0			; VI-NEXT: v_sub_u32_e32 v0, vcc, 0xffffffef, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i32_neg17_sub_x:			; GFX9-LABEL: v_test_i32_neg17_sub_x:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_subrev_u16_e32 v0, 64, v0			; VI-NEXT: v_subrev_u16_e32 v0, 64, v0
	; VI-NEXT: flat_store_short v[2:3], v0			; VI-NEXT: flat_store_short v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i16_x_sub_64:			; GFX9-LABEL: v_test_i16_x_sub_64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v2, s3			; VI-NEXT: v_mov_b32_e32 v2, s3
	; VI-NEXT: v_add_u32_e32 v1, vcc, s2, v1			; VI-NEXT: v_add_u32_e32 v1, vcc, s2, v1
	; VI-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc			; VI-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
	; VI-NEXT: v_add_u32_e32 v3, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v3, vcc, s0, v0
	; VI-NEXT: flat_load_ushort v0, v[1:2]			; VI-NEXT: flat_load_ushort v0, v[1:2]
	; VI-NEXT: v_mov_b32_e32 v4, s1			; VI-NEXT: v_mov_b32_e32 v4, s1
	; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_subrev_u16_e32 v0, 64, v0			; VI-NEXT: v_subrev_u16_e32 v0, 64, v0
	; VI-NEXT: flat_store_dword v[3:4], v0			; VI-NEXT: flat_store_dword v[3:4], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i16_x_sub_64_zext_to_i32:			; GFX9-LABEL: v_test_i16_x_sub_64_zext_to_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 1, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 1, v0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ushort v3, v[0:1]			; VI-NEXT: flat_load_ushort v3, v[0:1]
	; VI-NEXT: flat_load_ushort v4, v[0:1]			; VI-NEXT: flat_load_ushort v4, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_subrev_u16_e32 v2, 64, v3			; VI-NEXT: v_subrev_u16_e32 v2, 64, v3
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_subrev_u16_e32 v3, 64, v4			; VI-NEXT: v_subrev_u16_e32 v3, 64, v4
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: flat_store_short v[0:1], v3			; VI-NEXT: flat_store_short v[0:1], v3
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i16_x_sub_64_multi_use:			; GFX9-LABEL: v_test_i16_x_sub_64_multi_use:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_sub_u16_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_subrev_u16_e32 v3, 64, v3			; VI-NEXT: v_subrev_u16_e32 v3, 64, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_64_64:			; GFX9-LABEL: v_test_v2i16_x_sub_64_64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, -7, v3			; VI-NEXT: v_add_u16_e32 v2, -7, v3
	; VI-NEXT: v_sub_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_sub_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_7_64:			; GFX9-LABEL: v_test_v2i16_x_sub_7_64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_subrev_u16_e32 v3, 64, v3			; VI-NEXT: v_subrev_u16_e32 v3, 64, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_64_123:			; GFX9-LABEL: v_test_v2i16_x_sub_64_123:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3			; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3
	; VI-NEXT: v_add_u16_e32 v3, -7, v3			; VI-NEXT: v_add_u16_e32 v3, -7, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_7_0:			; GFX9-LABEL: v_test_v2i16_x_sub_7_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, -16			; VI-NEXT: v_mov_b32_e32 v1, -16
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_0_16:			; GFX9-LABEL: v_test_v2i16_x_sub_0_16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0x3c00			; VI-NEXT: v_mov_b32_e32 v1, 0x3c00
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_0_1_0:			; GFX9-LABEL: v_test_v2i16_x_sub_0_1_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0xffffbc00			; VI-NEXT: v_mov_b32_e32 v1, 0xffffbc00
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_0_neg1_0:			; GFX9-LABEL: v_test_v2i16_x_sub_0_neg1_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_sub_u16_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_subrev_u16_e32 v3, 32, v3			; VI-NEXT: v_subrev_u16_e32 v3, 32, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg32_neg32:			; GFX9-LABEL: v_test_v2i16_x_add_neg32_neg32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 32			; VI-NEXT: v_mov_b32_e32 v1, 32
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_sub_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_0_neg32:			; GFX9-LABEL: v_test_v2i16_x_add_0_neg32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3			; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3
	; VI-NEXT: v_subrev_u16_e32 v3, 32, v3			; VI-NEXT: v_subrev_u16_e32 v3, 32, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg32_0:			; GFX9-LABEL: v_test_v2i16_x_add_neg32_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, -16, v3			; VI-NEXT: v_add_u16_e32 v2, -16, v3
	; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg16_neg16:			; GFX9-LABEL: v_test_v2i16_x_add_neg16_neg16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, -16			; VI-NEXT: v_mov_b32_e32 v1, -16
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_0_neg16:			; GFX9-LABEL: v_test_v2i16_x_add_0_neg16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3			; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3
	; VI-NEXT: v_add_u16_e32 v3, -16, v3			; VI-NEXT: v_add_u16_e32 v3, -16, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg16_0:			; GFX9-LABEL: v_test_v2i16_x_add_neg16_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_movk_i32 s2, 0xc400			; VI-NEXT: s_movk_i32 s2, 0xc400
	; VI-NEXT: v_mov_b32_e32 v4, s2			; VI-NEXT: v_mov_b32_e32 v4, s2
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, s2, v3			; VI-NEXT: v_add_u16_e32 v2, s2, v3
	; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg_fpone:			; GFX9-LABEL: v_test_v2i16_x_add_neg_fpone:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_movk_i32 s2, 0x4400			; VI-NEXT: s_movk_i32 s2, 0x4400
	; VI-NEXT: v_mov_b32_e32 v4, s2			; VI-NEXT: v_mov_b32_e32 v4, s2
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, s2, v3			; VI-NEXT: v_add_u16_e32 v2, s2, v3
	; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg_negfpone:			; GFX9-LABEL: v_test_v2i16_x_add_neg_negfpone:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_movk_i32 s2, 0x4000			; VI-NEXT: s_movk_i32 s2, 0x4000
	; VI-NEXT: v_mov_b32_e32 v4, s2			; VI-NEXT: v_mov_b32_e32 v4, s2
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, s2, v3			; VI-NEXT: v_add_u16_e32 v2, s2, v3
	; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg_fptwo:			; GFX9-LABEL: v_test_v2i16_x_add_neg_fptwo:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: s_movk_i32 s2, 0xc000			; VI-NEXT: s_movk_i32 s2, 0xc000
	; VI-NEXT: v_mov_b32_e32 v4, s2			; VI-NEXT: v_mov_b32_e32 v4, s2
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, s2, v3			; VI-NEXT: v_add_u16_e32 v2, s2, v3
	; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg_negfptwo:			; GFX9-LABEL: v_test_v2i16_x_add_neg_negfptwo:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 32			; VI-NEXT: v_mov_b32_e32 v1, 32
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_sub_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_undef_neg32:			; GFX9-LABEL: v_test_v2i16_x_add_undef_neg32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_subrev_u16_e32 v0, 32, v0			; VI-NEXT: v_subrev_u16_e32 v0, 32, v0
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg32_undef:			; GFX9-LABEL: v_test_v2i16_x_add_neg32_undef:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	Show All 32 Lines

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

	Show All 31 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_e32 v2, v0, v1			; VI-NEXT: v_sub_u16_e32 v2, v0, v1
	; VI-NEXT: v_sub_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_sub_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v0, v2, v0			; VI-NEXT: v_or_b32_e32 v0, v2, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0xfffffe38			; VI-NEXT: v_mov_b32_e32 v1, 0xfffffe38
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, 0xff85, v0			; VI-NEXT: v_add_u16_e32 v2, 0xff85, v0
	; VI-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v0, v2, v0			; VI-NEXT: v_or_b32_e32 v0, v2, v0
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	Show All 28 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0x3df			; VI-NEXT: v_mov_b32_e32 v1, 0x3df
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, 0x34d, v0			; VI-NEXT: v_add_u16_e32 v2, 0x34d, v0
	; VI-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v0, v2, v0			; VI-NEXT: v_or_b32_e32 v0, v2, v0
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	Show All 26 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 1			; VI-NEXT: v_mov_b32_e32 v1, 1
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, 1, v0			; VI-NEXT: v_add_u16_e32 v2, 1, v0
	; VI-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v0, v2, v0			; VI-NEXT: v_or_b32_e32 v0, v2, v0
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	Show All 25 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_and_b32_e32 v1, 0xffff0000, v0			; VI-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; VI-NEXT: v_subrev_u16_e32 v0, 32, v0			; VI-NEXT: v_subrev_u16_e32 v0, 32, v0
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	Show All 30 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v1, 0xffffc080			; VI-NEXT: v_mov_b32_e32 v1, 0xffffc080
	; VI-NEXT: s_mov_b32 s0, s4			; VI-NEXT: s_mov_b32 s0, s4
	; VI-NEXT: s_mov_b32 s1, s5			; VI-NEXT: s_mov_b32 s1, s5
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	Show All 32 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v1, v[0:1]			; VI-NEXT: flat_load_dword v1, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_e32 v0, v1, v2			; VI-NEXT: v_sub_u16_e32 v0, v1, v2
	; VI-NEXT: v_sub_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_sub_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i32>, <2 x i32> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i32>, <2 x i32> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid			%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid
	Show All 39 Lines
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: flat_load_dword v2, v[2:3]			; VI-NEXT: flat_load_dword v2, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v1, 0			; VI-NEXT: v_mov_b32_e32 v1, 0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: v_mov_b32_e32 v3, v1			; VI-NEXT: v_mov_b32_e32 v3, v1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_e32 v0, v4, v2			; VI-NEXT: v_sub_u16_e32 v0, v4, v2
	; VI-NEXT: v_sub_u16_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_sub_u16_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid			%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid
	Show All 35 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_sub_u16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_sub_u16_e32 v0, v0, v1			; VI-NEXT: v_sub_u16_e32 v0, v0, v1
	; VI-NEXT: v_bfe_i32 v0, v0, 0, 16			; VI-NEXT: v_bfe_i32 v0, v0, 0, 16
	; VI-NEXT: v_bfe_i32 v1, v2, 0, 16			; VI-NEXT: v_bfe_i32 v1, v2, 0, 16
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i32>, <2 x i32> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i32>, <2 x i32> addrspace(1)* %out, i32 %tid
	Show All 40 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v1, v[2:3]
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_sub_u16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_sub_u16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_sub_u16_e32 v0, v0, v1			; VI-NEXT: v_sub_u16_e32 v0, v0, v1
	; VI-NEXT: v_bfe_i32 v0, v0, 0, 16			; VI-NEXT: v_bfe_i32 v0, v0, 0, 16
	; VI-NEXT: v_bfe_i32 v2, v2, 0, 16			; VI-NEXT: v_bfe_i32 v2, v2, 0, 16
	; VI-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; VI-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; VI-NEXT: v_ashrrev_i32_e32 v3, 31, v2			; VI-NEXT: v_ashrrev_i32_e32 v3, 31, v2
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/trunc-combine.ll

	Show All 34 Lines
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_add_i32_e32 v0, vcc, 4, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, 4, v0
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: trunc_bitcast_v2i32_to_i16:			; VI-LABEL: trunc_bitcast_v2i32_to_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v0, 4, v0			; VI-NEXT: v_add_u16_e32 v0, 4, v0
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	%load0 = load i32, i32 addrspace(1)* undef			%load0 = load i32, i32 addrspace(1)* undef
	%load1 = load i32, i32 addrspace(1)* null			%load1 = load i32, i32 addrspace(1)* null
	%insert.0 = insertelement <2 x i32> undef, i32 %load0, i32 0			%insert.0 = insertelement <2 x i32> undef, i32 %load0, i32 0
	%insert.1 = insertelement <2 x i32> %insert.0, i32 99, i32 1			%insert.1 = insertelement <2 x i32> %insert.0, i32 99, i32 1
	%bc = bitcast <2 x i32> %insert.1 to i64			%bc = bitcast <2 x i32> %insert.1 to i64
	%trunc = trunc i64 %bc to i16			%trunc = trunc i64 %bc to i16
	Show All 12 Lines
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_add_i32_e32 v0, vcc, 4, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, 4, v0
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: trunc_bitcast_v2f32_to_i16:			; VI-LABEL: trunc_bitcast_v2f32_to_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v0, 4, v0			; VI-NEXT: v_add_u16_e32 v0, 4, v0
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	%load0 = load float, float addrspace(1)* undef			%load0 = load float, float addrspace(1)* undef
	%load1 = load float, float addrspace(1)* null			%load1 = load float, float addrspace(1)* null
	%insert.0 = insertelement <2 x float> undef, float %load0, i32 0			%insert.0 = insertelement <2 x float> undef, float %load0, i32 0
	%insert.1 = insertelement <2 x float> %insert.0, float 4.0, i32 1			%insert.1 = insertelement <2 x float> %insert.0, float 4.0, i32 1
	%bc = bitcast <2 x float> %insert.1 to i64			%bc = bitcast <2 x float> %insert.1 to i64
	%trunc = trunc i64 %bc to i16			%trunc = trunc i64 %bc to i16
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/waitcnt-back-edge-loop.mir

	# RUN: llc -o - %s -march=amdgcn -mcpu=fiji -run-pass=si-insert-waitcnts -verify-machineinstrs \| FileCheck -check-prefix=GCN %s			# RUN: llc -o - %s -march=amdgcn -mcpu=fiji -run-pass=si-insert-waitcnts -verify-machineinstrs \| FileCheck -check-prefix=GCN %s

	# GCN-LABEL: waitcnt-back-edge-loop			# GCN-LABEL: waitcnt-back-edge-loop
	# GCN: bb.2			# GCN: bb.2
	# GCN: S_WAITCNT 112			# GCN: S_WAITCNT 3952
	# GCN: $vgpr5 = V_CVT_I32_F32_e32 killed $vgpr5, implicit $mode, implicit $exec			# GCN: $vgpr5 = V_CVT_I32_F32_e32 killed $vgpr5, implicit $mode, implicit $exec

	---			---
	name: waitcnt-back-edge-loop			name: waitcnt-back-edge-loop
	body: \|			body: \|
	bb.0:			bb.0:
	successors: %bb.1			successors: %bb.1

	▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/waitcnt-looptest.ll

	; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=-flat-for-global -amdgpu-load-store-vectorizer=0 \| FileCheck --check-prefix=GCN %s			; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=-flat-for-global -amdgpu-load-store-vectorizer=0 \| FileCheck --check-prefix=GCN %s

	; Check that the waitcnt insertion algorithm correctly propagates wait counts			; Check that the waitcnt insertion algorithm correctly propagates wait counts
	; from before a loop to the loop header.			; from before a loop to the loop header.

	; GCN-LABEL: {{^}}testKernel			; GCN-LABEL: {{^}}testKernel
	; GCN: BB0_1:			; GCN: BB0_1:
	; GCN: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN: s_waitcnt vmcnt(0){{$}}
	; GCN-NEXT: v_cmp_eq_f32_e32			; GCN-NEXT: v_cmp_eq_f32_e32
	; GCN: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN: s_waitcnt vmcnt(0){{$}}
	; GCN-NEXT: v_cmp_eq_f32_e32			; GCN-NEXT: v_cmp_eq_f32_e32
	; GCN: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN: s_waitcnt vmcnt(0){{$}}
	; GCN-NEXT: v_cmp_eq_f32_e32			; GCN-NEXT: v_cmp_eq_f32_e32

	@data_generic = addrspace(1) global [100 x float] [float 0.000000e+00, float 0x3FB99999A0000000, float 0x3FC99999A0000000, float 0x3FD3333340000000, float 0x3FD99999A0000000, float 5.000000e-01, float 0x3FE3333340000000, float 0x3FE6666660000000, float 0x3FE99999A0000000, float 0x3FECCCCCC0000000, float 1.000000e+00, float 0x3FF19999A0000000, float 0x3FF3333340000000, float 0x3FF4CCCCC0000000, float 0x3FF6666660000000, float 1.500000e+00, float 0x3FF99999A0000000, float 0x3FFB333340000000, float 0x3FFCCCCCC0000000, float 0x3FFE666660000000, float 2.000000e+00, float 0x4000CCCCC0000000, float 0x40019999A0000000, float 0x4002666660000000, float 0x4003333340000000, float 2.500000e+00, float 0x4004CCCCC0000000, float 0x40059999A0000000, float 0x4006666660000000, float 0x4007333340000000, float 3.000000e+00, float 0x4008CCCCC0000000, float 0x40099999A0000000, float 0x400A666660000000, float 0x400B333340000000, float 3.500000e+00, float 0x400CCCCCC0000000, float 0x400D9999A0000000, float 0x400E666660000000, float 0x400F333340000000, float 4.000000e+00, float 0x4010666660000000, float 0x4010CCCCC0000000, float 0x4011333340000000, float 0x40119999A0000000, float 4.500000e+00, float 0x4012666660000000, float 0x4012CCCCC0000000, float 0x4013333340000000, float 0x40139999A0000000, float 5.000000e+00, float 0x4014666660000000, float 0x4014CCCCC0000000, float 0x4015333340000000, float 0x40159999A0000000, float 5.500000e+00, float 0x4016666660000000, float 0x4016CCCCC0000000, float 0x4017333340000000, float 0x40179999A0000000, float 6.000000e+00, float 0x4018666660000000, float 0x4018CCCCC0000000, float 0x4019333340000000, float 0x40199999A0000000, float 6.500000e+00, float 0x401A666660000000, float 0x401ACCCCC0000000, float 0x401B333340000000, float 0x401B9999A0000000, float 7.000000e+00, float 0x401C666660000000, float 0x401CCCCCC0000000, float 0x401D333340000000, float 0x401D9999A0000000, float 7.500000e+00, float 0x401E666660000000, float 0x401ECCCCC0000000, float 0x401F333340000000, float 0x401F9999A0000000, float 8.000000e+00, float 0x4020333340000000, float 0x4020666660000000, float 0x40209999A0000000, float 0x4020CCCCC0000000, float 8.500000e+00, float 0x4021333340000000, float 0x4021666660000000, float 0x40219999A0000000, float 0x4021CCCCC0000000, float 9.000000e+00, float 0x4022333340000000, float 0x4022666660000000, float 0x40229999A0000000, float 0x4022CCCCC0000000, float 9.500000e+00, float 0x4023333340000000, float 0x4023666660000000, float 0x40239999A0000000, float 0x4023CCCCC0000000], align 4			@data_generic = addrspace(1) global [100 x float] [float 0.000000e+00, float 0x3FB99999A0000000, float 0x3FC99999A0000000, float 0x3FD3333340000000, float 0x3FD99999A0000000, float 5.000000e-01, float 0x3FE3333340000000, float 0x3FE6666660000000, float 0x3FE99999A0000000, float 0x3FECCCCCC0000000, float 1.000000e+00, float 0x3FF19999A0000000, float 0x3FF3333340000000, float 0x3FF4CCCCC0000000, float 0x3FF6666660000000, float 1.500000e+00, float 0x3FF99999A0000000, float 0x3FFB333340000000, float 0x3FFCCCCCC0000000, float 0x3FFE666660000000, float 2.000000e+00, float 0x4000CCCCC0000000, float 0x40019999A0000000, float 0x4002666660000000, float 0x4003333340000000, float 2.500000e+00, float 0x4004CCCCC0000000, float 0x40059999A0000000, float 0x4006666660000000, float 0x4007333340000000, float 3.000000e+00, float 0x4008CCCCC0000000, float 0x40099999A0000000, float 0x400A666660000000, float 0x400B333340000000, float 3.500000e+00, float 0x400CCCCCC0000000, float 0x400D9999A0000000, float 0x400E666660000000, float 0x400F333340000000, float 4.000000e+00, float 0x4010666660000000, float 0x4010CCCCC0000000, float 0x4011333340000000, float 0x40119999A0000000, float 4.500000e+00, float 0x4012666660000000, float 0x4012CCCCC0000000, float 0x4013333340000000, float 0x40139999A0000000, float 5.000000e+00, float 0x4014666660000000, float 0x4014CCCCC0000000, float 0x4015333340000000, float 0x40159999A0000000, float 5.500000e+00, float 0x4016666660000000, float 0x4016CCCCC0000000, float 0x4017333340000000, float 0x40179999A0000000, float 6.000000e+00, float 0x4018666660000000, float 0x4018CCCCC0000000, float 0x4019333340000000, float 0x40199999A0000000, float 6.500000e+00, float 0x401A666660000000, float 0x401ACCCCC0000000, float 0x401B333340000000, float 0x401B9999A0000000, float 7.000000e+00, float 0x401C666660000000, float 0x401CCCCCC0000000, float 0x401D333340000000, float 0x401D9999A0000000, float 7.500000e+00, float 0x401E666660000000, float 0x401ECCCCC0000000, float 0x401F333340000000, float 0x401F9999A0000000, float 8.000000e+00, float 0x4020333340000000, float 0x4020666660000000, float 0x40209999A0000000, float 0x4020CCCCC0000000, float 8.500000e+00, float 0x4021333340000000, float 0x4021666660000000, float 0x40219999A0000000, float 0x4021CCCCC0000000, float 9.000000e+00, float 0x4022333340000000, float 0x4022666660000000, float 0x40229999A0000000, float 0x4022CCCCC0000000, float 9.500000e+00, float 0x4023333340000000, float 0x4023666660000000, float 0x40239999A0000000, float 0x4023CCCCC0000000], align 4
	@data_reference = addrspace(1) global [100 x float] [float 0.000000e+00, float 0x3FB99999A0000000, float 0x3FC99999A0000000, float 0x3FD3333340000000, float 0x3FD99999A0000000, float 5.000000e-01, float 0x3FE3333340000000, float 0x3FE6666660000000, float 0x3FE99999A0000000, float 0x3FECCCCCC0000000, float 1.000000e+00, float 0x3FF19999A0000000, float 0x3FF3333340000000, float 0x3FF4CCCCC0000000, float 0x3FF6666660000000, float 1.500000e+00, float 0x3FF99999A0000000, float 0x3FFB333340000000, float 0x3FFCCCCCC0000000, float 0x3FFE666660000000, float 2.000000e+00, float 0x4000CCCCC0000000, float 0x40019999A0000000, float 0x4002666660000000, float 0x4003333340000000, float 2.500000e+00, float 0x4004CCCCC0000000, float 0x40059999A0000000, float 0x4006666660000000, float 0x4007333340000000, float 3.000000e+00, float 0x4008CCCCC0000000, float 0x40099999A0000000, float 0x400A666660000000, float 0x400B333340000000, float 3.500000e+00, float 0x400CCCCCC0000000, float 0x400D9999A0000000, float 0x400E666660000000, float 0x400F333340000000, float 4.000000e+00, float 0x4010666660000000, float 0x4010CCCCC0000000, float 0x4011333340000000, float 0x40119999A0000000, float 4.500000e+00, float 0x4012666660000000, float 0x4012CCCCC0000000, float 0x4013333340000000, float 0x40139999A0000000, float 5.000000e+00, float 0x4014666660000000, float 0x4014CCCCC0000000, float 0x4015333340000000, float 0x40159999A0000000, float 5.500000e+00, float 0x4016666660000000, float 0x4016CCCCC0000000, float 0x4017333340000000, float 0x40179999A0000000, float 6.000000e+00, float 0x4018666660000000, float 0x4018CCCCC0000000, float 0x4019333340000000, float 0x40199999A0000000, float 6.500000e+00, float 0x401A666660000000, float 0x401ACCCCC0000000, float 0x401B333340000000, float 0x401B9999A0000000, float 7.000000e+00, float 0x401C666660000000, float 0x401CCCCCC0000000, float 0x401D333340000000, float 0x401D9999A0000000, float 7.500000e+00, float 0x401E666660000000, float 0x401ECCCCC0000000, float 0x401F333340000000, float 0x401F9999A0000000, float 8.000000e+00, float 0x4020333340000000, float 0x4020666660000000, float 0x40209999A0000000, float 0x4020CCCCC0000000, float 8.500000e+00, float 0x4021333340000000, float 0x4021666660000000, float 0x40219999A0000000, float 0x4021CCCCC0000000, float 9.000000e+00, float 0x4022333340000000, float 0x4022666660000000, float 0x40229999A0000000, float 0x4022CCCCC0000000, float 9.500000e+00, float 0x4023333340000000, float 0x4023666660000000, float 0x40239999A0000000, float 0x4023CCCCC0000000], align 4			@data_reference = addrspace(1) global [100 x float] [float 0.000000e+00, float 0x3FB99999A0000000, float 0x3FC99999A0000000, float 0x3FD3333340000000, float 0x3FD99999A0000000, float 5.000000e-01, float 0x3FE3333340000000, float 0x3FE6666660000000, float 0x3FE99999A0000000, float 0x3FECCCCCC0000000, float 1.000000e+00, float 0x3FF19999A0000000, float 0x3FF3333340000000, float 0x3FF4CCCCC0000000, float 0x3FF6666660000000, float 1.500000e+00, float 0x3FF99999A0000000, float 0x3FFB333340000000, float 0x3FFCCCCCC0000000, float 0x3FFE666660000000, float 2.000000e+00, float 0x4000CCCCC0000000, float 0x40019999A0000000, float 0x4002666660000000, float 0x4003333340000000, float 2.500000e+00, float 0x4004CCCCC0000000, float 0x40059999A0000000, float 0x4006666660000000, float 0x4007333340000000, float 3.000000e+00, float 0x4008CCCCC0000000, float 0x40099999A0000000, float 0x400A666660000000, float 0x400B333340000000, float 3.500000e+00, float 0x400CCCCCC0000000, float 0x400D9999A0000000, float 0x400E666660000000, float 0x400F333340000000, float 4.000000e+00, float 0x4010666660000000, float 0x4010CCCCC0000000, float 0x4011333340000000, float 0x40119999A0000000, float 4.500000e+00, float 0x4012666660000000, float 0x4012CCCCC0000000, float 0x4013333340000000, float 0x40139999A0000000, float 5.000000e+00, float 0x4014666660000000, float 0x4014CCCCC0000000, float 0x4015333340000000, float 0x40159999A0000000, float 5.500000e+00, float 0x4016666660000000, float 0x4016CCCCC0000000, float 0x4017333340000000, float 0x40179999A0000000, float 6.000000e+00, float 0x4018666660000000, float 0x4018CCCCC0000000, float 0x4019333340000000, float 0x40199999A0000000, float 6.500000e+00, float 0x401A666660000000, float 0x401ACCCCC0000000, float 0x401B333340000000, float 0x401B9999A0000000, float 7.000000e+00, float 0x401C666660000000, float 0x401CCCCCC0000000, float 0x401D333340000000, float 0x401D9999A0000000, float 7.500000e+00, float 0x401E666660000000, float 0x401ECCCCC0000000, float 0x401F333340000000, float 0x401F9999A0000000, float 8.000000e+00, float 0x4020333340000000, float 0x4020666660000000, float 0x40209999A0000000, float 0x4020CCCCC0000000, float 8.500000e+00, float 0x4021333340000000, float 0x4021666660000000, float 0x40219999A0000000, float 0x4021CCCCC0000000, float 9.000000e+00, float 0x4022333340000000, float 0x4022666660000000, float 0x40229999A0000000, float 0x4022CCCCC0000000, float 9.500000e+00, float 0x4023333340000000, float 0x4023666660000000, float 0x40239999A0000000, float 0x4023CCCCC0000000], align 4

	define amdgpu_kernel void @testKernel(i32 addrspace(1)* nocapture %arg) local_unnamed_addr #0 {			define amdgpu_kernel void @testKernel(i32 addrspace(1)* nocapture %arg) local_unnamed_addr #0 {
	bb:			bb:
	store <2 x float> <float 1.000000e+00, float 1.000000e+00>, <2 x float>* bitcast (float* getelementptr ([100 x float], [100 x float]* addrspacecast ([100 x float] addrspace(1)* @data_generic to [100 x float]), i64 0, i64 4) to <2 x float>), align 4			store <2 x float> <float 1.000000e+00, float 1.000000e+00>, <2 x float>* bitcast (float* getelementptr ([100 x float], [100 x float]* addrspacecast ([100 x float] addrspace(1)* @data_generic to [100 x float]), i64 0, i64 4) to <2 x float>), align 4
	▲ Show 20 Lines • Show All 126 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/waitcnt-vscnt.ll

; RUN: llc -march=amdgcn -mcpu=gfx802 -asm-verbose=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8,GFX8_9 %s		; RUN: llc -march=amdgcn -mcpu=gfx802 -asm-verbose=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8,GFX8_9 %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -asm-verbose=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9,GFX9_10,GFX8_9 %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -asm-verbose=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9,GFX9_10,GFX8_9 %s
; RUN: llc -march=amdgcn -mcpu=gfx1010 -asm-verbose=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX9_10 %s		; RUN: llc -march=amdgcn -mcpu=gfx1010 -asm-verbose=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX9_10 %s

; GCN-LABEL: barrier_vmcnt_global:		; GCN-LABEL: barrier_vmcnt_global:
; GFX8: flat_load_dword		; GFX8: flat_load_dword
; GFX9_10: global_load_dword		; GFX9_10: global_load_dword
; GFX8: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX9_10: s_waitcnt vmcnt(0){{$}}		; GFX9_10: s_waitcnt vmcnt(0){{$}}
; GCN-NEXT: s_barrier		; GCN-NEXT: s_barrier
define amdgpu_kernel void @barrier_vmcnt_global(i32 addrspace(1)* %arg) {		define amdgpu_kernel void @barrier_vmcnt_global(i32 addrspace(1)* %arg) {
bb:		bb:
%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()		%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()
%tmp1 = zext i32 %tmp to i64		%tmp1 = zext i32 %tmp to i64
%tmp2 = shl nuw nsw i64 %tmp1, 32		%tmp2 = shl nuw nsw i64 %tmp1, 32
%tmp3 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp1		%tmp3 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp1
%tmp4 = load i32, i32 addrspace(1)* %tmp3, align 4		%tmp4 = load i32, i32 addrspace(1)* %tmp3, align 4
fence syncscope("singlethread") release		fence syncscope("singlethread") release
tail call void @llvm.amdgcn.s.barrier()		tail call void @llvm.amdgcn.s.barrier()
fence syncscope("singlethread") acquire		fence syncscope("singlethread") acquire
%tmp5 = add nuw nsw i64 %tmp2, 4294967296		%tmp5 = add nuw nsw i64 %tmp2, 4294967296
%tmp6 = lshr exact i64 %tmp5, 32		%tmp6 = lshr exact i64 %tmp5, 32
%tmp7 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp6		%tmp7 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp6
store i32 %tmp4, i32 addrspace(1)* %tmp7, align 4		store i32 %tmp4, i32 addrspace(1)* %tmp7, align 4
ret void		ret void
}		}

; GCN-LABEL: barrier_vscnt_global:		; GCN-LABEL: barrier_vscnt_global:
; GFX8: flat_store_dword		; GFX8: flat_store_dword
; GFX9_10: global_store_dword		; GFX9_10: global_store_dword
; GFX8: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX9: s_waitcnt vmcnt(0){{$}}		; GFX9: s_waitcnt vmcnt(0){{$}}
; GFX10: s_waitcnt_vscnt null, 0x0		; GFX10: s_waitcnt_vscnt null, 0x0
; GCN-NEXT: s_barrier		; GCN-NEXT: s_barrier
define amdgpu_kernel void @barrier_vscnt_global(i32 addrspace(1)* %arg) {		define amdgpu_kernel void @barrier_vscnt_global(i32 addrspace(1)* %arg) {
bb:		bb:
%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()		%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()
%tmp1 = zext i32 %tmp to i64		%tmp1 = zext i32 %tmp to i64
%tmp2 = shl nuw nsw i64 %tmp1, 32		%tmp2 = shl nuw nsw i64 %tmp1, 32
Show All 9 Lines	bb:
%tmp8 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp7		%tmp8 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp7
store i32 1, i32 addrspace(1)* %tmp8, align 4		store i32 1, i32 addrspace(1)* %tmp8, align 4
ret void		ret void
}		}

; GCN-LABEL: barrier_vmcnt_vscnt_global:		; GCN-LABEL: barrier_vmcnt_vscnt_global:
; GFX8: flat_load_dword		; GFX8: flat_load_dword
; GFX9_10: global_load_dword		; GFX9_10: global_load_dword
; GFX8: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX9_10: s_waitcnt vmcnt(0){{$}}		; GFX9_10: s_waitcnt vmcnt(0){{$}}
; GFX10: s_waitcnt_vscnt null, 0x0		; GFX10: s_waitcnt_vscnt null, 0x0
; GCN-NEXT: s_barrier		; GCN-NEXT: s_barrier
define amdgpu_kernel void @barrier_vmcnt_vscnt_global(i32 addrspace(1)* %arg) {		define amdgpu_kernel void @barrier_vmcnt_vscnt_global(i32 addrspace(1)* %arg) {
bb:		bb:
%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()		%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()
%tmp1 = zext i32 %tmp to i64		%tmp1 = zext i32 %tmp to i64
%tmp2 = shl nuw nsw i64 %tmp1, 32		%tmp2 = shl nuw nsw i64 %tmp1, 32
▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines	bb:
%tmp10 = getelementptr inbounds i32, i32* %arg, i64 %tmp9		%tmp10 = getelementptr inbounds i32, i32* %arg, i64 %tmp9
store i32 %tmp7, i32* %tmp10, align 4		store i32 %tmp7, i32* %tmp10, align 4
ret void		ret void
}		}

; GCN-LABEL: load_vmcnt_global:		; GCN-LABEL: load_vmcnt_global:
; GFX8: flat_load_dword		; GFX8: flat_load_dword
; GFX9_10: global_load_dword		; GFX9_10: global_load_dword
; GFX8: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX9_10: s_waitcnt vmcnt(0){{$}}		; GFX9_10: s_waitcnt vmcnt(0){{$}}
; GCN-NEXT: {{global\|flat}}_store_dword		; GCN-NEXT: {{global\|flat}}_store_dword
define amdgpu_kernel void @load_vmcnt_global(i32 addrspace(1)* %arg) {		define amdgpu_kernel void @load_vmcnt_global(i32 addrspace(1)* %arg) {
bb:		bb:
%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()		%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()
%tmp1 = zext i32 %tmp to i64		%tmp1 = zext i32 %tmp to i64
%tmp2 = shl nuw nsw i64 %tmp1, 32		%tmp2 = shl nuw nsw i64 %tmp1, 32
%tmp3 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp1		%tmp3 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp1
▲ Show 20 Lines • Show All 69 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/waitcnt.mir

Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
---		---

# CHECK-LABEL: name: flat_zero_waitcnt		# CHECK-LABEL: name: flat_zero_waitcnt

# CHECK-LABEL: bb.0:		# CHECK-LABEL: bb.0:
# CHECK: FLAT_LOAD_DWORD		# CHECK: FLAT_LOAD_DWORD
# CHECK: FLAT_LOAD_DWORDX4		# CHECK: FLAT_LOAD_DWORDX4
# Global loads will return in order so we should:		# Global loads will return in order so we should:
# s_waitcnt vmcnt(1) lgkmcnt(1)		# s_waitcnt vmcnt(1)
# CHECK-NEXT: S_WAITCNT 369		# CHECK-NEXT: S_WAITCNT 3953

# CHECK-LABEL: bb.1:		# CHECK-LABEL: bb.1:
# CHECK: FLAT_LOAD_DWORD		# CHECK: FLAT_LOAD_DWORD
# GFX89: S_WAITCNT 112		# s_waitcnt vmcnt(0)
		# GFX89: S_WAITCNT 3952
# CHECK: FLAT_LOAD_DWORDX4		# CHECK: FLAT_LOAD_DWORDX4

# CHECK-LABEL: bb.2:		# CHECK-LABEL: bb.2:
# CHECK: FLAT_LOAD_DWORD		# CHECK: FLAT_LOAD_DWORD
# GFX89: S_WAITCNT 112		# s_waitcnt vmcnt(0)
		# GFX89: S_WAITCNT 3952
		rampitecUnsubmitted Done Reply Inline Actions That one was not supposed to change? The pointer is flat here. rampitec: That one was not supposed to change? The pointer is flat here.
		t-tyeAuthorUnsubmitted Done Reply Inline Actions Yes. Previously it was "s_waitcnt vmcnt(0) lgkmcnt(0)". Now it is "s_waitcnt vmcnt(0)" as the address space of global16 is 1 which is GLOBAL. Therefore there is no need to wait on LGKM. t-tye: Yes. Previously it was "s_waitcnt vmcnt(0) lgkmcnt(0)". Now it is "s_waitcnt vmcnt(0)" as the…
		rampitecUnsubmitted Done Reply Inline Actions It is not global, it is flat: <4 x i32>* %flat16 ... $vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.flat16) rampitec: It is not global, it is flat: ``` <4 x i32>* %flat16 ... $vgpr3_vgpr4_vgpr5_vgpr6 =…
		t-tyeAuthorUnsubmitted Done Reply Inline Actions But isn't this test checking: $vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.global4) $vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.global16) These are referencing global4 and global16 which are: i32 addrspace(1)* %global4, <4 x i32> addrspace(1)* %global16 Which are both marked as the global (1) not flat (0) address space. Am I missing something? t-tye: But isn't this test checking: $vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit…
		rampitecUnsubmitted Done Reply Inline Actions No, it is not. Note it first checks label bb.2. And after it: $vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.flat16) It is flat pointer. Not global. Think about the testcase itself: it is a standalone function (not kernel) taking a generic pointer. You are checking for the question: "is is this DEFINITELY an LDS pointer?" The answer is no, so you say: "this is DEFINITELY NOT an LDS pointer". rampitec: No, it is not. Note it first checks label bb.2. And after it: $vgpr3_vgpr4_vgpr5_vgpr6 =…
		rampitecUnsubmitted Done Reply Inline Actions Or VMEM for that matter. rampitec: Or VMEM for that matter.
		t-tyeAuthorUnsubmitted Done Reply Inline Actions I believe the waitcnts are correct, and added the extra test you recommended. t-tye: I believe the waitcnts are correct, and added the extra test you recommended.
		t-tyeAuthorUnsubmitted Done Reply Inline Actions On checking the test the waitcnts do seem correct because the registers being waited on are produced by loads in earlier basic blocks. Those earlier loads are either global, or they are flat but there is intervening waitcnt that satisfies a vmemcnt(0). Add two additional basic blocks to test this better. t-tye: On checking the test the waitcnts do seem correct because the registers being waited on are…
# CHECK: FLAT_LOAD_DWORDX4		# CHECK: FLAT_LOAD_DWORDX4

		# CHECK-LABEL: bb.3:
		# s_waitcnt vmcnt(0)
		# GFX89: S_WAITCNT 3952
		# CHECK: FLAT_LOAD_DWORD
		# CHECK: FLAT_LOAD_DWORD
		# s_waitcnt vmcnt(0) lgkmcnt(0)
		# GFX89: S_WAITCNT 112

		# CHECK-LABEL: bb.4:
		# GFX89-NOT: S_WAITCNT
		# CHECK: FLAT_LOAD_DWORD
		# s_waitcnt vmcnt(0) lgkmcnt(0)
		# GFX89: S_WAITCNT 112

name: flat_zero_waitcnt		name: flat_zero_waitcnt

body: \|		body: \|
bb.0:		bb.0:
successors: %bb.1		successors: %bb.1
$vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.global4)		$vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.global4)
$vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.global16)		$vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.global16)
$vgpr0 = V_MOV_B32_e32 $vgpr1, implicit $exec		$vgpr0 = V_MOV_B32_e32 $vgpr1, implicit $exec
S_BRANCH %bb.1		S_BRANCH %bb.1

bb.1:		bb.1:
successors: %bb.2		successors: %bb.2
$vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr		$vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr
$vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.global16)		$vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.global16)
$vgpr0 = V_MOV_B32_e32 $vgpr1, implicit $exec		$vgpr0 = V_MOV_B32_e32 $vgpr1, implicit $exec
S_BRANCH %bb.2		S_BRANCH %bb.2

bb.2:		bb.2:
		successors: %bb.3
$vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.flat4)		$vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.flat4)
$vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.flat16)		$vgpr3_vgpr4_vgpr5_vgpr6 = FLAT_LOAD_DWORDX4 $vgpr7_vgpr8, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 16 from %ir.flat16)
$vgpr0 = V_MOV_B32_e32 $vgpr1, implicit $exec		$vgpr0 = V_MOV_B32_e32 $vgpr1, implicit $exec
		S_BRANCH %bb.3

		bb.3:
		successors: %bb.4
		$vgpr3 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.flat4)
		rampitecUnsubmitted Done Reply Inline Actions Can you keep just load from flat here? The other load obscures the result. rampitec: Can you keep just load from flat here? The other load obscures the result.
		t-tyeAuthorUnsubmitted Done Reply Inline Actions Add the extra BB3 you suggested. The waitcnts being generated seem correct from my inspection. t-tye: Add the extra BB3 you suggested. The waitcnts being generated seem correct from my inspection.
		rampitecUnsubmitted Done Reply Inline Actions They seem to be correct, but with two loads per block it is hard to understand which of the loads has actually caused the wait. If you want to keep it this way, add yet another bb.4, but with only a load from flat. rampitec: They seem to be correct, but with two loads per block it is hard to understand which of the…
		t-tyeAuthorUnsubmitted Done Reply Inline Actions Add a bb.4 that has a single load from flat. t-tye: Add a bb.4 that has a single load from flat.
		$vgpr4 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.global4)
		$vgpr0 = V_MOV_B32_e32 $vgpr3, implicit $exec
		S_BRANCH %bb.4

		bb.4:
		$vgpr5 = FLAT_LOAD_DWORD $vgpr1_vgpr2, 0, 0, 0, 0, implicit $exec, implicit $flat_scr :: (load 4 from %ir.flat4)
		$vgpr0 = V_MOV_B32_e32 $vgpr5, implicit $exec
S_ENDPGM 0		S_ENDPGM 0
...		...
---		---
# There is only a single fallthrough successor block, so there's no		# There is only a single fallthrough successor block, so there's no
# need to wait immediately.		# need to wait immediately.

# CHECK-LABEL: name: single_fallthrough_successor_no_end_block_wait		# CHECK-LABEL: name: single_fallthrough_successor_no_end_block_wait
# CHECK: $vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2		# CHECK: $vgpr0 = FLAT_LOAD_DWORD $vgpr1_vgpr2
▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines	bb.0:
BUNDLE implicit $vgpr0, implicit $vgpr1_vgpr2 {		BUNDLE implicit $vgpr0, implicit $vgpr1_vgpr2 {
FLAT_STORE_DWORD $vgpr1_vgpr2, $vgpr0, 0, 0, 0, 0, implicit $exec, implicit $flat_scr		FLAT_STORE_DWORD $vgpr1_vgpr2, $vgpr0, 0, 0, 0, 0, implicit $exec, implicit $flat_scr
}		}
...		...

---		---
# CHECK-LABEL: name: subregs16bit		# CHECK-LABEL: name: subregs16bit
# CHECK: S_WAITCNT 112		# CHECK: S_WAITCNT 112
# CHECK-NEXT: V_NOP_e32		# CHECK-NEXT: V_NOP_e32

name: subregs16bit		name: subregs16bit
machineFunctionInfo:		machineFunctionInfo:
isEntryFunction: true		isEntryFunction: true
body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $vgpr4		liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $vgpr4
$vgpr0 = FLAT_LOAD_USHORT killed $vgpr0_vgpr1, 0, 0, 0, 0, implicit $exec, implicit $flat_scr		$vgpr0 = FLAT_LOAD_USHORT killed $vgpr0_vgpr1, 0, 0, 0, 0, implicit $exec, implicit $flat_scr
$vgpr1 = FLAT_LOAD_USHORT killed $vgpr2_vgpr3, 0, 0, 0, 0, implicit $exec, implicit $flat_scr		$vgpr1 = FLAT_LOAD_USHORT killed $vgpr2_vgpr3, 0, 0, 0, 0, implicit $exec, implicit $flat_scr
V_NOP_e32 implicit $exec, implicit $vgpr0_lo16, implicit $vgpr1_lo16		V_NOP_e32 implicit $exec, implicit $vgpr0_lo16, implicit $vgpr1_lo16
...		...

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

	Show First 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u16_e32 v0, 0x3e7, v0			; VI-NEXT: v_add_u16_e32 v0, 0x3e7, v0
	; VI-NEXT: v_or_b32_e32 v2, 4, v0			; VI-NEXT: v_or_b32_e32 v2, 4, v0
	; VI-NEXT: v_mov_b32_e32 v0, 0			; VI-NEXT: v_mov_b32_e32 v0, 0
	; VI-NEXT: v_mov_b32_e32 v1, 0			; VI-NEXT: v_mov_b32_e32 v1, 0
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = zext i32 %tid to i64			%tid.ext = zext i32 %tid to i64
	▲ Show 20 Lines • Show All 201 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Optimize waitcnt insertion for flat memory operationsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 299499

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/cvt_f32_ubyte.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i128.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i8.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fmed3.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/frem.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/lds-global-non-entry-func.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.atomic.dec.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.atomic.inc.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.div.fmas.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.div.scale.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.update.dpp.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/shl-ext-reduce.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/zextload.ll

llvm/test/CodeGen/AMDGPU/bitreverse.ll

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

llvm/test/CodeGen/AMDGPU/ctlz.ll

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.global.ll

llvm/test/CodeGen/AMDGPU/fmax_legacy.f64.ll

llvm/test/CodeGen/AMDGPU/fmin_legacy.f64.ll

llvm/test/CodeGen/AMDGPU/frem.ll

llvm/test/CodeGen/AMDGPU/idot2.ll

llvm/test/CodeGen/AMDGPU/imm16.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.cvt.pkrtz.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.d16.dim.ll

llvm/test/CodeGen/AMDGPU/llvm.cos.f16.ll

llvm/test/CodeGen/AMDGPU/llvm.sin.f16.ll

llvm/test/CodeGen/AMDGPU/load-lo16.ll

llvm/test/CodeGen/AMDGPU/lshr.v2i16.ll

llvm/test/CodeGen/AMDGPU/max.i16.ll

llvm/test/CodeGen/AMDGPU/saddo.ll

llvm/test/CodeGen/AMDGPU/shl.v2i16.ll

llvm/test/CodeGen/AMDGPU/shrink-add-sub-constant.ll

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

llvm/test/CodeGen/AMDGPU/trunc-combine.ll

llvm/test/CodeGen/AMDGPU/waitcnt-back-edge-loop.mir

llvm/test/CodeGen/AMDGPU/waitcnt-looptest.ll

llvm/test/CodeGen/AMDGPU/waitcnt-vscnt.ll

llvm/test/CodeGen/AMDGPU/waitcnt.mir

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

[AMDGPU] Optimize waitcnt insertion for flat memory operations
ClosedPublic