This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
AMDGPUInstructions.td
4/4
SIInstructions.td
-
SOPInstructions.td
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
fpow.ll
-
llvm.amdgcn.image.atomic.dim.a16.ll
-
llvm.amdgcn.image.gather4.a16.dim.ll
-
llvm.amdgcn.image.load.2darraymsaa.a16.ll
-
llvm.amdgcn.image.load.3d.a16.ll
-
llvm.amdgcn.image.sample.cd.g16.ll
-
llvm.amdgcn.image.sample.g16.ll
-
llvm.amdgcn.intersect_ray.ll
-
saddsat.ll
-
sdivrem.ll
-
ssubsat.ll
-
uaddsat.ll
-
udivrem.ll
-
usubsat.ll
-
add.v2i16.ll
-
build-vector-packed-partial-undef.ll
-
chain-hi-to-lo.ll
-
combine-vload-extract.ll
-
divergence-driven-buildvector.ll
-
extract-subvector-16bit.ll
-
fast-unaligned-load-store.global.ll
6/6
fast-unaligned-load-store.private.ll
-
fcanonicalize.f16.ll
-
fmax_legacy.f16.ll
-
fmin_legacy.f16.ll
-
fshr.ll
-
idot4s.ll
-
idot4u.ll
-
idot8s.ll
-
idot8u.ll
-
insert_vector_elt.v2i16.ll
-
llvm.amdgcn.image.gather4.a16.dim.ll
-
llvm.amdgcn.image.sample.a16.dim.ll
-
llvm.amdgcn.image.sample.cd.a16.dim.ll
-
llvm.amdgcn.image.sample.cd.g16.encode.ll
-
llvm.amdgcn.image.sample.cd.g16.ll
-
llvm.amdgcn.image.sample.g16.a16.dim.ll
-
llvm.amdgcn.image.sample.g16.encode.ll
-
llvm.amdgcn.image.sample.g16.ll
-
load-hi16.ll
-
load-lo16.ll
2/2
pack.v2f16.ll
-
pack.v2i16.ll
-
partial-shift-shrink.ll
-
strict_fadd.f16.ll
-
strict_fma.f16.ll
-
strict_fmul.f16.ll
-
strict_fsub.f16.ll
-
sub.v2i16.ll
-
vector_shuffle.packed.ll

Differential D134463

[AMDGPU] Use V_PERM to match buildvectors when inputs are not canonicalized (i.e. can't use V_PACK)
ClosedPublic

Authored by jrbyrnes on Sep 22 2022, 11:26 AM.

Download Raw Diff

Details

Reviewers

Pierre-vh
arsenm
rampitec
kerbowa

Summary

If we can not prove that f16 operands of a buildvector are canonicalized, then we can not lower into a V_PACK. In this scenario, we would previously lower into some combination of and(sdwa), shr, or. This patch allows for matching into V_PERM instead -- which uses additional SGPR (or encodes the literal in the instruction itself), but has less VALU latency.

Change-Id: Ifa4a74fdb81ef44f22ba490c7fdf81ec8aebc945

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

jrbyrnes created this revision.Sep 22 2022, 11:26 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 22 2022, 11:26 AM

Herald added subscribers: kosarev, foad, kerbowa and 8 others. · View Herald Transcript

jrbyrnes requested review of this revision.Sep 22 2022, 11:26 AM

Harbormaster completed remote builds in B188233: Diff 462251.Sep 22 2022, 11:26 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 22 2022, 11:26 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

jrbyrnes edited the summary of this revision. (Show Details)Sep 22 2022, 12:18 PM

jrbyrnes edited the summary of this revision. (Show Details)

arsenm added a reviewer: Pierre-vh.Sep 22 2022, 12:18 PM

arsenm added inline comments.Sep 22 2022, 12:21 PM

llvm/lib/Target/AMDGPU/SIInstructions.td
2833–2841	Should we just replace this?
2846	Also should cover the integer cases?
llvm/test/CodeGen/AMDGPU/pack.v2f16.ll
2–1	Switching to generated checks should be a separate pre-commit

Hey Matt, thanks for the comments. I'll address them soon, for now I'll add you as reviewer.

rampitec added inline comments.Sep 22 2022, 12:54 PM

llvm/test/CodeGen/AMDGPU/pack.v2f16.ll
2–1	GCN is misleading here. Use something like GFX7_8

jrbyrnes mentioned this in rG5787d4446288: [AMDGPU] Precommit switching test to generated checks for D134463.Sep 23 2022, 10:16 AM

Precommit generated tests pack.v2f16.ll, rebase

Harbormaster completed remote builds in B188445: Diff 462543.Sep 23 2022, 10:27 AM

Fix attributes in test

Harbormaster completed remote builds in B188446: Diff 462545.Sep 23 2022, 10:32 AM

arsenm added inline comments.Sep 23 2022, 11:50 AM

llvm/lib/Target/AMDGPU/SIInstructions.td
2833–2841	This is looking dead
llvm/test/CodeGen/AMDGPU/v_perm_non_canon.ll
3 ↗	(On Diff #462545)	Probably should move this in with vector_shuffle.packed.ll
4 ↗	(On Diff #462545)	Should use addrspace(1)*
36 ↗	(On Diff #462545)	Separate functions for each tested shuffle. Also needs versions using i16.

jrbyrnes mentioned this in rG33ab74ac466f: [AMDGPU] Precommit switching test to generated checks for D134463.Sep 23 2022, 3:13 PM

Address review comments.

Added some patterns to account for the case when we are trying to concat:
v0[0]:v1[1]
v0[1]:v1[0]

Removed some seemingly dead patterns after introducing those.

Pushing as is for potential feedback, still a sort of WIP.

Herald added a subscriber: wenlei. · View Herald TranscriptSep 23 2022, 5:29 PM

jrbyrnes marked 3 inline comments as done.Sep 23 2022, 5:32 PM

Harbormaster completed remote builds in B188505: Diff 462630.Sep 23 2022, 6:39 PM

arsenm mentioned this in D134433: [AMDGPU][GISel] Legalize V2S16 G_BUILD_VECTOR.Sep 26 2022, 7:21 AM

arsenm added inline comments.Sep 26 2022, 7:52 AM

llvm/lib/Target/AMDGPU/SIInstructions.td
2786–2795	Can use a class or foreach over the types to avoid repeating the same pattern twice

jrbyrnes mentioned this in rGe6c29c033899: [AMDGPU] Precommit switching test to generated checks for D134463.Sep 26 2022, 8:14 AM

Can't you use v_alignbit for all the cases where you need the upper 16 bits of one register and the lower 16 bits of the other? It should be smaller than v_perm because the shift amount (16) is an inline constant.

Precommit generated test + Rebase

Consolidate patterns into foreach

Lower to V_ALIGNBIT for D = V[1].low : V[0].hi

In D134463#3817469, @foad wrote:

Can't you use v_alignbit for all the cases where you need the upper 16 bits of one register and the lower 16 bits of the other? It should be smaller than v_perm because the shift amount (16) is an inline constant.

Hey, thanks for the good suggestion! I think this will only work for the case where we want V[1].low : V[0].hi

In the case where we want V[1].hi : V[0].low we can't lower to V_ALIGNBIT_B32 $V0, $V1, 16 because that would incorrectly put the bits from $V0 as the MSBs in the dest. On the other hand V_ALIGNBIT_B32 $V1, $V0, 16 correctly has the bits from $V1 as the MSBs, but they are the lower 16 (and the higher 16 from $V0).

Harbormaster completed remote builds in B189007: Diff 463311.Sep 27 2022, 1:15 PM

In the case where we want V[1].hi : V[0].low we can't lower to V_ALIGNBIT_B32 $V0, $V1, 16 because that would incorrectly put the bits from $V0 as the MSBs in the dest. On the other hand V_ALIGNBIT_B32 $V1, $V0, 16 correctly has the bits from $V1 as the MSBs, but they are the lower 16 (and the higher 16 from $V0).

Good point. You could use V_BFI_B32 but I guess that is no better or worse than V_PERM_B32.

In D134463#3820197, @foad wrote:

In the case where we want V[1].hi : V[0].low we can't lower to V_ALIGNBIT_B32 $V0, $V1, 16 because that would incorrectly put the bits from $V0 as the MSBs in the dest. On the other hand V_ALIGNBIT_B32 $V1, $V0, 16 correctly has the bits from $V1 as the MSBs, but they are the lower 16 (and the higher 16 from $V0).

Good point. You could use V_BFI_B32 but I guess that is no better or worse than V_PERM_B32.

One small point in favor of BFI is the bitmask you need is more likely CSEable for unrelated uses

Use V_BFI for V[1].hi : V[0].low . This allows for a bitmask which is more likely to be reused by other instructions (0xffff vs 0x7060100), potentially enabling other optimizations (e.g. CSE)

One small point in favor of BFI is the bitmask you need is more likely CSEable for unrelated uses

Thanks, good point. Changed the pattern in favor of BFI.

jrbyrnes added inline comments.Sep 28 2022, 12:03 PM

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll
240	This seems illegal to me -- using SGPR and literal as operands to VALU. Looking into it.

rampitec added inline comments.Sep 28 2022, 12:05 PM

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll
240	0 is inline literal and is free.

Harbormaster completed remote builds in B189226: Diff 463635.Sep 28 2022, 12:31 PM

foad added inline comments.Sep 29 2022, 1:09 AM

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll
240	As a code quality thing, this could have been optimized to `v_and_b32 v1, 0xffff0000, v0`

jrbyrnes marked 2 inline comments as done.Sep 29 2022, 11:11 AM

jrbyrnes added inline comments.

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll
240	Stas -- I see, thanks! Jay -- Interesting, I'll look into what's going on with the literal. As a side note, CodeGen is actually not good for this particular test. It seems to me the whole test can be combined into a 32 bit load. D133584 should be extended to handle this i16s, in which case this whole test will be optimized to a load.

jrbyrnes marked an inline comment as done.Sep 29 2022, 11:11 AM

jrbyrnes marked an inline comment as not done.

arsenm added inline comments.Sep 29 2022, 11:39 AM

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll
240	This could only be a 16-bit load if unaligned access is enabled (and I think we previously decided that doing unaligned 16-bit loads was probably worse than byte loads). The load question is orthogonal to how the bit masking should have been emitted

Add pattern to select V_AND v1, 0xffff000 in the case where buildvector produces bits V1.hi : 0

Add test coverage for pattern.

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll
240	Right -- good to know about decision to use byte loads. I agree it is a bit off topic for this review.

Harbormaster completed remote builds in B189557: Diff 464096.Sep 29 2022, 6:01 PM

arsenm mentioned this in D134967: [AMDGPU] Always lower SHUFFLE_VECTOR.Sep 30 2022, 8:02 AM

LGTM

This revision is now accepted and ready to land.Sep 30 2022, 9:02 AM

Rebased to trunk && made necessary test modifications. NFC

Landed via rGf4e6149d8217

Harbormaster completed remote builds in B190045: Diff 464779.Oct 3 2022, 2:03 PM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUInstructions.td

7 lines

SIInstructions.td

73 lines

SOPInstructions.td

1 line

test/

CodeGen/

AMDGPU/

GlobalISel/

fpow.ll

125 lines

llvm.amdgcn.image.atomic.dim.a16.ll

194 lines

llvm.amdgcn.image.gather4.a16.dim.ll

246 lines

llvm.amdgcn.image.load.2darraymsaa.a16.ll

73 lines

llvm.amdgcn.image.load.3d.a16.ll

49 lines

llvm.amdgcn.image.sample.cd.g16.ll

25 lines

llvm.amdgcn.image.sample.g16.ll

45 lines

llvm.amdgcn.intersect_ray.ll

83 lines

94 lines

75 lines

94 lines

94 lines

57 lines

94 lines

14 lines

build-vector-packed-partial-undef.ll

10 lines

chain-hi-to-lo.ll

150 lines

combine-vload-extract.ll

3 lines

divergence-driven-buildvector.ll

34 lines

extract-subvector-16bit.ll

68 lines

fast-unaligned-load-store.global.ll

14 lines

fast-unaligned-load-store.private.ll

28 lines

14 lines

28 lines

28 lines

156 lines

83 lines

107 lines

414 lines

356 lines

insert_vector_elt.v2i16.ll

365 lines

llvm.amdgcn.image.gather4.a16.dim.ll

100 lines

llvm.amdgcn.image.sample.a16.dim.ll

311 lines

llvm.amdgcn.image.sample.cd.a16.dim.ll

90 lines

llvm.amdgcn.image.sample.cd.g16.encode.ll

24 lines

llvm.amdgcn.image.sample.cd.g16.ll

24 lines

llvm.amdgcn.image.sample.g16.a16.dim.ll

248 lines

llvm.amdgcn.image.sample.g16.encode.ll

110 lines

llvm.amdgcn.image.sample.g16.ll

50 lines

228 lines

507 lines

30 lines

25 lines

partial-shift-shrink.ll

5 lines

37 lines

25 lines

37 lines

95 lines

18 lines

vector_shuffle.packed.ll

734 lines

Diff 464779

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

Show First 20 Lines • Show All 313 Lines • ▼ Show 20 Lines	def hi_f16_elt : PatLeaf<
if (Tmp.getOpcode() != ISD::SRL)		if (Tmp.getOpcode() != ISD::SRL)
return false;		return false;
if (const auto *RHS = dyn_cast<ConstantSDNode>(Tmp.getOperand(1))		if (const auto *RHS = dyn_cast<ConstantSDNode>(Tmp.getOperand(1))
return RHS->getZExtValue() == 16;		return RHS->getZExtValue() == 16;
return false;		return false;
}]>;		}]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
		// PatLeafs for zero immediate
		//===----------------------------------------------------------------------===//

		def immzero : PatLeaf<(imm), [{ return N->isZero(); }]>;
		def fpimmzero : PatLeaf<(fpimm), [{ return N->isZero(); }]>;

		//===----------------------------------------------------------------------===//
// PatLeafs for floating-point comparisons		// PatLeafs for floating-point comparisons
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

def COND_OEQ : PatFrags<(ops), [(OtherVT SETOEQ), (OtherVT SETEQ)]>;		def COND_OEQ : PatFrags<(ops), [(OtherVT SETOEQ), (OtherVT SETEQ)]>;
def COND_ONE : PatFrags<(ops), [(OtherVT SETONE), (OtherVT SETNE)]>;		def COND_ONE : PatFrags<(ops), [(OtherVT SETONE), (OtherVT SETNE)]>;
def COND_OGT : PatFrags<(ops), [(OtherVT SETOGT), (OtherVT SETGT)]>;		def COND_OGT : PatFrags<(ops), [(OtherVT SETOGT), (OtherVT SETGT)]>;
def COND_OGE : PatFrags<(ops), [(OtherVT SETOGE), (OtherVT SETGE)]>;		def COND_OGE : PatFrags<(ops), [(OtherVT SETOGE), (OtherVT SETGE)]>;
def COND_OLT : PatFrags<(ops), [(OtherVT SETOLT), (OtherVT SETLT)]>;		def COND_OLT : PatFrags<(ops), [(OtherVT SETOLT), (OtherVT SETLT)]>;
▲ Show 20 Lines • Show All 494 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

Show First 20 Lines • Show All 2,678 Lines • ▼ Show 20 Lines	(fma (f64 (VOP3NoMods f64:$src0)),
(f64 (VOP3NoMods f64:$src1)),		(f64 (VOP3NoMods f64:$src1)),
(f64 (VOP3NoMods f64:$src2))),		(f64 (VOP3NoMods f64:$src2))),
(V_FMAC_F64_e64 SRCMODS.NONE, $src0, SRCMODS.NONE, $src1,		(V_FMAC_F64_e64 SRCMODS.NONE, $src0, SRCMODS.NONE, $src1,
SRCMODS.NONE, $src2)		SRCMODS.NONE, $src2)
>;		>;

// COPY is workaround tablegen bug from multiple outputs		// COPY is workaround tablegen bug from multiple outputs
// from S_LSHL_B32's multiple outputs from implicit scc def.		// from S_LSHL_B32's multiple outputs from implicit scc def.
		let AddedComplexity = 1 in {
def : GCNPat <		def : GCNPat <
(v2i16 (UniformBinFrag<build_vector> (i16 0), (i16 SReg_32:$src1))),		(v2i16 (UniformBinFrag<build_vector> (i16 0), (i16 SReg_32:$src1))),
(S_LSHL_B32 SReg_32:$src1, (i16 16))		(S_LSHL_B32 SReg_32:$src1, (i16 16))
>;		>;

def : GCNPat <		def : GCNPat <
(v2i16 (DivergentBinFrag<build_vector> (i16 0), (i16 SReg_32:$src1))),		(v2i16 (DivergentBinFrag<build_vector> (i16 0), (i16 SReg_32:$src1))),
(v2i16 (V_LSHLREV_B32_e64 (i16 16), SReg_32:$src1))		(v2i16 (V_LSHLREV_B32_e64 (i16 16), SReg_32:$src1))
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	def : GCNPat <
(v2f16 (UniformBinFrag<build_vector> (f16 undef), (f16 SReg_32:$src1))),		(v2f16 (UniformBinFrag<build_vector> (f16 undef), (f16 SReg_32:$src1))),
(S_LSHL_B32 SReg_32:$src1, (i32 16))		(S_LSHL_B32 SReg_32:$src1, (i32 16))
>;		>;

def : GCNPat <		def : GCNPat <
(v2f16 (DivergentBinFrag<build_vector> (f16 undef), (f16 SReg_32:$src1))),		(v2f16 (DivergentBinFrag<build_vector> (f16 undef), (f16 SReg_32:$src1))),
(v2f16 (V_LSHLREV_B32_e64 (i32 16), SReg_32:$src1))		(v2f16 (V_LSHLREV_B32_e64 (i32 16), SReg_32:$src1))
>;		>;
		}

let SubtargetPredicate = HasVOP3PInsts in {		let SubtargetPredicate = HasVOP3PInsts in {
def : GCNPat <		def : GCNPat <
(v2i16 (UniformBinFrag<build_vector> (i16 SReg_32:$src0), (i16 SReg_32:$src1))),		(v2i16 (UniformBinFrag<build_vector> (i16 SReg_32:$src0), (i16 SReg_32:$src1))),
(S_PACK_LL_B32_B16 SReg_32:$src0, SReg_32:$src1)		(S_PACK_LL_B32_B16 SReg_32:$src0, SReg_32:$src1)
>;		>;

def : GCNPat <		def : GCNPat <
(v2i16 (DivergentBinFrag<build_vector> (i16 SReg_32:$src0), (i16 SReg_32:$src1))),		(v2i16 (DivergentBinFrag<build_vector> (i16 SReg_32:$src0), (i16 SReg_32:$src1))),
(v2i16 (V_LSHL_OR_B32_e64 $src1, (i32 16), (i32 (V_AND_B32_e64 (i32 (V_MOV_B32_e32 (i32 0xffff))), $src0))))		(v2i16 (V_LSHL_OR_B32_e64 $src1, (i32 16), (i32 (V_AND_B32_e64 (i32 (V_MOV_B32_e32 (i32 0xffff))), $src0))))
>;		>;

// With multiple uses of the shift, this will duplicate the shift and		// With multiple uses of the shift, this will duplicate the shift and
// increase register pressure.		// increase register pressure.
def : GCNPat <		def : GCNPat <
(v2i16 (UniformBinFrag<build_vector> (i16 SReg_32:$src0), (i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),		(v2i16 (UniformBinFrag<build_vector> (i16 SReg_32:$src0), (i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),
(v2i16 (S_PACK_LH_B32_B16 SReg_32:$src0, SReg_32:$src1))		(v2i16 (S_PACK_LH_B32_B16 SReg_32:$src0, SReg_32:$src1))
>;		>;

def : GCNPat <		def : GCNPat <
(v2i16 (DivergentBinFrag<build_vector> (i16 SReg_32:$src0), (i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),		(v2i16 (UniformBinFrag<build_vector> (i16 (trunc (srl_oneuse SReg_32:$src0, (i32 16)))),
(v2i16 (V_BFI_B32_e64 (i32 (V_MOV_B32_e32 (i32 0xffff))), SReg_32:$src0, SReg_32:$src1))		(i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),
		(S_PACK_HH_B32_B16 SReg_32:$src0, SReg_32:$src1)
		>;

		def : GCNPat <
		(v2f16 (UniformBinFrag<build_vector> (f16 SReg_32:$src0), (f16 SReg_32:$src1))),
		(S_PACK_LL_B32_B16 SReg_32:$src0, SReg_32:$src1)
>;		>;



		foreach Ty = [i16, f16] in {

		defvar vecTy = !if(!eq(Ty, i16), v2i16, v2f16);
		defvar immzeroTy = !if(!eq(Ty, i16), immzero, fpimmzero);

		// Take the lower 16 bits from each VGPR_32 and concat them
def : GCNPat <		def : GCNPat <
(v2i16 (UniformBinFrag<build_vector> (i16 (trunc (srl_oneuse SReg_32:$src0, (i32 16)))),		(vecTy (DivergentBinFrag<build_vector> (Ty VGPR_32:$a), (Ty VGPR_32:$b))),
(i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),		(V_PERM_B32_e64 VGPR_32:$b, VGPR_32:$a, (S_MOV_B32 (i32 0x05040100)))
		arsenmUnsubmitted Done Reply Inline Actions Can use a class or foreach over the types to avoid repeating the same pattern twice arsenm: Can use a class or foreach over the types to avoid repeating the same pattern twice
(S_PACK_HH_B32_B16 SReg_32:$src0, SReg_32:$src1)
>;		>;


		// Take the lower 16 bits from V[0] and the upper 16 bits from V[1]
		// Special case, can use V_BFI (0xffff literal likely more reusable than 0x70601000)
def : GCNPat <		def : GCNPat <
(v2i16 (DivergentBinFrag<build_vector> (i16 (trunc (srl_oneuse SReg_32:$src0, (i32 16)))),		(vecTy (DivergentBinFrag<build_vector> (Ty (immzeroTy)),
(i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),		(Ty !if(!eq(Ty, i16),
(v2i16 (V_AND_OR_B32_e64 SReg_32:$src1, (i32 (V_MOV_B32_e32 (i32 0xffff0000))), (i32 (V_LSHRREV_B32_e64 (i32 16), SReg_32:$src0))))		(Ty (trunc (srl VGPR_32:$b, (i32 16)))),
		(Ty (bitconvert (i16 (trunc (srl VGPR_32:$b, (i32 16)))))))))),
		(V_AND_B32_e64 (S_MOV_B32 (i32 0xffff0000)), VGPR_32:$b)
>;		>;


		// Take the lower 16 bits from V[0] and the upper 16 bits from V[1]
		// Special case, can use V_BFI (0xffff literal likely more reusable than 0x70601000)
def : GCNPat <		def : GCNPat <
(v2f16 (UniformBinFrag<build_vector> (f16 SReg_32:$src0), (f16 SReg_32:$src1))),		(vecTy (DivergentBinFrag<build_vector> (Ty VGPR_32:$a),
(S_PACK_LL_B32_B16 SReg_32:$src0, SReg_32:$src1)		(Ty !if(!eq(Ty, i16),
		(Ty (trunc (srl VGPR_32:$b, (i32 16)))),
		(Ty (bitconvert (i16 (trunc (srl VGPR_32:$b, (i32 16)))))))))),
		(V_BFI_B32_e64 (S_MOV_B32 (i32 0x0000ffff)), VGPR_32:$a, VGPR_32:$b)
>;		>;


		// Take the upper 16 bits from V[0] and the lower 16 bits from V[1]
		// Special case, can use V_ALIGNBIT (always uses encoded literal)
		def : GCNPat <
		(vecTy (DivergentBinFrag<build_vector>
		(Ty !if(!eq(Ty, i16),
		(Ty (trunc (srl VGPR_32:$a, (i32 16)))),
		(Ty (bitconvert (i16 (trunc (srl VGPR_32:$a, (i32 16)))))))),
		(Ty VGPR_32:$b))),
		(V_ALIGNBIT_B32_e64 VGPR_32:$b, VGPR_32:$a, (i32 16))
		>;

		// Take the upper 16 bits from each VGPR_32 and concat them
def : GCNPat <		def : GCNPat <
(v2f16 (DivergentBinFrag<build_vector> (f16 SReg_32:$src0), (f16 SReg_32:$src1))),		(vecTy (DivergentBinFrag<build_vector>
(v2f16 (V_LSHL_OR_B32_e64 SReg_32:$src1, (i32 16), (i32 (V_AND_B32_e64 (i32 (V_MOV_B32_e32 (i32 0xffff))), SReg_32:$src0))))		(Ty !if(!eq(Ty, i16),
		(Ty (trunc (srl VGPR_32:$a, (i32 16)))),
		(Ty (bitconvert (i16 (trunc (srl VGPR_32:$a, (i32 16)))))))),
		(Ty !if(!eq(Ty, i16),
		(Ty (trunc (srl VGPR_32:$b, (i32 16)))),
		(Ty (bitconvert (i16 (trunc (srl VGPR_32:$b, (i32 16)))))))))),
		(V_PERM_B32_e64 VGPR_32:$b, VGPR_32:$a, (S_MOV_B32 (i32 0x07060302)))
		arsenmUnsubmitted Done Reply Inline Actions Should we just replace this? arsenm: Should we just replace this?
		arsenmUnsubmitted Done Reply Inline Actions This is looking dead arsenm: This is looking dead
>;		>;


		} // end foreach Ty

		arsenmUnsubmitted Done Reply Inline Actions Also should cover the integer cases? arsenm: Also should cover the integer cases?

		let AddedComplexity = 5 in {
def : GCNPat <		def : GCNPat <
(v2f16 (is_canonicalized<build_vector> (f16 (VOP3Mods (f16 VGPR_32:$src0), i32:$src0_mods)),		(v2f16 (is_canonicalized<build_vector> (f16 (VOP3Mods (f16 VGPR_32:$src0), i32:$src0_mods)),
(f16 (VOP3Mods (f16 VGPR_32:$src1), i32:$src1_mods)))),		(f16 (VOP3Mods (f16 VGPR_32:$src1), i32:$src1_mods)))),
(V_PACK_B32_F16_e64 $src0_mods, VGPR_32:$src0, $src1_mods, VGPR_32:$src1)		(V_PACK_B32_F16_e64 $src0_mods, VGPR_32:$src0, $src1_mods, VGPR_32:$src1)
>;		>;
		}
} // End SubtargetPredicate = HasVOP3PInsts		} // End SubtargetPredicate = HasVOP3PInsts

// With multiple uses of the shift, this will duplicate the shift and		// With multiple uses of the shift, this will duplicate the shift and
// increase register pressure.		// increase register pressure.
let SubtargetPredicate = isGFX11Plus in		let SubtargetPredicate = isGFX11Plus in
def : GCNPat <		def : GCNPat <
(v2i16 (build_vector (i16 (trunc (srl_oneuse SReg_32:$src0, (i32 16)))), (i16 SReg_32:$src1))),		(v2i16 (build_vector (i16 (trunc (srl_oneuse SReg_32:$src0, (i32 16)))), (i16 SReg_32:$src1))),
(v2i16 (S_PACK_HL_B32_B16 SReg_32:$src0, SReg_32:$src1))		(v2i16 (S_PACK_HL_B32_B16 SReg_32:$src0, SReg_32:$src1))
▲ Show 20 Lines • Show All 609 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SOPInstructions.td

	Show First 20 Lines • Show All 151 Lines • ▼ Show 20 Lines
	}			}

	// 64-bit input, no output			// 64-bit input, no output
	class SOP1_1 <string opName, list<dag> pattern=[]> : SOP1_Pseudo <			class SOP1_1 <string opName, list<dag> pattern=[]> : SOP1_Pseudo <
	opName, (outs), (ins SReg_64:$src0), "$src0", pattern> {			opName, (outs), (ins SReg_64:$src0), "$src0", pattern> {
	let has_sdst = 0;			let has_sdst = 0;
	}			}


	class UniformUnaryFrag<SDPatternOperator Op> : PatFrag <			class UniformUnaryFrag<SDPatternOperator Op> : PatFrag <
	(ops node:$src0),			(ops node:$src0),
	(Op $src0),			(Op $src0),
	[{ return !N->isDivergent(); }]> {			[{ return !N->isDivergent(); }]> {
	// This check is unnecessary as it's captured by the result register			// This check is unnecessary as it's captured by the result register
	// bank constraint.			// bank constraint.
	//			//
	// FIXME: Should add a way for the emitter to recognize this is a			// FIXME: Should add a way for the emitter to recognize this is a
	▲ Show 20 Lines • Show All 2,182 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll

	Show First 20 Lines • Show All 220 Lines • ▼ Show 20 Lines
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_log_f16_e32 v2, v0			; GFX9-NEXT: v_log_f16_e32 v2, v0
	; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0
				; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v2			; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX9-NEXT: v_exp_f16_e32 v1, v1			; GFX9-NEXT: v_exp_f16_e32 v1, v1
	; GFX9-NEXT: v_exp_f16_e32 v0, v0			; GFX9-NEXT: v_exp_f16_e32 v0, v0
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_pow_v2f16:			; GFX10-LABEL: v_pow_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_log_f16_e32 v2, v0			; GFX10-NEXT: v_log_f16_e32 v2, v0
	; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_exp_f16_e32 v1, v2			; GFX10-NEXT: v_exp_f16_e32 v1, v1
	; GFX10-NEXT: v_exp_f16_e32 v0, v0			; GFX10-NEXT: v_exp_f16_e32 v0, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v0, v0, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_pow_v2f16:			; GFX11-LABEL: v_pow_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_log_f16_e32 v2, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX11-NEXT: v_log_f16_e32 v0, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_log_f16_e32 v0, v0			; GFX11-NEXT: v_log_f16_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0
				; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v1, v2, v1 :: v_dual_mul_dx9_zero_f32 v0, v0, v3			; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v0, v0, v1 :: v_dual_mul_dx9_zero_f32 v1, v2, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NEXT: v_exp_f16_e32 v1, v1			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)			; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_exp_f16_e32 v0, v0			; GFX11-NEXT: v_exp_f16_e32 v0, v0
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX11-NEXT: v_exp_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y)			%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y)
	ret <2 x half> %pow			ret <2 x half> %pow
	}			}

	define <2 x half> @v_pow_v2f16_fneg_lhs(<2 x half> %x, <2 x half> %y) {			define <2 x half> @v_pow_v2f16_fneg_lhs(<2 x half> %x, <2 x half> %y) {
	; GFX6-LABEL: v_pow_v2f16_fneg_lhs:			; GFX6-LABEL: v_pow_v2f16_fneg_lhs:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX9-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX9-NEXT: v_log_f16_e32 v2, v0			; GFX9-NEXT: v_log_f16_e32 v2, v0
	; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0
				; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v2			; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX9-NEXT: v_exp_f16_e32 v1, v1			; GFX9-NEXT: v_exp_f16_e32 v1, v1
	; GFX9-NEXT: v_exp_f16_e32 v0, v0			; GFX9-NEXT: v_exp_f16_e32 v0, v0
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_pow_v2f16_fneg_lhs:			; GFX10-LABEL: v_pow_v2f16_fneg_lhs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX10-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_log_f16_e32 v2, v0			; GFX10-NEXT: v_log_f16_e32 v2, v0
	; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_exp_f16_e32 v1, v2			; GFX10-NEXT: v_exp_f16_e32 v1, v1
	; GFX10-NEXT: v_exp_f16_e32 v0, v0			; GFX10-NEXT: v_exp_f16_e32 v0, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v0, v0, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_pow_v2f16_fneg_lhs:			; GFX11-LABEL: v_pow_v2f16_fneg_lhs:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX11-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_1) \| instid1(VALU_DEP_3)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_1) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_log_f16_e32 v2, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX11-NEXT: v_log_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_3) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_3) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_log_f16_e32 v0, v0			; GFX11-NEXT: v_log_f16_e32 v2, v2
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v1, v2, v1 :: v_dual_mul_dx9_zero_f32 v0, v0, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
				; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v0, v0, v1 :: v_dual_mul_dx9_zero_f32 v1, v2, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
				; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_exp_f16_e32 v1, v1
	; GFX11-NEXT: v_exp_f16_e32 v0, v0			; GFX11-NEXT: v_exp_f16_e32 v0, v0
				; GFX11-NEXT: v_exp_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%x.fneg = fneg <2 x half> %x			%x.fneg = fneg <2 x half> %x
	%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x.fneg, <2 x half> %y)			%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x.fneg, <2 x half> %y)
	ret <2 x half> %pow			ret <2 x half> %pow
	}			}

	define <2 x half> @v_pow_v2f16_fneg_rhs(<2 x half> %x, <2 x half> %y) {			define <2 x half> @v_pow_v2f16_fneg_rhs(<2 x half> %x, <2 x half> %y) {
	; GFX6-LABEL: v_pow_v2f16_fneg_rhs:			; GFX6-LABEL: v_pow_v2f16_fneg_rhs:
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_log_f16_e32 v2, v0			; GFX9-NEXT: v_log_f16_e32 v2, v0
	; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_xor_b32_e32 v1, 0x80008000, v1			; GFX9-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0
				; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX9-NEXT: v_exp_f16_e32 v1, v2			; GFX9-NEXT: v_exp_f16_e32 v1, v2
	; GFX9-NEXT: v_exp_f16_e32 v0, v0			; GFX9-NEXT: v_exp_f16_e32 v0, v0
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_pow_v2f16_fneg_rhs:			; GFX10-LABEL: v_pow_v2f16_fneg_rhs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_log_f16_e32 v2, v0			; GFX10-NEXT: v_log_f16_e32 v2, v0
	; GFX10-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
				; GFX10-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_exp_f16_e32 v1, v2			; GFX10-NEXT: v_exp_f16_e32 v1, v1
	; GFX10-NEXT: v_exp_f16_e32 v0, v0			; GFX10-NEXT: v_exp_f16_e32 v0, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v0, v0, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_pow_v2f16_fneg_rhs:			; GFX11-LABEL: v_pow_v2f16_fneg_rhs:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_log_f16_e32 v2, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX11-NEXT: v_log_f16_e32 v0, v0
	; GFX11-NEXT: v_xor_b32_e32 v1, 0x80008000, v1			; GFX11-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_log_f16_e32 v0, v0			; GFX11-NEXT: v_log_f16_e32 v2, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0
				; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3
				; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v1, v2, v1 :: v_dual_mul_dx9_zero_f32 v0, v0, v3			; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v0, v0, v1 :: v_dual_mul_dx9_zero_f32 v1, v2, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NEXT: v_exp_f16_e32 v1, v1			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)			; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_exp_f16_e32 v0, v0			; GFX11-NEXT: v_exp_f16_e32 v0, v0
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX11-NEXT: v_exp_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%y.fneg = fneg <2 x half> %y			%y.fneg = fneg <2 x half> %y
	%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y.fneg)			%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y.fneg)
	ret <2 x half> %pow			ret <2 x half> %pow
	}			}

	define <2 x half> @v_pow_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y) {			define <2 x half> @v_pow_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y) {
	; GFX6-LABEL: v_pow_v2f16_fneg_lhs_rhs:			; GFX6-LABEL: v_pow_v2f16_fneg_lhs_rhs:
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX9-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX9-NEXT: v_log_f16_e32 v2, v0			; GFX9-NEXT: v_log_f16_e32 v2, v0
	; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_xor_b32_e32 v1, 0x80008000, v1			; GFX9-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0
				; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX9-NEXT: v_exp_f16_e32 v1, v2			; GFX9-NEXT: v_exp_f16_e32 v1, v2
	; GFX9-NEXT: v_exp_f16_e32 v0, v0			; GFX9-NEXT: v_exp_f16_e32 v0, v0
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_pow_v2f16_fneg_lhs_rhs:			; GFX10-LABEL: v_pow_v2f16_fneg_lhs_rhs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX10-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX10-NEXT: v_xor_b32_e32 v1, 0x80008000, v1			; GFX10-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX10-NEXT: v_log_f16_e32 v2, v0			; GFX10-NEXT: v_log_f16_e32 v2, v0
	; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3			; GFX10-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
	; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1			; GFX10-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_exp_f16_e32 v1, v2			; GFX10-NEXT: v_exp_f16_e32 v1, v1
	; GFX10-NEXT: v_exp_f16_e32 v0, v0			; GFX10-NEXT: v_exp_f16_e32 v0, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v0, v0, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_pow_v2f16_fneg_lhs_rhs:			; GFX11-LABEL: v_pow_v2f16_fneg_lhs_rhs:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX11-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX11-NEXT: v_xor_b32_e32 v1, 0x80008000, v1			; GFX11-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_log_f16_e32 v2, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX11-NEXT: v_log_f16_e32 v0, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_log_f16_e32 v0, v0			; GFX11-NEXT: v_log_f16_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v0, v0
				; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v1, v2, v1 :: v_dual_mul_dx9_zero_f32 v0, v0, v3			; GFX11-NEXT: v_dual_mul_dx9_zero_f32 v0, v0, v1 :: v_dual_mul_dx9_zero_f32 v1, v2, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NEXT: v_exp_f16_e32 v1, v1			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)			; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_exp_f16_e32 v0, v0			; GFX11-NEXT: v_exp_f16_e32 v0, v0
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX11-NEXT: v_exp_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%x.fneg = fneg <2 x half> %x			%x.fneg = fneg <2 x half> %x
	%y.fneg = fneg <2 x half> %y			%y.fneg = fneg <2 x half> %y
	%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x.fneg, <2 x half> %y.fneg)			%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x.fneg, <2 x half> %y.fneg)
	ret <2 x half> %pow			ret <2 x half> %pow
	}			}

	; FIXME			; FIXME
	▲ Show 20 Lines • Show All 383 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

Show First 20 Lines • Show All 442 Lines • ▼ Show 20 Lines	main_body:
%v = call i32 @llvm.amdgcn.image.atomic.cmpswap.1d.i32.i16(i32 %cmp, i32 %swap, i16 %s, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.cmpswap.1d.i32.i16(i32 %cmp, i32 %swap, i16 %s, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t) {		define amdgpu_ps float @atomic_add_i32_2d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t) {
; GFX9-LABEL: atomic_add_i32_2d:		; GFX9-LABEL: atomic_add_i32_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s8
; GFX9-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 unorm glc a16		; GFX9-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2d:		; GFX10-LABEL: atomic_add_i32_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i32_3d:		; GFX9-LABEL: atomic_add_i32_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v2, v2, v1, s8
; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_3d:		; GFX10-LABEL: atomic_add_i32_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v2, v2, v1, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i32_cube:		; GFX9-LABEL: atomic_add_i32_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v2, v2, v1, s8
; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_cube:		; GFX10-LABEL: atomic_add_i32_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v2, v2, v1, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_1darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %slice) {		define amdgpu_ps float @atomic_add_i32_1darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %slice) {
; GFX9-LABEL: atomic_add_i32_1darray:		; GFX9-LABEL: atomic_add_i32_1darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s8
; GFX9-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_1darray:		; GFX10-LABEL: atomic_add_i32_1darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i32_2darray:		; GFX9-LABEL: atomic_add_i32_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v2, v2, v1, s8
; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2darray:		; GFX10-LABEL: atomic_add_i32_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v2, v2, v1, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i32_2dmsaa:		; GFX9-LABEL: atomic_add_i32_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v2, v2, v1, s8
; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2dmsaa:		; GFX10-LABEL: atomic_add_i32_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v2, v2, v1, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2darraymsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice, i16 %fragid) {		define amdgpu_ps float @atomic_add_i32_2darraymsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice, i16 %fragid) {
; GFX9-LABEL: atomic_add_i32_2darraymsaa:		; GFX9-LABEL: atomic_add_i32_2darraymsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v2, v4, 16, v2		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s8
		; GFX9-NEXT: v_perm_b32 v2, v4, v3, s8
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2darraymsaa:		; GFX10-LABEL: atomic_add_i32_2darraymsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v2, v4, v3, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: v_lshl_or_b32 v2, v4, 16, v3
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
▲ Show 20 Lines • Show All 477 Lines • ▼ Show 20 Lines	main_body:
%v = call i64 @llvm.amdgcn.image.atomic.cmpswap.1d.i64.i16(i64 %cmp, i64 %swap, i16 %s, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.cmpswap.1d.i64.i16(i64 %cmp, i64 %swap, i16 %s, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t) {		define amdgpu_ps <2 x float> @atomic_add_i64_2d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t) {
; GFX9-LABEL: atomic_add_i64_2d:		; GFX9-LABEL: atomic_add_i64_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v2, v3, v2, s8
; GFX9-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 unorm glc a16		; GFX9-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2d:		; GFX10-LABEL: atomic_add_i64_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i64_3d:		; GFX9-LABEL: atomic_add_i64_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v3, v3, v2, s8
; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_3d:		; GFX10-LABEL: atomic_add_i64_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v3, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i64_cube:		; GFX9-LABEL: atomic_add_i64_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v3, v3, v2, s8
; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_cube:		; GFX10-LABEL: atomic_add_i64_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v3, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_1darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %slice) {		define amdgpu_ps <2 x float> @atomic_add_i64_1darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %slice) {
; GFX9-LABEL: atomic_add_i64_1darray:		; GFX9-LABEL: atomic_add_i64_1darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v2, v3, v2, s8
; GFX9-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_1darray:		; GFX10-LABEL: atomic_add_i64_1darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i64_2darray:		; GFX9-LABEL: atomic_add_i64_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v3, v3, v2, s8
; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2darray:		; GFX10-LABEL: atomic_add_i64_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v3, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i64_2dmsaa:		; GFX9-LABEL: atomic_add_i64_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v3, v3, v2, s8
; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2dmsaa:		; GFX10-LABEL: atomic_add_i64_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v3, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2darraymsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice, i16 %fragid) {		define amdgpu_ps <2 x float> @atomic_add_i64_2darraymsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice, i16 %fragid) {
; GFX9-LABEL: atomic_add_i64_2darraymsaa:		; GFX9-LABEL: atomic_add_i64_2darraymsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v4
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v3, v5, 16, v3		; GFX9-NEXT: v_perm_b32 v2, v3, v2, s8
		; GFX9-NEXT: v_perm_b32 v3, v5, v4, s8
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da		; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2darraymsaa:		; GFX10-LABEL: atomic_add_i64_2darraymsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v3, v5, v4, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v3, v5, 16, v4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -o - %s \| FileCheck -check-prefix=GFX9 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -o - %s \| FileCheck -check-prefix=GFX9 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -o - %s \| FileCheck -check-prefix=GFX10NSA %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -o - %s \| FileCheck -check-prefix=GFX10NSA %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -o - %s \| FileCheck -check-prefix=GFX10NSA %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -o - %s \| FileCheck -check-prefix=GFX10NSA %s

	define amdgpu_ps <4 x float> @gather4_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
	; GFX9-LABEL: gather4_2d:			; GFX9-LABEL: gather4_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_2d:			; GFX10NSA-LABEL: gather4_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX10NSA-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {			define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {
	; GFX9-LABEL: gather4_cube:			; GFX9-LABEL: gather4_cube:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cube:			; GFX10NSA-LABEL: gather4_cube:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX10NSA-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {			define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {
	; GFX9-LABEL: gather4_2darray:			; GFX9-LABEL: gather4_2darray:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_2darray:			; GFX10NSA-LABEL: gather4_2darray:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX10NSA-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_2d:			; GFX9-LABEL: gather4_c_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_2d:			; GFX10NSA-LABEL: gather4_c_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10NSA-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_cl_2d:			; GFX9-LABEL: gather4_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cl_2d:			; GFX10NSA-LABEL: gather4_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX10NSA-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_cl_2d:			; GFX9-LABEL: gather4_c_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_mov_b32_e32 v4, v1			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v0			; GFX9-NEXT: v_mov_b32_e32 v1, v0
				; GFX9-NEXT: v_perm_b32 v2, v2, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_cl_2d:			; GFX10NSA-LABEL: gather4_c_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10NSA-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {
	; GFX9-LABEL: gather4_b_2d:			; GFX9-LABEL: gather4_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_b_2d:			; GFX10NSA-LABEL: gather4_b_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10NSA-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_b_2d:			; GFX9-LABEL: gather4_c_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX9-NEXT: v_perm_b32 v2, v3, v2, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_b_2d:			; GFX10NSA-LABEL: gather4_c_b_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10NSA-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_b_cl_2d:			; GFX9-LABEL: gather4_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_mov_b32_e32 v4, v1			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v0			; GFX9-NEXT: v_mov_b32_e32 v1, v0
				; GFX9-NEXT: v_perm_b32 v2, v2, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_b_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_b_cl_2d:			; GFX10NSA-LABEL: gather4_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10NSA-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_b_cl_2d:			; GFX9-LABEL: gather4_c_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_mov_b32_e32 v5, v3			; GFX9-NEXT: v_mov_b32_e32 v5, v3
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_mov_b32_e32 v3, v4			; GFX9-NEXT: v_mov_b32_e32 v3, v4
	; GFX9-NEXT: v_lshl_or_b32 v2, v5, 16, v2			; GFX9-NEXT: v_perm_b32 v2, v5, v2, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_b_cl_2d:			; GFX10NSA-LABEL: gather4_c_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10NSA-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_l_2d:			; GFX9-LABEL: gather4_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s12
	; GFX9-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_l_2d:			; GFX10NSA-LABEL: gather4_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10NSA-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v1, 16, v0
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_c_l_2d:			; GFX9-LABEL: gather4_c_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v0			; GFX9-NEXT: v_mov_b32_e32 v1, v0
				; GFX9-NEXT: v_perm_b32 v2, v2, v4, s12
	; GFX9-NEXT: image_gather4_c_l v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_l v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_l_2d:			; GFX10NSA-LABEL: gather4_c_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10NSA-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
	; GFX9-LABEL: gather4_lz_2d:			; GFX9-LABEL: gather4_lz_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s12
	; GFX9-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_lz_2d:			; GFX10NSA-LABEL: gather4_lz_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10NSA-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_lz_2d:			; GFX9-LABEL: gather4_c_lz_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s10, s12			; GFX9-NEXT: s_mov_b32 s10, s12
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s9, s11
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s12
	; GFX9-NEXT: image_gather4_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_lz_2d:			; GFX10NSA-LABEL: gather4_c_lz_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10NSA-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	Show All 24 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.2darraymsaa.a16.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s		; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s
; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s		; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s
; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -amdgpu-enable-vopd=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s		; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -amdgpu-enable-vopd=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s

define amdgpu_ps <4 x float> @load_2darraymsaa_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %slice, i16 %fragid) {		define amdgpu_ps <4 x float> @load_2darraymsaa_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %slice, i16 %fragid) {
; GFX9-LABEL: load_2darraymsaa_v4f32_xyzw:		; GFX9-LABEL: load_2darraymsaa_v4f32_xyzw:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s8
		; GFX9-NEXT: v_perm_b32 v1, v3, v2, s8
; GFX9-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf unorm a16 da		; GFX9-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf unorm a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10PLUS-LABEL: load_2darraymsaa_v4f32_xyzw:		; GFX10PLUS-LABEL: load_2darraymsaa_v4f32_xyzw:
; GFX10PLUS: ; %bb.0:		; GFX10PLUS: ; %bb.0:
; GFX10PLUS-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10PLUS-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10PLUS-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10PLUS-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
; GFX10PLUS-NEXT: s_mov_b32 s0, s2		; GFX10PLUS-NEXT: s_mov_b32 s0, s2
; GFX10PLUS-NEXT: s_mov_b32 s1, s3		; GFX10PLUS-NEXT: s_mov_b32 s1, s3
; GFX10PLUS-NEXT: s_mov_b32 s2, s4		; GFX10PLUS-NEXT: s_mov_b32 s2, s4
; GFX10PLUS-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10PLUS-NEXT: v_lshl_or_b32 v1, v3, 16, v2
; GFX10PLUS-NEXT: s_mov_b32 s3, s5		; GFX10PLUS-NEXT: s_mov_b32 s3, s5
; GFX10PLUS-NEXT: s_mov_b32 s4, s6		; GFX10PLUS-NEXT: s_mov_b32 s4, s6
; GFX10PLUS-NEXT: s_mov_b32 s5, s7		; GFX10PLUS-NEXT: s_mov_b32 s5, s7
; GFX10PLUS-NEXT: s_mov_b32 s6, s8		; GFX10PLUS-NEXT: s_mov_b32 s6, s8
; GFX10PLUS-NEXT: s_mov_b32 s7, s9		; GFX10PLUS-NEXT: s_mov_b32 s7, s9
; GFX10PLUS-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm a16		; GFX10PLUS-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm a16
; GFX10PLUS-NEXT: s_waitcnt vmcnt(0)		; GFX10PLUS-NEXT: s_waitcnt vmcnt(0)
; GFX10PLUS-NEXT: ; return to shader part epilog		; GFX10PLUS-NEXT: ; return to shader part epilog
%v = call <4 x float> @llvm.amdgcn.image.load.2darraymsaa.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %slice, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.load.2darraymsaa.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %slice, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @load_2darraymsaa_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %slice, i16 %fragid) {		define amdgpu_ps <4 x float> @load_2darraymsaa_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %slice, i16 %fragid) {
; GFX9-LABEL: load_2darraymsaa_v4f32_xyzw_tfe:		; GFX9-LABEL: load_2darraymsaa_v4f32_xyzw_tfe:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: v_lshl_or_b32 v10, v1, 16, v0		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2		; GFX9-NEXT: s_mov_b32 s4, s6
		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v5, 0		; GFX9-NEXT: v_mov_b32_e32 v5, 0
; GFX9-NEXT: v_lshl_or_b32 v11, v3, 16, v0		; GFX9-NEXT: v_perm_b32 v10, v1, v0, s8
		; GFX9-NEXT: v_perm_b32 v11, v3, v2, s8
; GFX9-NEXT: v_mov_b32_e32 v6, v5		; GFX9-NEXT: v_mov_b32_e32 v6, v5
; GFX9-NEXT: v_mov_b32_e32 v7, v5		; GFX9-NEXT: v_mov_b32_e32 v7, v5
; GFX9-NEXT: v_mov_b32_e32 v8, v5		; GFX9-NEXT: v_mov_b32_e32 v8, v5
; GFX9-NEXT: v_mov_b32_e32 v9, v5		; GFX9-NEXT: v_mov_b32_e32 v9, v5
; GFX9-NEXT: v_mov_b32_e32 v0, v5		; GFX9-NEXT: v_mov_b32_e32 v0, v5
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_mov_b32_e32 v1, v6		; GFX9-NEXT: v_mov_b32_e32 v1, v6
; GFX9-NEXT: v_mov_b32_e32 v2, v7		; GFX9-NEXT: v_mov_b32_e32 v2, v7
; GFX9-NEXT: v_mov_b32_e32 v3, v8		; GFX9-NEXT: v_mov_b32_e32 v3, v8
; GFX9-NEXT: v_mov_b32_e32 v4, v9		; GFX9-NEXT: v_mov_b32_e32 v4, v9
; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe da		; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_store_dword v5, v4, s[10:11]		; GFX9-NEXT: global_store_dword v5, v4, s[10:11]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: load_2darraymsaa_v4f32_xyzw_tfe:		; GFX10-LABEL: load_2darraymsaa_v4f32_xyzw_tfe:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_mov_b32_e32 v5, 0		; GFX10-NEXT: v_mov_b32_e32 v5, 0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v10, v1, v0, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v11, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: v_mov_b32_e32 v6, v5		; GFX10-NEXT: v_mov_b32_e32 v6, v5
; GFX10-NEXT: v_mov_b32_e32 v7, v5		; GFX10-NEXT: v_mov_b32_e32 v7, v5
; GFX10-NEXT: v_mov_b32_e32 v8, v5		; GFX10-NEXT: v_mov_b32_e32 v8, v5
; GFX10-NEXT: v_mov_b32_e32 v9, v5		; GFX10-NEXT: v_mov_b32_e32 v9, v5
; GFX10-NEXT: v_lshl_or_b32 v10, v1, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v11, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: v_mov_b32_e32 v0, v5		; GFX10-NEXT: v_mov_b32_e32 v0, v5
; GFX10-NEXT: v_mov_b32_e32 v1, v6		; GFX10-NEXT: v_mov_b32_e32 v1, v6
; GFX10-NEXT: v_mov_b32_e32 v2, v7		; GFX10-NEXT: v_mov_b32_e32 v2, v7
; GFX10-NEXT: v_mov_b32_e32 v3, v8		; GFX10-NEXT: v_mov_b32_e32 v3, v8
; GFX10-NEXT: v_mov_b32_e32 v4, v9		; GFX10-NEXT: v_mov_b32_e32 v4, v9
; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm a16 tfe		; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm a16 tfe
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: global_store_dword v5, v4, s[10:11]		; GFX10-NEXT: global_store_dword v5, v4, s[10:11]
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: load_2darraymsaa_v4f32_xyzw_tfe:		; GFX11-LABEL: load_2darraymsaa_v4f32_xyzw_tfe:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: v_mov_b32_e32 v5, 0		; GFX11-NEXT: v_mov_b32_e32 v5, 0
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX11-NEXT: v_perm_b32 v10, v1, v0, 0x5040100
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX11-NEXT: v_perm_b32 v11, v3, v2, 0x5040100
; GFX11-NEXT: s_mov_b32 s0, s2		; GFX11-NEXT: s_mov_b32 s0, s2
; GFX11-NEXT: s_mov_b32 s1, s3		; GFX11-NEXT: s_mov_b32 s1, s3
; GFX11-NEXT: v_mov_b32_e32 v6, v5		; GFX11-NEXT: v_mov_b32_e32 v6, v5
; GFX11-NEXT: v_mov_b32_e32 v7, v5		; GFX11-NEXT: v_mov_b32_e32 v7, v5
; GFX11-NEXT: v_mov_b32_e32 v8, v5		; GFX11-NEXT: v_mov_b32_e32 v8, v5
; GFX11-NEXT: v_mov_b32_e32 v9, v5		; GFX11-NEXT: v_mov_b32_e32 v9, v5
; GFX11-NEXT: v_lshl_or_b32 v10, v1, 16, v0
; GFX11-NEXT: v_lshl_or_b32 v11, v3, 16, v2
; GFX11-NEXT: s_mov_b32 s2, s4		; GFX11-NEXT: s_mov_b32 s2, s4
; GFX11-NEXT: s_mov_b32 s3, s5		; GFX11-NEXT: s_mov_b32 s3, s5
; GFX11-NEXT: s_mov_b32 s4, s6		; GFX11-NEXT: s_mov_b32 s4, s6
; GFX11-NEXT: s_mov_b32 s5, s7		; GFX11-NEXT: s_mov_b32 s5, s7
; GFX11-NEXT: s_mov_b32 s6, s8		; GFX11-NEXT: s_mov_b32 s6, s8
; GFX11-NEXT: s_mov_b32 s7, s9		; GFX11-NEXT: s_mov_b32 s7, s9
; GFX11-NEXT: v_mov_b32_e32 v0, v5		; GFX11-NEXT: v_mov_b32_e32 v0, v5
; GFX11-NEXT: v_mov_b32_e32 v1, v6		; GFX11-NEXT: v_mov_b32_e32 v1, v6
Show All 10 Lines	; GFX11-NEXT: ; return to shader part epilog
%v.err = extractvalue { <4 x float>, i32 } %v, 1		%v.err = extractvalue { <4 x float>, i32 } %v, 1
store i32 %v.err, i32 addrspace(1)* %out, align 4		store i32 %v.err, i32 addrspace(1)* %out, align 4
ret <4 x float> %v.vec		ret <4 x float> %v.vec
}		}

define amdgpu_ps <4 x float> @load_2darraymsaa_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %slice, i16 %fragid) {		define amdgpu_ps <4 x float> @load_2darraymsaa_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %slice, i16 %fragid) {
; GFX9-LABEL: load_2darraymsaa_v4f32_xyzw_tfe_lwe:		; GFX9-LABEL: load_2darraymsaa_v4f32_xyzw_tfe_lwe:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: v_lshl_or_b32 v10, v1, 16, v0		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2		; GFX9-NEXT: s_mov_b32 s4, s6
		; GFX9-NEXT: s_mov_b32 s6, s8
		; GFX9-NEXT: s_mov_b32 s8, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v5, 0		; GFX9-NEXT: v_mov_b32_e32 v5, 0
; GFX9-NEXT: v_lshl_or_b32 v11, v3, 16, v0		; GFX9-NEXT: v_perm_b32 v10, v1, v0, s8
		; GFX9-NEXT: v_perm_b32 v11, v3, v2, s8
; GFX9-NEXT: v_mov_b32_e32 v6, v5		; GFX9-NEXT: v_mov_b32_e32 v6, v5
; GFX9-NEXT: v_mov_b32_e32 v7, v5		; GFX9-NEXT: v_mov_b32_e32 v7, v5
; GFX9-NEXT: v_mov_b32_e32 v8, v5		; GFX9-NEXT: v_mov_b32_e32 v8, v5
; GFX9-NEXT: v_mov_b32_e32 v9, v5		; GFX9-NEXT: v_mov_b32_e32 v9, v5
; GFX9-NEXT: v_mov_b32_e32 v0, v5		; GFX9-NEXT: v_mov_b32_e32 v0, v5
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_mov_b32_e32 v1, v6		; GFX9-NEXT: v_mov_b32_e32 v1, v6
; GFX9-NEXT: v_mov_b32_e32 v2, v7		; GFX9-NEXT: v_mov_b32_e32 v2, v7
; GFX9-NEXT: v_mov_b32_e32 v3, v8		; GFX9-NEXT: v_mov_b32_e32 v3, v8
; GFX9-NEXT: v_mov_b32_e32 v4, v9		; GFX9-NEXT: v_mov_b32_e32 v4, v9
; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe lwe da		; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe lwe da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_store_dword v5, v4, s[10:11]		; GFX9-NEXT: global_store_dword v5, v4, s[10:11]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: load_2darraymsaa_v4f32_xyzw_tfe_lwe:		; GFX10-LABEL: load_2darraymsaa_v4f32_xyzw_tfe_lwe:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_mov_b32_e32 v5, 0		; GFX10-NEXT: v_mov_b32_e32 v5, 0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v10, v1, v0, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v11, v3, v2, 0x5040100
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: v_mov_b32_e32 v6, v5		; GFX10-NEXT: v_mov_b32_e32 v6, v5
; GFX10-NEXT: v_mov_b32_e32 v7, v5		; GFX10-NEXT: v_mov_b32_e32 v7, v5
; GFX10-NEXT: v_mov_b32_e32 v8, v5		; GFX10-NEXT: v_mov_b32_e32 v8, v5
; GFX10-NEXT: v_mov_b32_e32 v9, v5		; GFX10-NEXT: v_mov_b32_e32 v9, v5
; GFX10-NEXT: v_lshl_or_b32 v10, v1, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v11, v3, 16, v2
; GFX10-NEXT: s_mov_b32 s2, s4		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
; GFX10-NEXT: s_mov_b32 s4, s6		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
; GFX10-NEXT: s_mov_b32 s6, s8		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: v_mov_b32_e32 v0, v5		; GFX10-NEXT: v_mov_b32_e32 v0, v5
; GFX10-NEXT: v_mov_b32_e32 v1, v6		; GFX10-NEXT: v_mov_b32_e32 v1, v6
; GFX10-NEXT: v_mov_b32_e32 v2, v7		; GFX10-NEXT: v_mov_b32_e32 v2, v7
; GFX10-NEXT: v_mov_b32_e32 v3, v8		; GFX10-NEXT: v_mov_b32_e32 v3, v8
; GFX10-NEXT: v_mov_b32_e32 v4, v9		; GFX10-NEXT: v_mov_b32_e32 v4, v9
; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm a16 tfe lwe		; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm a16 tfe lwe
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: global_store_dword v5, v4, s[10:11]		; GFX10-NEXT: global_store_dword v5, v4, s[10:11]
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: load_2darraymsaa_v4f32_xyzw_tfe_lwe:		; GFX11-LABEL: load_2darraymsaa_v4f32_xyzw_tfe_lwe:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: v_mov_b32_e32 v5, 0		; GFX11-NEXT: v_mov_b32_e32 v5, 0
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX11-NEXT: v_perm_b32 v10, v1, v0, 0x5040100
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX11-NEXT: v_perm_b32 v11, v3, v2, 0x5040100
; GFX11-NEXT: s_mov_b32 s0, s2		; GFX11-NEXT: s_mov_b32 s0, s2
; GFX11-NEXT: s_mov_b32 s1, s3		; GFX11-NEXT: s_mov_b32 s1, s3
; GFX11-NEXT: v_mov_b32_e32 v6, v5		; GFX11-NEXT: v_mov_b32_e32 v6, v5
; GFX11-NEXT: v_mov_b32_e32 v7, v5		; GFX11-NEXT: v_mov_b32_e32 v7, v5
; GFX11-NEXT: v_mov_b32_e32 v8, v5		; GFX11-NEXT: v_mov_b32_e32 v8, v5
; GFX11-NEXT: v_mov_b32_e32 v9, v5		; GFX11-NEXT: v_mov_b32_e32 v9, v5
; GFX11-NEXT: v_lshl_or_b32 v10, v1, 16, v0
; GFX11-NEXT: v_lshl_or_b32 v11, v3, 16, v2
; GFX11-NEXT: s_mov_b32 s2, s4		; GFX11-NEXT: s_mov_b32 s2, s4
; GFX11-NEXT: s_mov_b32 s3, s5		; GFX11-NEXT: s_mov_b32 s3, s5
; GFX11-NEXT: s_mov_b32 s4, s6		; GFX11-NEXT: s_mov_b32 s4, s6
; GFX11-NEXT: s_mov_b32 s5, s7		; GFX11-NEXT: s_mov_b32 s5, s7
; GFX11-NEXT: s_mov_b32 s6, s8		; GFX11-NEXT: s_mov_b32 s6, s8
; GFX11-NEXT: s_mov_b32 s7, s9		; GFX11-NEXT: s_mov_b32 s7, s9
; GFX11-NEXT: v_mov_b32_e32 v0, v5		; GFX11-NEXT: v_mov_b32_e32 v0, v5
; GFX11-NEXT: v_mov_b32_e32 v1, v6		; GFX11-NEXT: v_mov_b32_e32 v1, v6
Show All 19 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw:			; GFX9-LABEL: load_3d_v4f32_xyzw:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: s_mov_b32 s6, s8
				; GFX9-NEXT: s_mov_b32 s8, 0x5040100
				; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s8
	; GFX9-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf unorm a16			; GFX9-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf unorm a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10PLUS-LABEL: load_3d_v4f32_xyzw:			; GFX10PLUS-LABEL: load_3d_v4f32_xyzw:
	; GFX10PLUS: ; %bb.0:			; GFX10PLUS: ; %bb.0:
	; GFX10PLUS-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10PLUS-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10PLUS-NEXT: s_mov_b32 s0, s2			; GFX10PLUS-NEXT: s_mov_b32 s0, s2
	; GFX10PLUS-NEXT: s_mov_b32 s1, s3			; GFX10PLUS-NEXT: s_mov_b32 s1, s3
	; GFX10PLUS-NEXT: s_mov_b32 s2, s4			; GFX10PLUS-NEXT: s_mov_b32 s2, s4
	; GFX10PLUS-NEXT: s_mov_b32 s3, s5			; GFX10PLUS-NEXT: s_mov_b32 s3, s5
	; GFX10PLUS-NEXT: v_lshl_or_b32 v1, v1, 16, v0
	; GFX10PLUS-NEXT: s_mov_b32 s4, s6			; GFX10PLUS-NEXT: s_mov_b32 s4, s6
	; GFX10PLUS-NEXT: s_mov_b32 s5, s7			; GFX10PLUS-NEXT: s_mov_b32 s5, s7
	; GFX10PLUS-NEXT: s_mov_b32 s6, s8			; GFX10PLUS-NEXT: s_mov_b32 s6, s8
	; GFX10PLUS-NEXT: s_mov_b32 s7, s9			; GFX10PLUS-NEXT: s_mov_b32 s7, s9
	; GFX10PLUS-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16			; GFX10PLUS-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16
	; GFX10PLUS-NEXT: s_waitcnt vmcnt(0)			; GFX10PLUS-NEXT: s_waitcnt vmcnt(0)
	; GFX10PLUS-NEXT: ; return to shader part epilog			; GFX10PLUS-NEXT: ; return to shader part epilog
	%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s0, s2
				; GFX9-NEXT: s_mov_b32 s2, s4
				; GFX9-NEXT: s_mov_b32 s4, s6
				; GFX9-NEXT: s_mov_b32 s6, s8
				; GFX9-NEXT: s_mov_b32 s8, 0x5040100
	; GFX9-NEXT: v_mov_b32_e32 v7, 0			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v6, v2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: v_lshl_or_b32 v5, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v5, v1, v0, s8
	; GFX9-NEXT: v_mov_b32_e32 v8, v7			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v7			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v10, v7			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v11, v7			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v0, v7			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v8			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v9			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v10			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v11			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v7, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v7, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_mov_b32_e32 v6, v2			; GFX10-NEXT: v_mov_b32_e32 v6, v2
				; GFX10-NEXT: v_perm_b32 v5, v1, v0, 0x5040100
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: v_mov_b32_e32 v8, v7			; GFX10-NEXT: v_mov_b32_e32 v8, v7
	; GFX10-NEXT: v_mov_b32_e32 v9, v7			; GFX10-NEXT: v_mov_b32_e32 v9, v7
	; GFX10-NEXT: v_mov_b32_e32 v10, v7			; GFX10-NEXT: v_mov_b32_e32 v10, v7
	; GFX10-NEXT: v_mov_b32_e32 v11, v7			; GFX10-NEXT: v_mov_b32_e32 v11, v7
	; GFX10-NEXT: v_lshl_or_b32 v5, v1, 16, v0
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v7			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v8			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v9			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v10			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v11			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v7, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX11-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_dual_mov_b32 v6, v2 :: v_dual_mov_b32 v7, 0			; GFX11-NEXT: v_dual_mov_b32 v6, v2 :: v_dual_mov_b32 v7, 0
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v5, v1, v0, 0x5040100
	; GFX11-NEXT: s_mov_b32 s0, s2			; GFX11-NEXT: s_mov_b32 s0, s2
	; GFX11-NEXT: s_mov_b32 s1, s3			; GFX11-NEXT: s_mov_b32 s1, s3
	; GFX11-NEXT: s_mov_b32 s2, s4			; GFX11-NEXT: s_mov_b32 s2, s4
	; GFX11-NEXT: v_mov_b32_e32 v9, v7			; GFX11-NEXT: v_mov_b32_e32 v9, v7
	; GFX11-NEXT: v_mov_b32_e32 v11, v7			; GFX11-NEXT: v_mov_b32_e32 v11, v7
	; GFX11-NEXT: v_mov_b32_e32 v10, v7			; GFX11-NEXT: v_mov_b32_e32 v10, v7
	; GFX11-NEXT: v_mov_b32_e32 v8, v7			; GFX11-NEXT: v_mov_b32_e32 v8, v7
	; GFX11-NEXT: v_lshl_or_b32 v5, v1, 16, v0
	; GFX11-NEXT: s_mov_b32 s3, s5			; GFX11-NEXT: s_mov_b32 s3, s5
	; GFX11-NEXT: s_mov_b32 s4, s6			; GFX11-NEXT: s_mov_b32 s4, s6
	; GFX11-NEXT: s_mov_b32 s5, s7			; GFX11-NEXT: s_mov_b32 s5, s7
	; GFX11-NEXT: s_mov_b32 s6, s8			; GFX11-NEXT: s_mov_b32 s6, s8
	; GFX11-NEXT: s_mov_b32 s7, s9			; GFX11-NEXT: s_mov_b32 s7, s9
	; GFX11-NEXT: v_dual_mov_b32 v0, v7 :: v_dual_mov_b32 v3, v10			; GFX11-NEXT: v_dual_mov_b32 v0, v7 :: v_dual_mov_b32 v3, v10
	; GFX11-NEXT: v_dual_mov_b32 v1, v8 :: v_dual_mov_b32 v2, v9			; GFX11-NEXT: v_dual_mov_b32 v1, v8 :: v_dual_mov_b32 v2, v9
	; GFX11-NEXT: v_mov_b32_e32 v4, v11			; GFX11-NEXT: v_mov_b32_e32 v4, v11
	; GFX11-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe			; GFX11-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: global_store_b32 v7, v4, s[10:11]			; GFX11-NEXT: global_store_b32 v7, v4, s[10:11]
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)			%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue { <4 x float>, i32 } %v, 0			%v.vec = extractvalue { <4 x float>, i32 } %v, 0
	%v.err = extractvalue { <4 x float>, i32 } %v, 1			%v.err = extractvalue { <4 x float>, i32 } %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s0, s2
				; GFX9-NEXT: s_mov_b32 s2, s4
				; GFX9-NEXT: s_mov_b32 s4, s6
				; GFX9-NEXT: s_mov_b32 s6, s8
				; GFX9-NEXT: s_mov_b32 s8, 0x5040100
	; GFX9-NEXT: v_mov_b32_e32 v7, 0			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v6, v2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: v_lshl_or_b32 v5, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v5, v1, v0, s8
	; GFX9-NEXT: v_mov_b32_e32 v8, v7			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v7			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v10, v7			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v11, v7			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v0, v7			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v8			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v9			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v10			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v11			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe lwe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe lwe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v7, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v7, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_mov_b32_e32 v6, v2			; GFX10-NEXT: v_mov_b32_e32 v6, v2
				; GFX10-NEXT: v_perm_b32 v5, v1, v0, 0x5040100
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: v_mov_b32_e32 v8, v7			; GFX10-NEXT: v_mov_b32_e32 v8, v7
	; GFX10-NEXT: v_mov_b32_e32 v9, v7			; GFX10-NEXT: v_mov_b32_e32 v9, v7
	; GFX10-NEXT: v_mov_b32_e32 v10, v7			; GFX10-NEXT: v_mov_b32_e32 v10, v7
	; GFX10-NEXT: v_mov_b32_e32 v11, v7			; GFX10-NEXT: v_mov_b32_e32 v11, v7
	; GFX10-NEXT: v_lshl_or_b32 v5, v1, 16, v0
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v7			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v8			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v9			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v10			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v11			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v7, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX11-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_dual_mov_b32 v6, v2 :: v_dual_mov_b32 v7, 0			; GFX11-NEXT: v_dual_mov_b32 v6, v2 :: v_dual_mov_b32 v7, 0
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v5, v1, v0, 0x5040100
	; GFX11-NEXT: s_mov_b32 s0, s2			; GFX11-NEXT: s_mov_b32 s0, s2
	; GFX11-NEXT: s_mov_b32 s1, s3			; GFX11-NEXT: s_mov_b32 s1, s3
	; GFX11-NEXT: s_mov_b32 s2, s4			; GFX11-NEXT: s_mov_b32 s2, s4
	; GFX11-NEXT: v_mov_b32_e32 v9, v7			; GFX11-NEXT: v_mov_b32_e32 v9, v7
	; GFX11-NEXT: v_mov_b32_e32 v11, v7			; GFX11-NEXT: v_mov_b32_e32 v11, v7
	; GFX11-NEXT: v_mov_b32_e32 v10, v7			; GFX11-NEXT: v_mov_b32_e32 v10, v7
	; GFX11-NEXT: v_mov_b32_e32 v8, v7			; GFX11-NEXT: v_mov_b32_e32 v8, v7
	; GFX11-NEXT: v_lshl_or_b32 v5, v1, 16, v0
	; GFX11-NEXT: s_mov_b32 s3, s5			; GFX11-NEXT: s_mov_b32 s3, s5
	; GFX11-NEXT: s_mov_b32 s4, s6			; GFX11-NEXT: s_mov_b32 s4, s6
	; GFX11-NEXT: s_mov_b32 s5, s7			; GFX11-NEXT: s_mov_b32 s5, s7
	; GFX11-NEXT: s_mov_b32 s6, s8			; GFX11-NEXT: s_mov_b32 s6, s8
	; GFX11-NEXT: s_mov_b32 s7, s9			; GFX11-NEXT: s_mov_b32 s7, s9
	; GFX11-NEXT: v_dual_mov_b32 v0, v7 :: v_dual_mov_b32 v3, v10			; GFX11-NEXT: v_dual_mov_b32 v0, v7 :: v_dual_mov_b32 v3, v10
	; GFX11-NEXT: v_dual_mov_b32 v1, v8 :: v_dual_mov_b32 v2, v9			; GFX11-NEXT: v_dual_mov_b32 v1, v8 :: v_dual_mov_b32 v2, v9
	; GFX11-NEXT: v_mov_b32_e32 v4, v11			; GFX11-NEXT: v_mov_b32_e32 v4, v11
	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.cd.g16.ll

	Show All 9 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_cd_2d:			; GFX10-LABEL: sample_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v2
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_c_cd_2d:			; GFX10-LABEL: sample_c_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v2, v4, v3, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v2, v4, 16, v3
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_1d:			; GFX10-LABEL: sample_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_2d:			; GFX10-LABEL: sample_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v2
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_1d:			; GFX10-LABEL: sample_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_2d:			; GFX10-LABEL: sample_c_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, v2			; GFX10-NEXT: v_mov_b32_e32 v8, v2
				; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v1
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 12 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

	Show All 10 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_d_2d:			; GFX10-LABEL: sample_d_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v2
	; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {			define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
	; GFX10-LABEL: sample_d_3d:			; GFX10-LABEL: sample_d_3d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v3			; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_mov_b32_e32 v3, v2			; GFX10-NEXT: v_mov_b32_e32 v3, v2
	; GFX10-NEXT: v_and_b32_e32 v9, 0xffff, v9			; GFX10-NEXT: v_perm_b32 v2, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0			; GFX10-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v9
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_c_d_2d:			; GFX10-LABEL: sample_c_d_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v2, v4, v3, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v2, v4, 16, v3
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_d_cl_1d:			; GFX10-LABEL: sample_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_d_cl_2d:			; GFX10-LABEL: sample_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v2
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_d_cl_1d:			; GFX10-LABEL: sample_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_c_d_cl_2d:			; GFX10-LABEL: sample_c_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, v2			; GFX10-NEXT: v_mov_b32_e32 v8, v2
				; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v1
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {			define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
	; GFX10-LABEL: sample_c_d_o_2darray_V1:			; GFX10-LABEL: sample_c_d_o_2darray_V1:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v2			; GFX10-NEXT: v_mov_b32_e32 v9, v2
	; GFX10-NEXT: v_mov_b32_e32 v10, v3			; GFX10-NEXT: v_mov_b32_e32 v10, v3
				; GFX10-NEXT: v_mov_b32_e32 v11, v4
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v4, v10, v9, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v9			; GFX10-NEXT: v_perm_b32 v5, v5, v11, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v0
	; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY			; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret float %v			ret float %v
	}			}

	define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {			define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
	; GFX10-LABEL: sample_c_d_o_2darray_V2:			; GFX10-LABEL: sample_c_d_o_2darray_V2:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v2			; GFX10-NEXT: v_mov_b32_e32 v9, v2
	; GFX10-NEXT: v_mov_b32_e32 v10, v3			; GFX10-NEXT: v_mov_b32_e32 v10, v3
				; GFX10-NEXT: v_mov_b32_e32 v11, v4
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v4, v10, v9, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v9			; GFX10-NEXT: v_perm_b32 v5, v5, v11, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v0
	; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY			; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <2 x float> %v			ret <2 x float> %v
	}			}

	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.intersect_ray.ll

	Show First 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_and_or_b32 v5, v5, 0xffff, v9			; GFX10-NEXT: v_and_or_b32 v5, v5, 0xffff, v9
	; GFX10-NEXT: v_and_or_b32 v6, v6, 0xffff, v10			; GFX10-NEXT: v_and_or_b32 v6, v6, 0xffff, v10
	; GFX10-NEXT: image_bvh_intersect_ray v[0:3], v[0:7], s[0:3] a16			; GFX10-NEXT: image_bvh_intersect_ray v[0:3], v[0:7], s[0:3] a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: image_bvh_intersect_ray_a16:			; GFX11-LABEL: image_bvh_intersect_ray_a16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_lshrrev_b32_e32 v9, 16, v7			; GFX11-NEXT: v_perm_b32 v9, v5, v7, 0x5040100
	; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v5			; GFX11-NEXT: v_perm_b32 v10, v5, v7, 0x7060302
	; GFX11-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX11-NEXT: v_perm_b32 v11, v6, v8, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v11, 0xffff, v8			; GFX11-NEXT: image_bvh_intersect_ray v[0:3], [v0, v1, v[2:4], v[9:11]], s[0:3] a16
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX11-NEXT: v_lshl_or_b32 v7, v5, 16, v7
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_4)
	; GFX11-NEXT: v_lshl_or_b32 v8, v10, 16, v9
	; GFX11-NEXT: v_lshl_or_b32 v9, v6, 16, v11
	; GFX11-NEXT: image_bvh_intersect_ray v[0:3], [v0, v1, v[2:4], v[7:9]], s[0:3] a16
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)			%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)
	%r = bitcast <4 x i32> %v to <4 x float>			%r = bitcast <4 x i32> %v to <4 x float>
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define amdgpu_ps <4 x float> @image_bvh64_intersect_ray(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x float> %ray_dir, <3 x float> %ray_inv_dir, <4 x i32> inreg %tdescr) {			define amdgpu_ps <4 x float> @image_bvh64_intersect_ray(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x float> %ray_dir, <3 x float> %ray_inv_dir, <4 x i32> inreg %tdescr) {
	Show All 40 Lines
	; GFX10-NEXT: v_and_or_b32 v6, v6, 0xffff, v10			; GFX10-NEXT: v_and_or_b32 v6, v6, 0xffff, v10
	; GFX10-NEXT: v_and_or_b32 v7, v7, 0xffff, v11			; GFX10-NEXT: v_and_or_b32 v7, v7, 0xffff, v11
	; GFX10-NEXT: image_bvh64_intersect_ray v[0:3], v[0:15], s[0:3] a16			; GFX10-NEXT: image_bvh64_intersect_ray v[0:3], v[0:15], s[0:3] a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: image_bvh64_intersect_ray_a16:			; GFX11-LABEL: image_bvh64_intersect_ray_a16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v8			; GFX11-NEXT: v_perm_b32 v10, v6, v8, 0x5040100
	; GFX11-NEXT: v_lshrrev_b32_e32 v11, 16, v6			; GFX11-NEXT: v_perm_b32 v11, v6, v8, 0x7060302
	; GFX11-NEXT: v_and_b32_e32 v8, 0xffff, v8			; GFX11-NEXT: v_perm_b32 v12, v7, v9, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v12, 0xffff, v9			; GFX11-NEXT: image_bvh64_intersect_ray v[0:3], [v[0:1], v2, v[3:5], v[10:12]], s[0:3] a16
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_and_b32_e32 v10, 0xffff, v10
	; GFX11-NEXT: v_lshl_or_b32 v8, v6, 16, v8
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_4)
	; GFX11-NEXT: v_lshl_or_b32 v9, v11, 16, v10
	; GFX11-NEXT: v_lshl_or_b32 v10, v7, 16, v12
	; GFX11-NEXT: image_bvh64_intersect_ray v[0:3], [v[0:1], v2, v[3:5], v[8:10]], s[0:3] a16
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)			%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)
	%r = bitcast <4 x i32> %v to <4 x float>			%r = bitcast <4 x i32> %v to <4 x float>
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define amdgpu_ps <4 x float> @image_bvh_intersect_ray_vgpr_descr(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x float> %ray_dir, <3 x float> %ray_inv_dir, <4 x i32> %tdescr) {			define amdgpu_ps <4 x float> @image_bvh_intersect_ray_vgpr_descr(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x float> %ray_dir, <3 x float> %ray_inv_dir, <4 x i32> %tdescr) {
	▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
	; GFX1013-NEXT: v_mov_b32_e32 v0, v13			; GFX1013-NEXT: v_mov_b32_e32 v0, v13
	; GFX1013-NEXT: v_mov_b32_e32 v1, v14			; GFX1013-NEXT: v_mov_b32_e32 v1, v14
	; GFX1013-NEXT: v_mov_b32_e32 v2, v15			; GFX1013-NEXT: v_mov_b32_e32 v2, v15
	; GFX1013-NEXT: v_mov_b32_e32 v3, v16			; GFX1013-NEXT: v_mov_b32_e32 v3, v16
	; GFX1013-NEXT: ; return to shader part epilog			; GFX1013-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: image_bvh_intersect_ray_a16_vgpr_descr:			; GFX11-LABEL: image_bvh_intersect_ray_a16_vgpr_descr:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_dual_mov_b32 v13, v0 :: v_dual_mov_b32 v14, v1			; GFX11-NEXT: v_dual_mov_b32 v16, v0 :: v_dual_mov_b32 v17, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v7			; GFX11-NEXT: v_dual_mov_b32 v13, v2 :: v_dual_mov_b32 v14, v3
	; GFX11-NEXT: v_dual_mov_b32 v15, v2 :: v_dual_mov_b32 v16, v3			; GFX11-NEXT: v_mov_b32_e32 v15, v4
	; GFX11-NEXT: v_dual_mov_b32 v17, v4 :: v_dual_and_b32 v2, 0xffff, v7			; GFX11-NEXT: v_perm_b32 v4, v5, v7, 0x5040100
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v5			; GFX11-NEXT: v_perm_b32 v5, v5, v7, 0x7060302
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(SKIP_3) \| instid1(VALU_DEP_3)			; GFX11-NEXT: v_perm_b32 v6, v6, v8, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v8
	; GFX11-NEXT: s_mov_b32 s1, exec_lo			; GFX11-NEXT: s_mov_b32 s1, exec_lo
	; GFX11-NEXT: v_lshl_or_b32 v4, v5, 16, v2
	; GFX11-NEXT: v_lshl_or_b32 v5, v1, 16, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3)
	; GFX11-NEXT: v_lshl_or_b32 v6, v6, 16, v3
	; GFX11-NEXT: .LBB7_1: ; =>This Inner Loop Header: Depth=1			; GFX11-NEXT: .LBB7_1: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_readfirstlane_b32 s4, v9			; GFX11-NEXT: v_readfirstlane_b32 s4, v9
	; GFX11-NEXT: v_readfirstlane_b32 s5, v10			; GFX11-NEXT: v_readfirstlane_b32 s5, v10
	; GFX11-NEXT: v_readfirstlane_b32 s6, v11			; GFX11-NEXT: v_readfirstlane_b32 s6, v11
	; GFX11-NEXT: v_readfirstlane_b32 s7, v12			; GFX11-NEXT: v_readfirstlane_b32 s7, v12
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[9:10]			; GFX11-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[9:10]
	; GFX11-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[11:12]			; GFX11-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[11:12]
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
	; GFX11-NEXT: s_and_b32 s0, vcc_lo, s0			; GFX11-NEXT: s_and_b32 s0, vcc_lo, s0
	; GFX11-NEXT: s_and_saveexec_b32 s0, s0			; GFX11-NEXT: s_and_saveexec_b32 s0, s0
	; GFX11-NEXT: image_bvh_intersect_ray v[0:3], [v13, v14, v[15:17], v[4:6]], s[4:7] a16			; GFX11-NEXT: image_bvh_intersect_ray v[0:3], [v16, v17, v[13:15], v[4:6]], s[4:7] a16
	; GFX11-NEXT: ; implicit-def: $vgpr9			; GFX11-NEXT: ; implicit-def: $vgpr9
	; GFX11-NEXT: ; implicit-def: $vgpr13			; GFX11-NEXT: ; implicit-def: $vgpr16
	; GFX11-NEXT: ; implicit-def: $vgpr14			; GFX11-NEXT: ; implicit-def: $vgpr17
	; GFX11-NEXT: ; implicit-def: $vgpr15_vgpr16_vgpr17			; GFX11-NEXT: ; implicit-def: $vgpr13_vgpr14_vgpr15
	; GFX11-NEXT: ; implicit-def: $vgpr4_vgpr5_vgpr6			; GFX11-NEXT: ; implicit-def: $vgpr4_vgpr5_vgpr6
	; GFX11-NEXT: ; implicit-def: $vgpr9_vgpr10_vgpr11_vgpr12			; GFX11-NEXT: ; implicit-def: $vgpr9_vgpr10_vgpr11_vgpr12
	; GFX11-NEXT: s_xor_b32 exec_lo, exec_lo, s0			; GFX11-NEXT: s_xor_b32 exec_lo, exec_lo, s0
	; GFX11-NEXT: s_cbranch_execnz .LBB7_1			; GFX11-NEXT: s_cbranch_execnz .LBB7_1
	; GFX11-NEXT: ; %bb.2:			; GFX11-NEXT: ; %bb.2:
	; GFX11-NEXT: s_mov_b32 exec_lo, s1			; GFX11-NEXT: s_mov_b32 exec_lo, s1
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	▲ Show 20 Lines • Show All 200 Lines • ▼ Show 20 Lines
	; GFX1013-NEXT: v_mov_b32_e32 v0, v20			; GFX1013-NEXT: v_mov_b32_e32 v0, v20
	; GFX1013-NEXT: v_mov_b32_e32 v1, v21			; GFX1013-NEXT: v_mov_b32_e32 v1, v21
	; GFX1013-NEXT: v_mov_b32_e32 v2, v22			; GFX1013-NEXT: v_mov_b32_e32 v2, v22
	; GFX1013-NEXT: v_mov_b32_e32 v3, v23			; GFX1013-NEXT: v_mov_b32_e32 v3, v23
	; GFX1013-NEXT: ; return to shader part epilog			; GFX1013-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: image_bvh64_intersect_ray_a16_vgpr_descr:			; GFX11-LABEL: image_bvh64_intersect_ray_a16_vgpr_descr:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_dual_mov_b32 v14, v0 :: v_dual_mov_b32 v15, v1			; GFX11-NEXT: v_dual_mov_b32 v17, v0 :: v_dual_mov_b32 v18, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v8			; GFX11-NEXT: v_dual_mov_b32 v19, v2 :: v_dual_mov_b32 v14, v3
	; GFX11-NEXT: v_dual_mov_b32 v16, v2 :: v_dual_mov_b32 v17, v3			; GFX11-NEXT: v_dual_mov_b32 v15, v4 :: v_dual_mov_b32 v16, v5
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v6			; GFX11-NEXT: v_perm_b32 v4, v6, v8, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v8			; GFX11-NEXT: v_perm_b32 v5, v6, v8, 0x7060302
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(SKIP_2) \| instid1(VALU_DEP_4)			; GFX11-NEXT: v_perm_b32 v6, v7, v9, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-NEXT: v_dual_mov_b32 v18, v4 :: v_dual_and_b32 v3, 0xffff, v9
	; GFX11-NEXT: v_mov_b32_e32 v19, v5
	; GFX11-NEXT: v_lshl_or_b32 v4, v6, 16, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_4)
	; GFX11-NEXT: v_lshl_or_b32 v5, v1, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v6, v7, 16, v3
	; GFX11-NEXT: s_mov_b32 s1, exec_lo			; GFX11-NEXT: s_mov_b32 s1, exec_lo
	; GFX11-NEXT: .LBB9_1: ; =>This Inner Loop Header: Depth=1			; GFX11-NEXT: .LBB9_1: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_readfirstlane_b32 s4, v10			; GFX11-NEXT: v_readfirstlane_b32 s4, v10
	; GFX11-NEXT: v_readfirstlane_b32 s5, v11			; GFX11-NEXT: v_readfirstlane_b32 s5, v11
	; GFX11-NEXT: v_readfirstlane_b32 s6, v12			; GFX11-NEXT: v_readfirstlane_b32 s6, v12
	; GFX11-NEXT: v_readfirstlane_b32 s7, v13			; GFX11-NEXT: v_readfirstlane_b32 s7, v13
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[10:11]			; GFX11-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[10:11]
	; GFX11-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[12:13]			; GFX11-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[12:13]
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
	; GFX11-NEXT: s_and_b32 s0, vcc_lo, s0			; GFX11-NEXT: s_and_b32 s0, vcc_lo, s0
	; GFX11-NEXT: s_and_saveexec_b32 s0, s0			; GFX11-NEXT: s_and_saveexec_b32 s0, s0
	; GFX11-NEXT: image_bvh64_intersect_ray v[0:3], [v[14:15], v16, v[17:19], v[4:6]], s[4:7] a16			; GFX11-NEXT: image_bvh64_intersect_ray v[0:3], [v[17:18], v19, v[14:16], v[4:6]], s[4:7] a16
	; GFX11-NEXT: ; implicit-def: $vgpr10			; GFX11-NEXT: ; implicit-def: $vgpr10
	; GFX11-NEXT: ; implicit-def: $vgpr14_vgpr15			; GFX11-NEXT: ; implicit-def: $vgpr17_vgpr18
	; GFX11-NEXT: ; implicit-def: $vgpr16			; GFX11-NEXT: ; implicit-def: $vgpr19
	; GFX11-NEXT: ; implicit-def: $vgpr17_vgpr18_vgpr19			; GFX11-NEXT: ; implicit-def: $vgpr14_vgpr15_vgpr16
	; GFX11-NEXT: ; implicit-def: $vgpr4_vgpr5_vgpr6			; GFX11-NEXT: ; implicit-def: $vgpr4_vgpr5_vgpr6
	; GFX11-NEXT: ; implicit-def: $vgpr10_vgpr11_vgpr12_vgpr13			; GFX11-NEXT: ; implicit-def: $vgpr10_vgpr11_vgpr12_vgpr13
	; GFX11-NEXT: s_xor_b32 exec_lo, exec_lo, s0			; GFX11-NEXT: s_xor_b32 exec_lo, exec_lo, s0
	; GFX11-NEXT: s_cbranch_execnz .LBB9_1			; GFX11-NEXT: s_cbranch_execnz .LBB9_1
	; GFX11-NEXT: ; %bb.2:			; GFX11-NEXT: ; %bb.2:
	; GFX11-NEXT: s_mov_b32 exec_lo, s1			; GFX11-NEXT: s_mov_b32 exec_lo, s1
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	▲ Show 20 Lines • Show All 509 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

	Show First 20 Lines • Show All 294 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v2i8:			; GFX9-LABEL: v_saddsat_v2i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v3, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_saddsat_v2i8:			; GFX10-LABEL: v_saddsat_v2i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v1			; GFX10-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_saddsat_v2i8:			; GFX11-LABEL: v_saddsat_v2i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX11-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1			; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1
	▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_and_b32_sdwa v1, sext(v3), v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, sext(v3), v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v4i8:			; GFX9-LABEL: v_saddsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_and_b32_e32 v6, 0xffff, v0
	; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v6
	; GFX9-NEXT: v_mov_b32_e32 v6, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_and_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX9-NEXT: v_perm_b32 v2, v2, v0, s4
	; GFX9-NEXT: v_and_b32_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX9-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-NEXT: v_perm_b32 v3, v4, v1, s4
				; GFX9-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_add_i16 v2, v2, v3 clamp			; GFX9-NEXT: v_pk_add_i16 v2, v2, v3 clamp
	; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2			; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_saddsat_v4i8:			; GFX10-LABEL: v_saddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v7, 0xffff, v0			; GFX10-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX10-NEXT: v_and_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-NEXT: v_perm_b32 v3, v4, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v8, 0xffff, v1			; GFX10-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX10-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v7
	; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v3, v5, 16, v8
	; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX10-NEXT: v_mov_b32_e32 v4, 24			; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_i16 v2, v2, v3 clamp			; GFX10-NEXT: v_pk_add_i16 v2, v2, v3 clamp
	; GFX10-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_pk_ashrrev_i16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0			; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1			; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_saddsat_v4i8:			; GFX11-LABEL: v_saddsat_v4i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v6, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v3, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX11-NEXT: v_alignbit_b32 v0, v4, v0, 16
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX11-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v2, v5, 16, v6
	; GFX11-NEXT: v_and_b32_e32 v5, 0xffff, v7
	; GFX11-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v5
	; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_add_i16 v0, v0, v2 clamp			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX11-NEXT: v_pk_add_i16 v2, v2, v3 clamp
				; GFX11-NEXT: v_pk_add_i16 v0, v0, v1 clamp
				; GFX11-NEXT: v_pk_ashrrev_i16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_add_i16 v1, v3, v1 clamp			; GFX11-NEXT: v_bfe_u32 v2, v1, 16, 8
	; GFX11-NEXT: v_bfe_u32 v2, v0, 16, 8			; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX11-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v1			; GFX11-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX11-NEXT: v_bfe_u32 v1, v1, 16, 8			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX11-NEXT: v_and_or_b32 v0, v0, 0xff, v2			; GFX11-NEXT: v_and_or_b32 v1, v1, 0xff, v2
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX11-NEXT: v_or3_b32 v0, v1, v3, v0
	; GFX11-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX11-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.sadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.sadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	ret i32 %cast.result			ret i32 %cast.result
	}			}

	▲ Show 20 Lines • Show All 5,306 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll

	Show First 20 Lines • Show All 2,898 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3			; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3			; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: s_xor_b32 s4, s11, s7			; GFX9-NEXT: s_xor_b32 s4, s11, s7
	; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
	; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2			; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
				; GFX9-NEXT: v_xor_b32_e32 v3, s11, v3
				; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
	; GFX9-NEXT: v_subrev_u32_e32 v2, s10, v2			; GFX9-NEXT: v_subrev_u32_e32 v2, s10, v2
	; GFX9-NEXT: v_subrev_u32_e32 v1, s4, v1			; GFX9-NEXT: v_subrev_u32_e32 v1, s4, v1
	; GFX9-NEXT: v_xor_b32_e32 v3, s11, v3
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_subrev_u32_e32 v3, s11, v3			; GFX9-NEXT: v_subrev_u32_e32 v3, s11, v3
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v2			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
				; GFX9-NEXT: v_perm_b32 v1, v3, v2, s4
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dword v2, v0, s[0:1]			; GFX9-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX9-NEXT: global_store_dword v2, v1, s[2:3]			; GFX9-NEXT: global_store_dword v2, v1, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: sdivrem_v2i16:			; GFX10-LABEL: sdivrem_v2i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_sext_i32_i16 s2, s1			; GFX10-NEXT: s_sext_i32_i16 s2, s1
	; GFX10-NEXT: s_bfe_i32 s1, s1, 0x100010			; GFX10-NEXT: s_bfe_i32 s1, s1, 0x100010
	; GFX10-NEXT: s_ashr_i32 s3, s2, 31			; GFX10-NEXT: s_ashr_i32 s3, s2, 31
	; GFX10-NEXT: s_ashr_i32 s8, s1, 31			; GFX10-NEXT: s_ashr_i32 s8, s1, 31
	; GFX10-NEXT: s_add_i32 s2, s2, s3			; GFX10-NEXT: s_add_i32 s2, s2, s3
	; GFX10-NEXT: s_add_i32 s1, s1, s8			; GFX10-NEXT: s_add_i32 s1, s1, s8
	; GFX10-NEXT: s_xor_b32 s2, s2, s3			; GFX10-NEXT: s_xor_b32 s2, s2, s3
	; GFX10-NEXT: s_xor_b32 s1, s1, s8			; GFX10-NEXT: s_xor_b32 s1, s1, s8
	; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s1			; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s1
	; GFX10-NEXT: s_sub_i32 s6, 0, s2			; GFX10-NEXT: s_sub_i32 s6, 0, s2
				; GFX10-NEXT: s_sub_i32 s7, 0, s1
	; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_lo_u32 v2, s6, v0			; GFX10-NEXT: v_mul_lo_u32 v2, s6, v0
	; GFX10-NEXT: s_sub_i32 s6, 0, s1			; GFX10-NEXT: v_mul_lo_u32 v3, s7, v1
	; GFX10-NEXT: v_mul_lo_u32 v3, s6, v1
	; GFX10-NEXT: s_sext_i32_i16 s6, s0			; GFX10-NEXT: s_sext_i32_i16 s6, s0
	; GFX10-NEXT: s_bfe_i32 s0, s0, 0x100010			; GFX10-NEXT: s_bfe_i32 s0, s0, 0x100010
	; GFX10-NEXT: s_ashr_i32 s9, s6, 31			; GFX10-NEXT: s_ashr_i32 s9, s6, 31
	; GFX10-NEXT: s_ashr_i32 s10, s0, 31			; GFX10-NEXT: s_ashr_i32 s10, s0, 31
	; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX10-NEXT: s_add_i32 s6, s6, s9			; GFX10-NEXT: s_add_i32 s6, s6, s9
	; GFX10-NEXT: s_add_i32 s0, s0, s10			; GFX10-NEXT: s_add_i32 s0, s0, s10
				; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX10-NEXT: s_xor_b32 s6, s6, s9			; GFX10-NEXT: s_xor_b32 s6, s6, s9
	; GFX10-NEXT: s_xor_b32 s0, s0, s10			; GFX10-NEXT: s_xor_b32 s0, s0, s10
	; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2			; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2
	; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3			; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3
	; GFX10-NEXT: v_mul_hi_u32 v0, s6, v0			; GFX10-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1			; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1
	; GFX10-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX10-NEXT: v_mul_lo_u32 v2, v0, s2
	; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
	; GFX10-NEXT: v_mul_lo_u32 v3, v1, s1			; GFX10-NEXT: v_mul_lo_u32 v3, v1, s1
	; GFX10-NEXT: v_add_nc_u32_e32 v6, 1, v1			; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
				; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1
	; GFX10-NEXT: v_sub_nc_u32_e32 v2, s6, v2			; GFX10-NEXT: v_sub_nc_u32_e32 v2, s6, v2
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
	; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3			; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3
	; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s2, v2			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2			; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s2, v2
	; GFX10-NEXT: v_cmp_le_u32_e64 s0, s1, v3			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v3
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc_lo			; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v2
	; GFX10-NEXT: v_subrev_nc_u32_e32 v4, s1, v3			; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v6, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0
	; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v0			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v4, s0			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2			; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1
	; GFX10-NEXT: v_subrev_nc_u32_e32 v4, s2, v2			; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
	; GFX10-NEXT: v_add_nc_u32_e32 v6, 1, v1			; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v2
	; GFX10-NEXT: v_cmp_le_u32_e64 s0, s1, v3			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v3
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc_lo			; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s2, v2
	; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s1, v3			; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
	; GFX10-NEXT: s_xor_b32 s1, s9, s3			; GFX10-NEXT: s_xor_b32 s1, s9, s3
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v6, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0
	; GFX10-NEXT: v_xor_b32_e32 v0, s1, v0			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v5, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0
	; GFX10-NEXT: v_xor_b32_e32 v2, s9, v2			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo
	; GFX10-NEXT: s_xor_b32 s0, s10, s8			; GFX10-NEXT: s_xor_b32 s0, s10, s8
				; GFX10-NEXT: v_xor_b32_e32 v0, s1, v0
	; GFX10-NEXT: v_xor_b32_e32 v1, s0, v1			; GFX10-NEXT: v_xor_b32_e32 v1, s0, v1
	; GFX10-NEXT: v_subrev_nc_u32_e32 v0, s1, v0			; GFX10-NEXT: v_xor_b32_e32 v2, s9, v2
	; GFX10-NEXT: v_xor_b32_e32 v3, s10, v3			; GFX10-NEXT: v_xor_b32_e32 v3, s10, v3
	; GFX10-NEXT: v_subrev_nc_u32_e32 v2, s9, v2			; GFX10-NEXT: v_subrev_nc_u32_e32 v0, s1, v0
	; GFX10-NEXT: v_subrev_nc_u32_e32 v1, s0, v1			; GFX10-NEXT: v_subrev_nc_u32_e32 v1, s0, v1
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_subrev_nc_u32_e32 v2, s9, v2
	; GFX10-NEXT: v_subrev_nc_u32_e32 v3, s10, v3			; GFX10-NEXT: v_subrev_nc_u32_e32 v3, s10, v3
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_store_dword v1, v0, s[4:5]			; GFX10-NEXT: global_store_dword v1, v0, s[4:5]
	; GFX10-NEXT: global_store_dword v1, v2, s[6:7]			; GFX10-NEXT: global_store_dword v1, v2, s[6:7]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%div = sdiv <2 x i16> %x, %y			%div = sdiv <2 x i16> %x, %y
	store <2 x i16> %div, <2 x i16> addrspace(1)* %out0			store <2 x i16> %div, <2 x i16> addrspace(1)* %out0
	%rem = srem <2 x i16> %x, %y			%rem = srem <2 x i16> %x, %y
	store <2 x i16> %rem, <2 x i16> addrspace(1)* %out1			store <2 x i16> %rem, <2 x i16> addrspace(1)* %out1
	▲ Show 20 Lines • Show All 304 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

	Show First 20 Lines • Show All 294 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v2i8:			; GFX9-LABEL: v_ssubsat_v2i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v3, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_ssubsat_v2i8:			; GFX10-LABEL: v_ssubsat_v2i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v1			; GFX10-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_ssubsat_v2i8:			; GFX11-LABEL: v_ssubsat_v2i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX11-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1			; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1
	▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_and_b32_sdwa v1, sext(v3), v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, sext(v3), v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v4i8:			; GFX9-LABEL: v_ssubsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_and_b32_e32 v6, 0xffff, v0
	; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v6
	; GFX9-NEXT: v_mov_b32_e32 v6, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_and_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX9-NEXT: v_perm_b32 v2, v2, v0, s4
	; GFX9-NEXT: v_and_b32_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX9-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-NEXT: v_perm_b32 v3, v4, v1, s4
				; GFX9-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_sub_i16 v2, v2, v3 clamp			; GFX9-NEXT: v_pk_sub_i16 v2, v2, v3 clamp
	; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2			; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_ssubsat_v4i8:			; GFX10-LABEL: v_ssubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v7, 0xffff, v0			; GFX10-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX10-NEXT: v_and_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-NEXT: v_perm_b32 v3, v4, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v8, 0xffff, v1			; GFX10-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX10-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v7
	; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v3, v5, 16, v8
	; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX10-NEXT: v_mov_b32_e32 v4, 24			; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_i16 v2, v2, v3 clamp			; GFX10-NEXT: v_pk_sub_i16 v2, v2, v3 clamp
	; GFX10-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_pk_ashrrev_i16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0			; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1			; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_ssubsat_v4i8:			; GFX11-LABEL: v_ssubsat_v4i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v6, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v3, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX11-NEXT: v_alignbit_b32 v0, v4, v0, 16
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX11-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v2, v5, 16, v6
	; GFX11-NEXT: v_and_b32_e32 v5, 0xffff, v7
	; GFX11-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v5
	; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_sub_i16 v0, v0, v2 clamp			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX11-NEXT: v_pk_sub_i16 v2, v2, v3 clamp
				; GFX11-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
				; GFX11-NEXT: v_pk_ashrrev_i16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_sub_i16 v1, v3, v1 clamp			; GFX11-NEXT: v_bfe_u32 v2, v1, 16, 8
	; GFX11-NEXT: v_bfe_u32 v2, v0, 16, 8			; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX11-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v1			; GFX11-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX11-NEXT: v_bfe_u32 v1, v1, 16, 8			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX11-NEXT: v_and_or_b32 v0, v0, 0xff, v2			; GFX11-NEXT: v_and_or_b32 v1, v1, 0xff, v2
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX11-NEXT: v_or3_b32 v0, v1, v3, v0
	; GFX11-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX11-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.ssub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.ssub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	ret i32 %cast.result			ret i32 %cast.result
	}			}

	▲ Show 20 Lines • Show All 5,403 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

	Show First 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_uaddsat_v2i8:			; GFX9-LABEL: v_uaddsat_v2i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v3, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_uaddsat_v2i8:			; GFX10-LABEL: v_uaddsat_v2i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v1			; GFX10-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_uaddsat_v2i8:			; GFX11-LABEL: v_uaddsat_v2i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX11-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1			; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1
	▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_uaddsat_v4i8:			; GFX9-LABEL: v_uaddsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_and_b32_e32 v6, 0xffff, v0
	; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v6
	; GFX9-NEXT: v_mov_b32_e32 v6, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_and_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX9-NEXT: v_perm_b32 v2, v2, v0, s4
	; GFX9-NEXT: v_and_b32_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX9-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-NEXT: v_perm_b32 v3, v4, v1, s4
				; GFX9-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_add_u16 v2, v2, v3 clamp			; GFX9-NEXT: v_pk_add_u16 v2, v2, v3 clamp
	; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2			; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_uaddsat_v4i8:			; GFX10-LABEL: v_uaddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v7, 0xffff, v0			; GFX10-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX10-NEXT: v_and_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-NEXT: v_perm_b32 v3, v4, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v8, 0xffff, v1			; GFX10-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX10-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v7
	; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v3, v5, 16, v8
	; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX10-NEXT: v_mov_b32_e32 v4, 24			; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_u16 v2, v2, v3 clamp			; GFX10-NEXT: v_pk_add_u16 v2, v2, v3 clamp
	; GFX10-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_pk_lshrrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0			; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1			; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_uaddsat_v4i8:			; GFX11-LABEL: v_uaddsat_v4i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v6, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v3, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX11-NEXT: v_alignbit_b32 v0, v4, v0, 16
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX11-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v2, v5, 16, v6
	; GFX11-NEXT: v_and_b32_e32 v5, 0xffff, v7
	; GFX11-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v5
	; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_add_u16 v0, v0, v2 clamp			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX11-NEXT: v_pk_add_u16 v2, v2, v3 clamp
				; GFX11-NEXT: v_pk_add_u16 v0, v0, v1 clamp
				; GFX11-NEXT: v_pk_lshrrev_b16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_add_u16 v1, v3, v1 clamp			; GFX11-NEXT: v_bfe_u32 v2, v1, 16, 8
	; GFX11-NEXT: v_bfe_u32 v2, v0, 16, 8			; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX11-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v1			; GFX11-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX11-NEXT: v_bfe_u32 v1, v1, 16, 8			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX11-NEXT: v_and_or_b32 v0, v0, 0xff, v2			; GFX11-NEXT: v_and_or_b32 v1, v1, 0xff, v2
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX11-NEXT: v_or3_b32 v0, v1, v3, v0
	; GFX11-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX11-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.uadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.uadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	ret i32 %cast.result			ret i32 %cast.result
	}			}

	▲ Show 20 Lines • Show All 3,311 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll

	Show First 20 Lines • Show All 2,313 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v4, s2, v3			; GFX9-NEXT: v_subrev_u32_e32 v4, s2, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v4, s2, v3			; GFX9-NEXT: v_subrev_u32_e32 v4, s2, v3
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v2			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s0
				; GFX9-NEXT: v_perm_b32 v1, v3, v2, s0
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dword v2, v0, s[4:5]			; GFX9-NEXT: global_store_dword v2, v0, s[4:5]
	; GFX9-NEXT: global_store_dword v2, v1, s[6:7]			; GFX9-NEXT: global_store_dword v2, v1, s[6:7]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: udivrem_v2i16:			; GFX10-LABEL: udivrem_v2i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_and_b32 s2, s1, 0xffff			; GFX10-NEXT: s_and_b32 s2, s1, 0xffff
	; GFX10-NEXT: s_lshr_b32 s1, s1, 16			; GFX10-NEXT: s_lshr_b32 s1, s1, 16
	; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s1			; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s1
	; GFX10-NEXT: s_sub_i32 s3, 0, s2			; GFX10-NEXT: s_sub_i32 s3, 0, s2
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0			; GFX10-NEXT: s_sub_i32 s6, 0, s1
	; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_lo_u32 v2, s3, v0			; GFX10-NEXT: v_mul_lo_u32 v2, s3, v0
	; GFX10-NEXT: s_sub_i32 s3, 0, s1			; GFX10-NEXT: v_mul_lo_u32 v3, s6, v1
	; GFX10-NEXT: v_mul_lo_u32 v3, s3, v1
	; GFX10-NEXT: s_and_b32 s3, s0, 0xffff			; GFX10-NEXT: s_and_b32 s3, s0, 0xffff
	; GFX10-NEXT: s_lshr_b32 s0, s0, 16			; GFX10-NEXT: s_lshr_b32 s0, s0, 16
				; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
	; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2			; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2
	; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3			; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3
	; GFX10-NEXT: v_mul_hi_u32 v0, s3, v0			; GFX10-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1			; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1
	; GFX10-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX10-NEXT: v_mul_lo_u32 v2, v0, s2
	; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
	; GFX10-NEXT: v_mul_lo_u32 v3, v1, s1			; GFX10-NEXT: v_mul_lo_u32 v3, v1, s1
	; GFX10-NEXT: v_add_nc_u32_e32 v6, 1, v1			; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
				; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1
	; GFX10-NEXT: v_sub_nc_u32_e32 v2, s3, v2			; GFX10-NEXT: v_sub_nc_u32_e32 v2, s3, v2
	; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3			; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3
	; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s2, v2			; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s2, v2
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v3
	; GFX10-NEXT: v_cmp_le_u32_e64 s0, s1, v3			; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v2
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc_lo			; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3
	; GFX10-NEXT: v_subrev_nc_u32_e32 v4, s1, v3			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v6, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0
	; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v0			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v4, s0
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2
	; GFX10-NEXT: v_subrev_nc_u32_e32 v4, s2, v2
	; GFX10-NEXT: v_cmp_le_u32_e64 s0, s1, v3
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc_lo
	; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1			; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1
	; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s1, v3			; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo			; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v2
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v3
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v5, s0			; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s2, v2
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v6, s0			; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0
				; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo
				; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_store_dword v1, v0, s[4:5]			; GFX10-NEXT: global_store_dword v1, v0, s[4:5]
	; GFX10-NEXT: global_store_dword v1, v2, s[6:7]			; GFX10-NEXT: global_store_dword v1, v2, s[6:7]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%div = udiv <2 x i16> %x, %y			%div = udiv <2 x i16> %x, %y
	store <2 x i16> %div, <2 x i16> addrspace(1)* %out0			store <2 x i16> %div, <2 x i16> addrspace(1)* %out0
	%rem = urem <2 x i16> %x, %y			%rem = urem <2 x i16> %x, %y
	store <2 x i16> %rem, <2 x i16> addrspace(1)* %out1			store <2 x i16> %rem, <2 x i16> addrspace(1)* %out1
	▲ Show 20 Lines • Show All 238 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

	Show First 20 Lines • Show All 213 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_usubsat_v2i8:			; GFX9-LABEL: v_usubsat_v2i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v3, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_usubsat_v2i8:			; GFX10-LABEL: v_usubsat_v2i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v1			; GFX10-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_b32_sdwa v1, v0, s4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_usubsat_v2i8:			; GFX11-LABEL: v_usubsat_v2i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX11-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX11-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1			; GFX11-NEXT: v_lshlrev_b16 v1, 8, v1
	▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_usubsat_v4i8:			; GFX9-LABEL: v_usubsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_and_b32_e32 v6, 0xffff, v0
	; GFX9-NEXT: v_lshl_or_b32 v2, v2, 16, v6
	; GFX9-NEXT: v_mov_b32_e32 v6, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_and_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX9-NEXT: v_perm_b32 v2, v2, v0, s4
	; GFX9-NEXT: v_and_b32_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX9-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-NEXT: v_perm_b32 v3, v4, v1, s4
				; GFX9-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_sub_u16 v2, v2, v3 clamp			; GFX9-NEXT: v_pk_sub_u16 v2, v2, v3 clamp
	; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2			; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_usubsat_v4i8:			; GFX10-LABEL: v_usubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v7, 0xffff, v0			; GFX10-NEXT: v_alignbit_b32 v0, v3, v0, 16
	; GFX10-NEXT: v_and_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-NEXT: v_perm_b32 v3, v4, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v8, 0xffff, v1			; GFX10-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX10-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v7
	; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v3, v5, 16, v8
	; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX10-NEXT: v_mov_b32_e32 v4, 24			; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_u16 v2, v2, v3 clamp			; GFX10-NEXT: v_pk_sub_u16 v2, v2, v3 clamp
	; GFX10-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_pk_lshrrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0			; GFX10-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1			; GFX10-NEXT: v_and_or_b32 v1, v2, 0xff, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0			; GFX10-NEXT: v_or3_b32 v0, v1, v2, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_usubsat_v4i8:			; GFX11-LABEL: v_usubsat_v4i8:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 8, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v2, v2, v0, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v6, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v3, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX11-NEXT: v_alignbit_b32 v0, v4, v0, 16
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX11-NEXT: v_alignbit_b32 v1, v5, v1, 16
	; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v2, v5, 16, v6
	; GFX11-NEXT: v_and_b32_e32 v5, 0xffff, v7
	; GFX11-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v5
	; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_sub_u16 v0, v0, v2 clamp			; GFX11-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX11-NEXT: v_pk_sub_u16 v2, v2, v3 clamp
				; GFX11-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
				; GFX11-NEXT: v_pk_lshrrev_b16 v1, 8, v2 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: v_pk_sub_u16 v1, v3, v1 clamp			; GFX11-NEXT: v_bfe_u32 v2, v1, 16, 8
	; GFX11-NEXT: v_bfe_u32 v2, v0, 16, 8			; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX11-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX11-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX11-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v1			; GFX11-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX11-NEXT: v_bfe_u32 v1, v1, 16, 8			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX11-NEXT: v_and_or_b32 v0, v0, 0xff, v2			; GFX11-NEXT: v_and_or_b32 v1, v1, 0xff, v2
	; GFX11-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX11-NEXT: v_or3_b32 v0, v1, v3, v0
	; GFX11-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX11-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.usub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.usub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	ret i32 %cast.result			ret i32 %cast.result
	}			}

	▲ Show 20 Lines • Show All 3,193 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/add.v2i16.ll

	Show First 20 Lines • Show All 614 Lines • ▼ Show 20 Lines
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_add_v2i16_zext_to_v2i64:			; GFX9-LABEL: v_test_add_v2i16_zext_to_v2i64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7] glc			; GFX9-NEXT: global_load_dword v2, v0, s[6:7] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v3, v0, s[2:3] glc			; GFX9-NEXT: global_load_dword v3, v0, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_pk_add_u16 v2, v2, v3			; GFX9-NEXT: v_pk_add_u16 v0, v2, v3
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2			; GFX9-NEXT: v_alignbit_b32 v2, 0, v0, 16
	; GFX9-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_test_add_v2i16_zext_to_v2i64:			; GFX10-LABEL: v_test_add_v2i16_zext_to_v2i64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dword v1, v0, s[6:7] glc dlc			; GFX10-NEXT: global_load_dword v1, v0, s[6:7] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_dword v2, v0, s[2:3] glc dlc			; GFX10-NEXT: global_load_dword v2, v0, s[2:3] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_waitcnt_depctr 0xffe3			; GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; GFX10-NEXT: s_mov_b32 s7, 0x31016000			; GFX10-NEXT: s_mov_b32 s7, 0x31016000
	; GFX10-NEXT: s_mov_b32 s6, -1			; GFX10-NEXT: s_mov_b32 s6, -1
	; GFX10-NEXT: v_pk_add_u16 v2, v1, v2			; GFX10-NEXT: v_pk_add_u16 v0, v1, v2
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v2			; GFX10-NEXT: v_alignbit_b32 v2, 0, v0, 16
	; GFX10-NEXT: v_and_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX10-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid			%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	▲ Show 20 Lines • Show All 169 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/build-vector-packed-partial-undef.ll

Show First 20 Lines • Show All 146 Lines • ▼ Show 20 Lines	; GFX8-NEXT: s_setpc_b64 s[30:31]
call void asm sideeffect "; use $0", "v"(<4 x half> %undef.lo);		call void asm sideeffect "; use $0", "v"(<4 x half> %undef.lo);
ret void		ret void
}		}

define void @undef_lo2_v4i16(<2 x i16> %arg0) {		define void @undef_lo2_v4i16(<2 x i16> %arg0) {
; GFX9-LABEL: undef_lo2_v4i16:		; GFX9-LABEL: undef_lo2_v4i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff0000		; GFX9-NEXT: v_perm_b32 v0, v0, v0, s4
; GFX9-NEXT: v_and_or_b32 v0, v0, v2, v1
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v[0:1]		; GFX9-NEXT: ; use v[0:1]
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: undef_lo2_v4i16:		; GFX8-LABEL: undef_lo2_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX8-NEXT: v_alignbit_b32 v0, v1, v0, 16		; GFX8-NEXT: v_alignbit_b32 v0, v1, v0, 16
; GFX8-NEXT: ;;#ASMSTART		; GFX8-NEXT: ;;#ASMSTART
; GFX8-NEXT: ; use v[0:1]		; GFX8-NEXT: ; use v[0:1]
; GFX8-NEXT: ;;#ASMEND		; GFX8-NEXT: ;;#ASMEND
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
%undef.lo = shufflevector <2 x i16> %arg0, <2 x i16> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 3>		%undef.lo = shufflevector <2 x i16> %arg0, <2 x i16> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 3>
call void asm sideeffect "; use $0", "v"(<4 x i16> %undef.lo);		call void asm sideeffect "; use $0", "v"(<4 x i16> %undef.lo);
ret void		ret void
}		}

define void @undef_lo2_v4f16(<2 x half> %arg0) {		define void @undef_lo2_v4f16(<2 x half> %arg0) {
; GFX9-LABEL: undef_lo2_v4f16:		; GFX9-LABEL: undef_lo2_v4f16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, v0, v0, s4
; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v[0:1]		; GFX9-NEXT: ; use v[0:1]
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: undef_lo2_v4f16:		; GFX8-LABEL: undef_lo2_v4f16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
▲ Show 20 Lines • Show All 187 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/chain-hi-to-lo.ll

Show First 20 Lines • Show All 468 Lines • ▼ Show 20 Lines
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:4		; GFX900-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:4
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: global_load_ushort v0, v2, s[4:5] offset:2		; GFX900-NEXT: global_load_ushort v0, v2, s[4:5] offset:2
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:6		; GFX900-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:6
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: global_load_ushort v0, v2, s[4:5] offset:4		; GFX900-NEXT: global_load_ushort v0, v2, s[4:5] offset:4
		; GFX900-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:8		; GFX900-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:8
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:6		; GFX900-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:6
; GFX900-NEXT: buffer_load_ushort v3, off, s[0:3], 0 offset:4		; GFX900-NEXT: buffer_load_ushort v3, off, s[0:3], 0 offset:4
; GFX900-NEXT: s_waitcnt vmcnt(1)		; GFX900-NEXT: s_waitcnt vmcnt(1)
; GFX900-NEXT: v_mov_b32_e32 v1, v0		; GFX900-NEXT: v_mov_b32_e32 v1, v0
; GFX900-NEXT: buffer_load_short_d16_hi v1, off, s[0:3], 0 offset:8		; GFX900-NEXT: buffer_load_short_d16_hi v1, off, s[0:3], 0 offset:8
; GFX900-NEXT: s_waitcnt vmcnt(1)		; GFX900-NEXT: s_waitcnt vmcnt(1)
; GFX900-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX900-NEXT: v_perm_b32 v0, v0, v3, s4
; GFX900-NEXT: v_lshl_or_b32 v0, v0, 16, v3
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: global_store_dwordx2 v2, v[0:1], s[6:7]		; GFX900-NEXT: global_store_dwordx2 v2, v[0:1], s[6:7]
; GFX900-NEXT: s_endpgm		; GFX900-NEXT: s_endpgm
;		;
; FLATSCR-LABEL: vload2_private:		; FLATSCR-LABEL: vload2_private:
; FLATSCR: ; %bb.0: ; %entry		; FLATSCR: ; %bb.0: ; %entry
; FLATSCR-NEXT: s_add_u32 flat_scratch_lo, s2, s5		; FLATSCR-NEXT: s_add_u32 flat_scratch_lo, s2, s5
; FLATSCR-NEXT: s_addc_u32 flat_scratch_hi, s3, 0		; FLATSCR-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
; GFX10_DEFAULT-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:8		; GFX10_DEFAULT-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:8
; GFX10_DEFAULT-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10_DEFAULT-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10_DEFAULT-NEXT: s_clause 0x1		; GFX10_DEFAULT-NEXT: s_clause 0x1
; GFX10_DEFAULT-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:6		; GFX10_DEFAULT-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:6
; GFX10_DEFAULT-NEXT: buffer_load_ushort v3, off, s[0:3], 0 offset:4		; GFX10_DEFAULT-NEXT: buffer_load_ushort v3, off, s[0:3], 0 offset:4
; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(1)		; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(1)
; GFX10_DEFAULT-NEXT: v_mov_b32_e32 v1, v0		; GFX10_DEFAULT-NEXT: v_mov_b32_e32 v1, v0
; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)		; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)
; GFX10_DEFAULT-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10_DEFAULT-NEXT: v_perm_b32 v0, v0, v3, 0x5040100
; GFX10_DEFAULT-NEXT: buffer_load_short_d16_hi v1, off, s[0:3], 0 offset:8		; GFX10_DEFAULT-NEXT: buffer_load_short_d16_hi v1, off, s[0:3], 0 offset:8
; GFX10_DEFAULT-NEXT: v_lshl_or_b32 v0, v0, 16, v3
; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)		; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)
; GFX10_DEFAULT-NEXT: global_store_dwordx2 v2, v[0:1], s[6:7]		; GFX10_DEFAULT-NEXT: global_store_dwordx2 v2, v[0:1], s[6:7]
; GFX10_DEFAULT-NEXT: s_endpgm		; GFX10_DEFAULT-NEXT: s_endpgm
;		;
; FLATSCR_GFX10-LABEL: vload2_private:		; FLATSCR_GFX10-LABEL: vload2_private:
; FLATSCR_GFX10: ; %bb.0: ; %entry		; FLATSCR_GFX10: ; %bb.0: ; %entry
; FLATSCR_GFX10-NEXT: s_add_u32 s2, s2, s5		; FLATSCR_GFX10-NEXT: s_add_u32 s2, s2, s5
; FLATSCR_GFX10-NEXT: s_addc_u32 s3, s3, 0		; FLATSCR_GFX10-NEXT: s_addc_u32 s3, s3, 0
▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	bb:
%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
ret <2 x i16> %result		ret <2 x i16> %result
}		}

; The volatile operations aren't put on the same chain		; The volatile operations aren't put on the same chain
define <2 x i16> @chain_hi_to_lo_group_other_dep_multi_chain(i16 addrspace(3)* %ptr) {		define <2 x i16> @chain_hi_to_lo_group_other_dep_multi_chain(i16 addrspace(3)* %ptr) {
; GCN-LABEL: chain_hi_to_lo_group_other_dep_multi_chain:		; GFX900-LABEL: chain_hi_to_lo_group_other_dep_multi_chain:
; GCN: ; %bb.0: ; %bb		; GFX900: ; %bb.0: ; %bb
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: ds_read_u16 v1, v0 offset:2		; GFX900-NEXT: ds_read_u16 v1, v0 offset:2
; GCN-NEXT: ds_read_u16_d16_hi v0, v0		; GFX900-NEXT: ds_read_u16_d16_hi v0, v0
; GCN-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX900-NEXT: s_mov_b32 s4, 0xffff
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]		; GFX900-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]
; GCN-NEXT: v_bfi_b32 v0, v2, v1, v0		; GFX900-NEXT: v_bfi_b32 v0, s4, v1, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
		;
		; FLATSCR-LABEL: chain_hi_to_lo_group_other_dep_multi_chain:
		; FLATSCR: ; %bb.0: ; %bb
		; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; FLATSCR-NEXT: ds_read_u16 v1, v0 offset:2
		; FLATSCR-NEXT: ds_read_u16_d16_hi v0, v0
		; FLATSCR-NEXT: s_mov_b32 s0, 0xffff
		; FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; FLATSCR-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]
		; FLATSCR-NEXT: v_bfi_b32 v0, s0, v1, v0
		; FLATSCR-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: chain_hi_to_lo_group_other_dep_multi_chain:		; GFX10-LABEL: chain_hi_to_lo_group_other_dep_multi_chain:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: ds_read_u16 v1, v0 offset:2		; GFX10-NEXT: ds_read_u16 v1, v0 offset:2
; GFX10-NEXT: ds_read_u16_d16_hi v0, v0		; GFX10-NEXT: ds_read_u16_d16_hi v0, v0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines	bb:
%load_hi = load i16, i16 addrspace(5)* %gep_hi		%load_hi = load i16, i16 addrspace(5)* %gep_hi
%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <2 x i16> @chain_hi_to_lo_global_other_dep(i16 addrspace(1)* %ptr) {		define <2 x i16> @chain_hi_to_lo_global_other_dep(i16 addrspace(1)* %ptr) {
; GCN-LABEL: chain_hi_to_lo_global_other_dep:		; GFX900-LABEL: chain_hi_to_lo_global_other_dep:
; GCN: ; %bb.0: ; %bb		; GFX900: ; %bb.0: ; %bb
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: global_load_ushort v2, v[0:1], off offset:2 glc		; GFX900-NEXT: global_load_ushort v2, v[0:1], off offset:2 glc
; GCN-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: global_load_short_d16_hi v0, v[0:1], off glc		; GFX900-NEXT: global_load_short_d16_hi v0, v[0:1], off glc
; GCN-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX900-NEXT: s_mov_b32 s4, 0xffff
; GCN-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]		; GFX900-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]
; GCN-NEXT: v_bfi_b32 v0, v1, v2, v0		; GFX900-NEXT: v_bfi_b32 v0, s4, v2, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
		;
		; FLATSCR-LABEL: chain_hi_to_lo_global_other_dep:
		; FLATSCR: ; %bb.0: ; %bb
		; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; FLATSCR-NEXT: global_load_ushort v2, v[0:1], off offset:2 glc
		; FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; FLATSCR-NEXT: global_load_short_d16_hi v0, v[0:1], off glc
		; FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; FLATSCR-NEXT: s_mov_b32 s0, 0xffff
		; FLATSCR-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]
		; FLATSCR-NEXT: v_bfi_b32 v0, s0, v2, v0
		; FLATSCR-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: chain_hi_to_lo_global_other_dep:		; GFX10-LABEL: chain_hi_to_lo_global_other_dep:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_ushort v2, v[0:1], off offset:2 glc dlc		; GFX10-NEXT: global_load_ushort v2, v[0:1], off offset:2 glc dlc
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: global_load_short_d16_hi v0, v[0:1], off glc dlc		; GFX10-NEXT: global_load_short_d16_hi v0, v[0:1], off glc dlc
Show All 21 Lines	bb:
%load_hi = load volatile i16, i16 addrspace(1)* %gep_hi		%load_hi = load volatile i16, i16 addrspace(1)* %gep_hi
%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <2 x i16> @chain_hi_to_lo_flat_other_dep(i16 addrspace(0)* %ptr) {		define <2 x i16> @chain_hi_to_lo_flat_other_dep(i16 addrspace(0)* %ptr) {
; GCN-LABEL: chain_hi_to_lo_flat_other_dep:		; GFX900-LABEL: chain_hi_to_lo_flat_other_dep:
; GCN: ; %bb.0: ; %bb		; GFX900: ; %bb.0: ; %bb
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: flat_load_ushort v2, v[0:1] offset:2 glc		; GFX900-NEXT: flat_load_ushort v2, v[0:1] offset:2 glc
; GCN-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: flat_load_short_d16_hi v0, v[0:1] glc		; GFX900-NEXT: flat_load_short_d16_hi v0, v[0:1] glc
; GCN-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX900-NEXT: s_mov_b32 s4, 0xffff
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]		; GFX900-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]
; GCN-NEXT: v_bfi_b32 v0, v1, v2, v0		; GFX900-NEXT: v_bfi_b32 v0, s4, v2, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
		;
		; FLATSCR-LABEL: chain_hi_to_lo_flat_other_dep:
		; FLATSCR: ; %bb.0: ; %bb
		; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; FLATSCR-NEXT: flat_load_ushort v2, v[0:1] offset:2 glc
		; FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; FLATSCR-NEXT: flat_load_short_d16_hi v0, v[0:1] glc
		; FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; FLATSCR-NEXT: s_mov_b32 s0, 0xffff
		; FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; FLATSCR-NEXT: v_pk_sub_u16 v0, v0, -12 op_sel_hi:[1,0]
		; FLATSCR-NEXT: v_bfi_b32 v0, s0, v2, v0
		; FLATSCR-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: chain_hi_to_lo_flat_other_dep:		; GFX10-LABEL: chain_hi_to_lo_flat_other_dep:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v0, 2		; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v0, 2
; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v1, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v1, vcc_lo
; GFX10-NEXT: flat_load_ushort v2, v[2:3] glc dlc		; GFX10-NEXT: flat_load_ushort v2, v[2:3] glc dlc
Show All 23 Lines	bb:
%load_hi = load volatile i16, i16 addrspace(0)* %gep_hi		%load_hi = load volatile i16, i16 addrspace(0)* %gep_hi
%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <2 x i16> @chain_hi_to_lo_group_may_alias_store(i16 addrspace(3)* %ptr, i16 addrspace(3)* %may.alias) {		define <2 x i16> @chain_hi_to_lo_group_may_alias_store(i16 addrspace(3)* %ptr, i16 addrspace(3)* %may.alias) {
; GCN-LABEL: chain_hi_to_lo_group_may_alias_store:		; GFX900-LABEL: chain_hi_to_lo_group_may_alias_store:
; GCN: ; %bb.0: ; %bb		; GFX900: ; %bb.0: ; %bb
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v3, 0x7b		; GFX900-NEXT: v_mov_b32_e32 v3, 0x7b
; GCN-NEXT: ds_read_u16 v2, v0		; GFX900-NEXT: ds_read_u16 v2, v0
; GCN-NEXT: ds_write_b16 v1, v3		; GFX900-NEXT: ds_write_b16 v1, v3
; GCN-NEXT: ds_read_u16 v0, v0 offset:2		; GFX900-NEXT: ds_read_u16 v0, v0 offset:2
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_mov_b32 s4, 0x5040100
; GCN-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_lshl_or_b32 v0, v2, 16, v0		; GFX900-NEXT: v_perm_b32 v0, v2, v0, s4
; GCN-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
		;
		; FLATSCR-LABEL: chain_hi_to_lo_group_may_alias_store:
		; FLATSCR: ; %bb.0: ; %bb
		; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; FLATSCR-NEXT: v_mov_b32_e32 v3, 0x7b
		; FLATSCR-NEXT: ds_read_u16 v2, v0
		; FLATSCR-NEXT: ds_write_b16 v1, v3
		; FLATSCR-NEXT: ds_read_u16 v0, v0 offset:2
		; FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; FLATSCR-NEXT: v_perm_b32 v0, v2, v0, s0
		; FLATSCR-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: chain_hi_to_lo_group_may_alias_store:		; GFX10-LABEL: chain_hi_to_lo_group_may_alias_store:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX10-NEXT: v_mov_b32_e32 v2, 0x7b
; GFX10-NEXT: ds_read_u16 v3, v0		; GFX10-NEXT: ds_read_u16 v3, v0
; GFX10-NEXT: ds_write_b16 v1, v2		; GFX10-NEXT: ds_write_b16 v1, v2
; GFX10-NEXT: ds_read_u16 v0, v0 offset:2		; GFX10-NEXT: ds_read_u16 v0, v0 offset:2
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v3, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v3, 16, v0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: chain_hi_to_lo_group_may_alias_store:		; GFX11-LABEL: chain_hi_to_lo_group_may_alias_store:
; GFX11: ; %bb.0: ; %bb		; GFX11: ; %bb.0: ; %bb
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX11-NEXT: v_mov_b32_e32 v2, 0x7b
; GFX11-NEXT: ds_load_u16 v3, v0		; GFX11-NEXT: ds_load_u16 v3, v0
; GFX11-NEXT: ds_store_b16 v1, v2		; GFX11-NEXT: ds_store_b16 v1, v2
; GFX11-NEXT: ds_load_u16 v0, v0 offset:2		; GFX11-NEXT: ds_load_u16 v0, v0 offset:2
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX11-NEXT: v_perm_b32 v0, v3, v0, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v0
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
bb:		bb:
%gep_lo = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 1		%gep_lo = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 1
%gep_hi = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 0		%gep_hi = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 0
%load_hi = load i16, i16 addrspace(3)* %gep_hi		%load_hi = load i16, i16 addrspace(3)* %gep_hi
store i16 123, i16 addrspace(3)* %may.alias		store i16 123, i16 addrspace(3)* %may.alias
%load_lo = load i16, i16 addrspace(3)* %gep_lo		%load_lo = load i16, i16 addrspace(3)* %gep_lo

%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
%result = insertelement <2 x i16> %to.hi, i16 %load_lo, i32 0		%result = insertelement <2 x i16> %to.hi, i16 %load_lo, i32 0
ret <2 x i16> %result		ret <2 x i16> %result
}		}

llvm/test/CodeGen/AMDGPU/combine-vload-extract.ll

Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	entry:
store i32 %insert3, i32* %out		store i32 %insert3, i32* %out
ret void		ret void
}		}
define i32 @load_2xi16_combine(i16 addrspace(1)* %p) #0 {		define i32 @load_2xi16_combine(i16 addrspace(1)* %p) #0 {
; GCN-LABEL: load_2xi16_combine:		; GCN-LABEL: load_2xi16_combine:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: global_load_dword v0, v[0:1], off		; GCN-NEXT: global_load_dword v0, v[0:1], off
; GCN-NEXT: v_mov_b32_e32 v1, 0xffff
; GCN-NEXT: s_mov_b32 s4, 0xffff		; GCN-NEXT: s_mov_b32 s4, 0xffff
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: v_bfi_b32 v1, v1, 0, v0		; GCN-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
; GCN-NEXT: v_and_or_b32 v0, v0, s4, v1		; GCN-NEXT: v_and_or_b32 v0, v0, s4, v1
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%gep.p = getelementptr i16, i16 addrspace(1)* %p, i32 1		%gep.p = getelementptr i16, i16 addrspace(1)* %p, i32 1
%p.0 = load i16, i16 addrspace(1)* %p, align 4		%p.0 = load i16, i16 addrspace(1)* %p, align 4
%p.1 = load i16, i16 addrspace(1)* %gep.p, align 4		%p.1 = load i16, i16 addrspace(1)* %gep.p, align 4
%zext.0 = zext i16 %p.0 to i32		%zext.0 = zext i16 %p.0 to i32
%zext.1 = zext i16 %p.1 to i32		%zext.1 = zext i16 %p.1 to i32
%shl.1 = shl i32 %zext.1, 16		%shl.1 = shl i32 %zext.1, 16
▲ Show 20 Lines • Show All 174 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/divergence-driven-buildvector.ll

	Show First 20 Lines • Show All 256 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GCN-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GCN-NEXT: v_or_b32_e32 v0, v0, v1			; GCN-NEXT: v_or_b32_e32 v0, v0, v1
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: divergent_vec_i16_LL:			; GFX9-LABEL: divergent_vec_i16_LL:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX906-LABEL: divergent_vec_i16_LL:			; GFX906-LABEL: divergent_vec_i16_LL:
	; GFX906: ; %bb.0:			; GFX906: ; %bb.0:
	; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX906-NEXT: s_mov_b32 s4, 0x5040100
	; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	%tmp = insertelement <2 x i16> undef, i16 %a, i32 0			%tmp = insertelement <2 x i16> undef, i16 %a, i32 0
	%vec = insertelement <2 x i16> %tmp, i16 %b, i32 1			%vec = insertelement <2 x i16> %tmp, i16 %b, i32 1
	%val = bitcast <2 x i16> %vec to i32			%val = bitcast <2 x i16> %vec to i32
	ret i32 %val			ret i32 %val
	}			}

	define amdgpu_kernel void @uniform_vec_i16_LH(i32 addrspace(1)* %out, i16 %a, i32 %b) {			define amdgpu_kernel void @uniform_vec_i16_LH(i32 addrspace(1)* %out, i16 %a, i32 %b) {
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s4, 0xffff			; GCN-NEXT: s_mov_b32 s4, 0xffff
	; GCN-NEXT: v_bfi_b32 v0, s4, v0, v1			; GCN-NEXT: v_bfi_b32 v0, s4, v0, v1
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: divergent_vec_i16_LH:			; GFX9-LABEL: divergent_vec_i16_LH:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX9-NEXT: s_mov_b32 s4, 0xffff
	; GFX9-NEXT: v_bfi_b32 v0, v2, v0, v1			; GFX9-NEXT: v_bfi_b32 v0, s4, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX906-LABEL: divergent_vec_i16_LH:			; GFX906-LABEL: divergent_vec_i16_LH:
	; GFX906: ; %bb.0:			; GFX906: ; %bb.0:
	; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX906-NEXT: s_mov_b32 s4, 0xffff
	; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1			; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	%shift = lshr i32 %b, 16			%shift = lshr i32 %b, 16
	%tr = trunc i32 %shift to i16			%tr = trunc i32 %shift to i16
	%tmp = insertelement <2 x i16> undef, i16 %a, i32 0			%tmp = insertelement <2 x i16> undef, i16 %a, i32 0
	%vec = insertelement <2 x i16> %tmp, i16 %tr, i32 1			%vec = insertelement <2 x i16> %tmp, i16 %tr, i32 1
	%val = bitcast <2 x i16> %vec to i32			%val = bitcast <2 x i16> %vec to i32
	ret i32 %val			ret i32 %val
	}			}
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GCN-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GCN-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; GCN-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
	; GCN-NEXT: v_or_b32_e32 v0, v0, v1			; GCN-NEXT: v_or_b32_e32 v0, v0, v1
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: divergent_vec_i16_HH:			; GFX9-LABEL: divergent_vec_i16_HH:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x7060302
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff0000			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: v_and_or_b32 v0, v1, v2, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX906-LABEL: divergent_vec_i16_HH:			; GFX906-LABEL: divergent_vec_i16_HH:
	; GFX906: ; %bb.0:			; GFX906: ; %bb.0:
	; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX906-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX906-NEXT: s_mov_b32 s4, 0x7060302
	; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff0000			; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX906-NEXT: v_and_or_b32 v0, v1, v2, v0
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	%shift_a = lshr i32 %a, 16			%shift_a = lshr i32 %a, 16
	%tr_a = trunc i32 %shift_a to i16			%tr_a = trunc i32 %shift_a to i16
	%shift_b = lshr i32 %b, 16			%shift_b = lshr i32 %b, 16
	%tr_b = trunc i32 %shift_b to i16			%tr_b = trunc i32 %shift_b to i16
	%tmp = insertelement <2 x i16> undef, i16 %tr_a, i32 0			%tmp = insertelement <2 x i16> undef, i16 %tr_a, i32 0
	%vec = insertelement <2 x i16> %tmp, i16 %tr_b, i32 1			%vec = insertelement <2 x i16> %tmp, i16 %tr_b, i32 1
	%val = bitcast <2 x i16> %vec to i32			%val = bitcast <2 x i16> %vec to i32
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cvt_f16_f32_e32 v1, v1			; GCN-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GCN-NEXT: v_or_b32_e32 v0, v0, v1			; GCN-NEXT: v_or_b32_e32 v0, v0, v1
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: divergent_vec_f16_LL:			; GFX9-LABEL: divergent_vec_f16_LL:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX906-LABEL: divergent_vec_f16_LL:			; GFX906-LABEL: divergent_vec_f16_LL:
	; GFX906: ; %bb.0:			; GFX906: ; %bb.0:
	; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX906-NEXT: s_mov_b32 s4, 0x5040100
	; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	%tmp = insertelement <2 x half> undef, half %a, i32 0			%tmp = insertelement <2 x half> undef, half %a, i32 0
	%vec = insertelement <2 x half> %tmp, half %b, i32 1			%vec = insertelement <2 x half> %tmp, half %b, i32 1
	%val = bitcast <2 x half> %vec to float			%val = bitcast <2 x half> %vec to float
	ret float %val			ret float %val
	}			}

	define <2 x i16> @build_vec_v2i16_undeflo_divergent(i16 addrspace(3)* %in) #0 {			define <2 x i16> @build_vec_v2i16_undeflo_divergent(i16 addrspace(3)* %in) #0 {
	▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/extract-subvector-16bit.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3_vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3_vgpr4_vgpr5
	; GFX9-NEXT: .LBB0_3: ; %T			; GFX9-NEXT: .LBB0_3: ; %T
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: .LBB0_4: ; %exit			; GFX9-NEXT: .LBB0_4: ; %exit
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v3 op_sel_hi:[0,0]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v3 op_sel_hi:[0,0]
	; GFX9-NEXT: s_movk_i32 s4, 0x8000			; GFX9-NEXT: s_movk_i32 s4, 0x8000
	; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v1, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v3, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v3, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_or_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v2, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v0, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v0, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v0, v2, s4
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v3			; GFX9-NEXT: v_perm_b32 v1, v3, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	br i1 undef, label %T, label %F			br i1 undef, label %T, label %F

	T:			T:
	%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0			%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0
	br label %exit			br label %exit

	F:			F:
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3_vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3_vgpr4_vgpr5
	; GFX9-NEXT: .LBB1_3: ; %T			; GFX9-NEXT: .LBB1_3: ; %T
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: .LBB1_4: ; %exit			; GFX9-NEXT: .LBB1_4: ; %exit
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v5 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v5 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0x8000			; GFX9-NEXT: s_movk_i32 s4, 0x8000
	; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v1, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v2, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v4 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v4 op_sel_hi:[0,1]
	; GFX9-NEXT: v_or_b32_sdwa v3, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v3, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v0, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v0, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-NEXT: v_perm_b32 v0, v0, v3, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	br i1 undef, label %T, label %F			br i1 undef, label %T, label %F

	T:			T:
	%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0			%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0
	br label %exit			br label %exit

	F:			F:
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cbranch_execz .LBB2_3			; GFX9-NEXT: s_cbranch_execz .LBB2_3
	; GFX9-NEXT: s_branch .LBB2_4			; GFX9-NEXT: s_branch .LBB2_4
	; GFX9-NEXT: .LBB2_2:			; GFX9-NEXT: .LBB2_2:
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3_vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3_vgpr4_vgpr5
	; GFX9-NEXT: .LBB2_3: ; %T			; GFX9-NEXT: .LBB2_3: ; %T
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: .LBB2_4: ; %exit			; GFX9-NEXT: .LBB2_4: ; %exit
				; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v3			; GFX9-NEXT: v_perm_b32 v0, v3, v3, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x3800			; GFX9-NEXT: v_mov_b32_e32 v1, 0x3800
	; GFX9-NEXT: v_mov_b32_e32 v3, 0x3900			; GFX9-NEXT: v_mov_b32_e32 v3, 0x3900
	; GFX9-NEXT: v_mov_b32_e32 v4, 0x3d00			; GFX9-NEXT: v_mov_b32_e32 v4, 0x3d00
	; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v0			; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v3, v4, vcc
	; GFX9-NEXT: v_cmp_nle_f16_sdwa vcc, v0, v1 src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_cmp_nle_f16_sdwa vcc, v0, v1 src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v4, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v4, v3, vcc
	; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v2			; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v2
	▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1			; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1
	; GFX9-NEXT: .LBB3_4: ; %exit			; GFX9-NEXT: .LBB3_4: ; %exit
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v5 op_sel_hi:[0,0]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v5 op_sel_hi:[0,0]
	; GFX9-NEXT: s_movk_i32 s4, 0x8000			; GFX9-NEXT: s_movk_i32 s4, 0x8000
	; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v1, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v2, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v4 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v4 op_sel_hi:[0,1]
	; GFX9-NEXT: v_or_b32_sdwa v3, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v3, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v0, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v0, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-NEXT: v_perm_b32 v0, v0, v3, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	br i1 undef, label %T, label %F			br i1 undef, label %T, label %F

	T:			T:
	%t = load volatile <16 x i16>, <16 x i16> addrspace(1) * %p0			%t = load volatile <16 x i16>, <16 x i16> addrspace(1) * %p0
	br label %exit			br label %exit

	F:			F:
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1			; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1
	; GFX9-NEXT: .LBB4_4: ; %exit			; GFX9-NEXT: .LBB4_4: ; %exit
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v7 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v7 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0x8000			; GFX9-NEXT: s_movk_i32 s4, 0x8000
	; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v1, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v2, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v6 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v6 op_sel_hi:[0,1]
	; GFX9-NEXT: v_or_b32_sdwa v3, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_e32 v3, 0xffff8000, v0
	; GFX9-NEXT: v_or_b32_e32 v0, 0xffff8000, v0			; GFX9-NEXT: v_or_b32_sdwa v0, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-NEXT: v_perm_b32 v0, v0, v3, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	br i1 undef, label %T, label %F			br i1 undef, label %T, label %F

	T:			T:
	%t = load volatile <16 x i16>, <16 x i16> addrspace(1) * %p0			%t = load volatile <16 x i16>, <16 x i16> addrspace(1) * %p0
	br label %exit			br label %exit

	F:			F:
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: .LBB5_3: ; %T			; GFX9-NEXT: .LBB5_3: ; %T
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off offset:16 glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off offset:16 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1			; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1
	; GFX9-NEXT: .LBB5_4: ; %exit			; GFX9-NEXT: .LBB5_4: ; %exit
				; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v5			; GFX9-NEXT: v_perm_b32 v0, v5, v5, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x3800			; GFX9-NEXT: v_mov_b32_e32 v1, 0x3800
	; GFX9-NEXT: v_mov_b32_e32 v2, 0x3900			; GFX9-NEXT: v_mov_b32_e32 v2, 0x3900
	; GFX9-NEXT: v_mov_b32_e32 v3, 0x3d00			; GFX9-NEXT: v_mov_b32_e32 v3, 0x3d00
	; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v0			; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v2, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v2, v3, vcc
	; GFX9-NEXT: v_cmp_nle_f16_sdwa vcc, v0, v1 src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_cmp_nle_f16_sdwa vcc, v0, v1 src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v3, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v3, v2, vcc
	; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v4			; GFX9-NEXT: v_cmp_ge_f16_e32 vcc, 0.5, v4
	Show All 23 Lines

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.global.ll

	Show First 20 Lines • Show All 178 Lines • ▼ Show 20 Lines
	; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]			; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: global_load_2xi16_align1:			; GFX9-LABEL: global_load_2xi16_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, 0xffff			; GFX9-NEXT: s_mov_b32 s4, 0xffff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_bfi_b32 v1, v1, 0, v0			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: global_load_2xi16_align1:			; GFX10-LABEL: global_load_2xi16_align1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX10-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: global_load_2xi16_align1:			; GFX11-LABEL: global_load_2xi16_align1:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_load_b32 v0, v[0:1], off			; GFX11-NEXT: global_load_b32 v0, v[0:1], off
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX11-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%gep.p = getelementptr i16, i16 addrspace(1)* %p, i64 1			%gep.p = getelementptr i16, i16 addrspace(1)* %p, i64 1
	%p.0 = load i16, i16 addrspace(1)* %p, align 1			%p.0 = load i16, i16 addrspace(1)* %p, align 1
	%p.1 = load i16, i16 addrspace(1)* %gep.p, align 1			%p.1 = load i16, i16 addrspace(1)* %gep.p, align 1
	%zext.0 = zext i16 %p.0 to i32			%zext.0 = zext i16 %p.0 to i32
	%zext.1 = zext i16 %p.1 to i32			%zext.1 = zext i16 %p.1 to i32
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]			; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: global_load_2xi16_align4:			; GFX9-LABEL: global_load_2xi16_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, 0xffff			; GFX9-NEXT: s_mov_b32 s4, 0xffff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_bfi_b32 v1, v1, 0, v0			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: global_load_2xi16_align4:			; GFX10-LABEL: global_load_2xi16_align4:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX10-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: global_load_2xi16_align4:			; GFX11-LABEL: global_load_2xi16_align4:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_load_b32 v0, v[0:1], off			; GFX11-NEXT: global_load_b32 v0, v[0:1], off
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX11-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%gep.p = getelementptr i16, i16 addrspace(1)* %p, i64 1			%gep.p = getelementptr i16, i16 addrspace(1)* %p, i64 1
	%p.0 = load i16, i16 addrspace(1)* %p, align 4			%p.0 = load i16, i16 addrspace(1)* %p, align 4
	%p.1 = load i16, i16 addrspace(1)* %gep.p, align 2			%p.1 = load i16, i16 addrspace(1)* %gep.p, align 2
	%zext.0 = zext i16 %p.0 to i32			%zext.0 = zext i16 %p.0 to i32
	%zext.1 = zext i16 %p.1 to i32			%zext.1 = zext i16 %p.1 to i32
	▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll

	Show First 20 Lines • Show All 229 Lines • ▼ Show 20 Lines
	; GFX7-UNALIGNED-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GFX7-UNALIGNED-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: private_load_2xi16_align1:			; GFX9-LABEL: private_load_2xi16_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GFX9-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, 0xffff			; GFX9-NEXT: s_mov_b32 s4, 0xffff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_bfi_b32 v1, v1, 0, v0			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
				jrbyrnesAuthorUnsubmitted Done Reply Inline Actions This seems illegal to me -- using SGPR and literal as operands to VALU. Looking into it. jrbyrnes: This seems illegal to me -- using SGPR and literal as operands to VALU. Looking into it.
				rampitecUnsubmitted Done Reply Inline Actions 0 is inline literal and is free. rampitec: 0 is inline literal and is free.
				jrbyrnesAuthorUnsubmitted Done Reply Inline Actions Stas -- I see, thanks! Jay -- Interesting, I'll look into what's going on with the literal. As a side note, CodeGen is actually not good for this particular test. It seems to me the whole test can be combined into a 32 bit load. D133584 should be extended to handle this i16s, in which case this whole test will be optimized to a load. jrbyrnes: Stas -- I see, thanks! Jay -- Interesting, I'll look into what's going on with the literal. As…
				foadUnsubmitted Done Reply Inline Actions As a code quality thing, this could have been optimized to `v_and_b32 v1, 0xffff0000, v0` foad: As a code quality thing, this could have been optimized to `v_and_b32 v1, 0xffff0000, v0`
				arsenmUnsubmitted Done Reply Inline Actions This could only be a 16-bit load if unaligned access is enabled (and I think we previously decided that doing unaligned 16-bit loads was probably worse than byte loads). The load question is orthogonal to how the bit masking should have been emitted arsenm: This could only be a 16-bit load if unaligned access is enabled (and I think we previously…
				jrbyrnesAuthorUnsubmitted Done Reply Inline Actions Right -- good to know about decision to use byte loads. I agree it is a bit off topic for this review. jrbyrnes: Right -- good to know about decision to use byte loads. I agree it is a bit off topic for this…
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-FLASTSCR-LABEL: private_load_2xi16_align1:			; GFX9-FLASTSCR-LABEL: private_load_2xi16_align1:
	; GFX9-FLASTSCR: ; %bb.0:			; GFX9-FLASTSCR: ; %bb.0:
	; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-FLASTSCR-NEXT: scratch_load_dword v0, v0, off			; GFX9-FLASTSCR-NEXT: scratch_load_dword v0, v0, off
	; GFX9-FLASTSCR-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-FLASTSCR-NEXT: s_mov_b32 s0, 0xffff			; GFX9-FLASTSCR-NEXT: s_mov_b32 s0, 0xffff
	; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0)			; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0)
	; GFX9-FLASTSCR-NEXT: v_bfi_b32 v1, v1, 0, v0			; GFX9-FLASTSCR-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX9-FLASTSCR-NEXT: v_and_or_b32 v0, v0, s0, v1			; GFX9-FLASTSCR-NEXT: v_and_or_b32 v0, v0, s0, v1
	; GFX9-FLASTSCR-NEXT: s_setpc_b64 s[30:31]			; GFX9-FLASTSCR-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: private_load_2xi16_align1:			; GFX10-LABEL: private_load_2xi16_align1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GFX10-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX10-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-FLASTSCR-LABEL: private_load_2xi16_align1:			; GFX10-FLASTSCR-LABEL: private_load_2xi16_align1:
	; GFX10-FLASTSCR: ; %bb.0:			; GFX10-FLASTSCR: ; %bb.0:
	; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-FLASTSCR-NEXT: scratch_load_dword v0, v0, off			; GFX10-FLASTSCR-NEXT: scratch_load_dword v0, v0, off
	; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0)			; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0)
	; GFX10-FLASTSCR-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX10-FLASTSCR-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX10-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX10-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-FLASTSCR-NEXT: s_setpc_b64 s[30:31]			; GFX10-FLASTSCR-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: private_load_2xi16_align1:			; GFX11-LABEL: private_load_2xi16_align1:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: scratch_load_b32 v0, v0, off			; GFX11-NEXT: scratch_load_b32 v0, v0, off
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX11-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-FLASTSCR-LABEL: private_load_2xi16_align1:			; GFX11-FLASTSCR-LABEL: private_load_2xi16_align1:
	; GFX11-FLASTSCR: ; %bb.0:			; GFX11-FLASTSCR: ; %bb.0:
	; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-FLASTSCR-NEXT: scratch_load_b32 v0, v0, off			; GFX11-FLASTSCR-NEXT: scratch_load_b32 v0, v0, off
	; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0)			; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0)
	; GFX11-FLASTSCR-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX11-FLASTSCR-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX11-FLASTSCR-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-FLASTSCR-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX11-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX11-FLASTSCR-NEXT: s_setpc_b64 s[30:31]			; GFX11-FLASTSCR-NEXT: s_setpc_b64 s[30:31]
	%gep.p = getelementptr i16, i16 addrspace(5)* %p, i64 1			%gep.p = getelementptr i16, i16 addrspace(5)* %p, i64 1
	%p.0 = load i16, i16 addrspace(5)* %p, align 1			%p.0 = load i16, i16 addrspace(5)* %p, align 1
	%p.1 = load i16, i16 addrspace(5)* %gep.p, align 1			%p.1 = load i16, i16 addrspace(5)* %gep.p, align 1
	%zext.0 = zext i16 %p.0 to i32			%zext.0 = zext i16 %p.0 to i32
	%zext.1 = zext i16 %p.1 to i32			%zext.1 = zext i16 %p.1 to i32
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; GFX7-UNALIGNED-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GFX7-UNALIGNED-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: private_load_2xi16_align4:			; GFX9-LABEL: private_load_2xi16_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GFX9-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, 0xffff			; GFX9-NEXT: s_mov_b32 s4, 0xffff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_bfi_b32 v1, v1, 0, v0			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-FLASTSCR-LABEL: private_load_2xi16_align4:			; GFX9-FLASTSCR-LABEL: private_load_2xi16_align4:
	; GFX9-FLASTSCR: ; %bb.0:			; GFX9-FLASTSCR: ; %bb.0:
	; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-FLASTSCR-NEXT: scratch_load_dword v0, v0, off			; GFX9-FLASTSCR-NEXT: scratch_load_dword v0, v0, off
	; GFX9-FLASTSCR-NEXT: v_mov_b32_e32 v1, 0xffff
	; GFX9-FLASTSCR-NEXT: s_mov_b32 s0, 0xffff			; GFX9-FLASTSCR-NEXT: s_mov_b32 s0, 0xffff
	; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0)			; GFX9-FLASTSCR-NEXT: s_waitcnt vmcnt(0)
	; GFX9-FLASTSCR-NEXT: v_bfi_b32 v1, v1, 0, v0			; GFX9-FLASTSCR-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX9-FLASTSCR-NEXT: v_and_or_b32 v0, v0, s0, v1			; GFX9-FLASTSCR-NEXT: v_and_or_b32 v0, v0, s0, v1
	; GFX9-FLASTSCR-NEXT: s_setpc_b64 s[30:31]			; GFX9-FLASTSCR-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: private_load_2xi16_align4:			; GFX10-LABEL: private_load_2xi16_align4:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GFX10-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX10-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-FLASTSCR-LABEL: private_load_2xi16_align4:			; GFX10-FLASTSCR-LABEL: private_load_2xi16_align4:
	; GFX10-FLASTSCR: ; %bb.0:			; GFX10-FLASTSCR: ; %bb.0:
	; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-FLASTSCR-NEXT: scratch_load_dword v0, v0, off			; GFX10-FLASTSCR-NEXT: scratch_load_dword v0, v0, off
	; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0)			; GFX10-FLASTSCR-NEXT: s_waitcnt vmcnt(0)
	; GFX10-FLASTSCR-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX10-FLASTSCR-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX10-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX10-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-FLASTSCR-NEXT: s_setpc_b64 s[30:31]			; GFX10-FLASTSCR-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: private_load_2xi16_align4:			; GFX11-LABEL: private_load_2xi16_align4:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: scratch_load_b32 v0, v0, off			; GFX11-NEXT: scratch_load_b32 v0, v0, off
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX11-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX11-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-FLASTSCR-LABEL: private_load_2xi16_align4:			; GFX11-FLASTSCR-LABEL: private_load_2xi16_align4:
	; GFX11-FLASTSCR: ; %bb.0:			; GFX11-FLASTSCR: ; %bb.0:
	; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-FLASTSCR-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-FLASTSCR-NEXT: scratch_load_b32 v0, v0, off			; GFX11-FLASTSCR-NEXT: scratch_load_b32 v0, v0, off
	; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0)			; GFX11-FLASTSCR-NEXT: s_waitcnt vmcnt(0)
	; GFX11-FLASTSCR-NEXT: v_bfi_b32 v1, 0xffff, 0, v0			; GFX11-FLASTSCR-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; GFX11-FLASTSCR-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-FLASTSCR-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1			; GFX11-FLASTSCR-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX11-FLASTSCR-NEXT: s_setpc_b64 s[30:31]			; GFX11-FLASTSCR-NEXT: s_setpc_b64 s[30:31]
	%gep.p = getelementptr i16, i16 addrspace(5)* %p, i64 1			%gep.p = getelementptr i16, i16 addrspace(5)* %p, i64 1
	%p.0 = load i16, i16 addrspace(5)* %p, align 4			%p.0 = load i16, i16 addrspace(5)* %p, align 4
	%p.1 = load i16, i16 addrspace(5)* %gep.p, align 2			%p.1 = load i16, i16 addrspace(5)* %gep.p, align 2
	%zext.0 = zext i16 %p.0 to i32			%zext.0 = zext i16 %p.0 to i32
	%zext.1 = zext i16 %p.1 to i32			%zext.1 = zext i16 %p.1 to i32
	▲ Show 20 Lines • Show All 89 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll

	Show First 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_max_f16_sdwa v1, v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_max_f16_sdwa v1, v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_max_f16_e32 v0, v0, v0			; VI-NEXT: v_max_f16_e32 v0, v0, v0
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_test_canonicalize_build_vector_v2f16:			; GFX9-LABEL: v_test_canonicalize_build_vector_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: v_pk_max_f16 v0, v0, v0			; GFX9-NEXT: v_pk_max_f16 v0, v0, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; CI-LABEL: v_test_canonicalize_build_vector_v2f16:			; CI-LABEL: v_test_canonicalize_build_vector_v2f16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_cvt_f16_f32_e32 v0, v0			; CI-NEXT: v_cvt_f16_f32_e32 v0, v0
	; CI-NEXT: v_cvt_f16_f32_e32 v1, v1			; CI-NEXT: v_cvt_f16_f32_e32 v1, v1
	▲ Show 20 Lines • Show All 2,006 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_max_f16_sdwa v1, v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_max_f16_sdwa v1, v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: v_mov_b32_e32 v1, 0x7e007e00			; VI-NEXT: v_mov_b32_e32 v1, 0x7e007e00
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_test_canonicalize_reg_reg_undef_undef_v4f16:			; GFX9-LABEL: v_test_canonicalize_reg_reg_undef_undef_v4f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: v_pk_max_f16 v0, v0, v0			; GFX9-NEXT: v_pk_max_f16 v0, v0, v0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x7e007e00			; GFX9-NEXT: v_mov_b32_e32 v1, 0x7e007e00
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; CI-LABEL: v_test_canonicalize_reg_reg_undef_undef_v4f16:			; CI-LABEL: v_test_canonicalize_reg_reg_undef_undef_v4f16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_cvt_f16_f32_e32 v0, v0			; CI-NEXT: v_cvt_f16_f32_e32 v0, v0
	Show All 20 Lines
	; VI-NEXT: v_max_f16_e32 v0, v0, v0			; VI-NEXT: v_max_f16_e32 v0, v0, v0
	; VI-NEXT: v_or_b32_e32 v0, 0x7e000000, v0			; VI-NEXT: v_or_b32_e32 v0, 0x7e000000, v0
	; VI-NEXT: v_or_b32_e32 v1, v1, v2			; VI-NEXT: v_or_b32_e32 v1, v1, v2
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_test_canonicalize_reg_undef_reg_reg_v4f16:			; GFX9-LABEL: v_test_canonicalize_reg_undef_reg_reg_v4f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
				; GFX9-NEXT: v_perm_b32 v1, v2, v1, s4
	; GFX9-NEXT: v_max_f16_e32 v0, v0, v0			; GFX9-NEXT: v_max_f16_e32 v0, v0, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, 0
	; GFX9-NEXT: v_pk_max_f16 v1, v1, v1			; GFX9-NEXT: v_pk_max_f16 v1, v1, v1
				; GFX9-NEXT: v_pack_b32_f16 v0, v0, 0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; CI-LABEL: v_test_canonicalize_reg_undef_reg_reg_v4f16:			; CI-LABEL: v_test_canonicalize_reg_undef_reg_reg_v4f16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_cvt_f16_f32_e32 v0, v0			; CI-NEXT: v_cvt_f16_f32_e32 v0, v0
	; CI-NEXT: v_cvt_f16_f32_e32 v1, v1			; CI-NEXT: v_cvt_f16_f32_e32 v1, v1
	; CI-NEXT: v_cvt_f16_f32_e32 v2, v2			; CI-NEXT: v_cvt_f16_f32_e32 v2, v2
	Show All 19 Lines

llvm/test/CodeGen/AMDGPU/fmax_legacy.f16.ll

	Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; GFX9-SAFE: ; %bb.0:			; GFX9-SAFE: ; %bb.0:
	; GFX9-SAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-SAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v3, v2			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v3, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v1			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v1
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v2f16:			; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v2f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v1			; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v1
	; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]			; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]
	;			;
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v5, v4			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v5, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v3			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v3
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v2			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v0, v4, v0, s4
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v3f16:			; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v3f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_max_f16 v1, v1, v3			; GFX9-NNAN-NEXT: v_pk_max_f16 v1, v1, v3
	; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v2			; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v2
	; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]			; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v7, v6			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v7, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v5, v4			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v5, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v3			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v3
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v2			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-SAFE-NEXT: v_perm_b32 v0, v4, v0, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v1, v6, v1, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v4f16:			; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v4f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v2			; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v2
	; GFX9-NNAN-NEXT: v_pk_max_f16 v1, v1, v3			; GFX9-NNAN-NEXT: v_pk_max_f16 v1, v1, v3
	; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]			; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v3, v7			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v3, v7
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v2, v6			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v2, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v5			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v5
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v4			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-SAFE-NEXT: v_perm_b32 v0, v8, v0, s4
	; GFX9-SAFE-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-SAFE-NEXT: v_perm_b32 v1, v10, v1, s4
	; GFX9-SAFE-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX9-SAFE-NEXT: v_perm_b32 v2, v12, v2, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v8, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v3, v14, v3, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v2, v12, 16, v2
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v3, v14, 16, v3
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v8f16:			; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v8f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v4			; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v4
	; GFX9-NNAN-NEXT: v_pk_max_f16 v1, v1, v5			; GFX9-NNAN-NEXT: v_pk_max_f16 v1, v1, v5
	; GFX9-NNAN-NEXT: v_pk_max_f16 v2, v2, v6			; GFX9-NNAN-NEXT: v_pk_max_f16 v2, v2, v6
	▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fmin_legacy.f16.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX9-SAFE: ; %bb.0:			; GFX9-SAFE: ; %bb.0:
	; GFX9-SAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-SAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v3, v2			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v3, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v1			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v1
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v2f16:			; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v2f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v1			; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v1
	; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]			; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]
	;			;
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX9-SAFE-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v5, v4			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v5, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v3			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v3
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v2			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v0, v4, v0, s4
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v3f16:			; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v3f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_min_f16 v1, v1, v3			; GFX9-NNAN-NEXT: v_pk_min_f16 v1, v1, v3
	; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v2			; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v2
	; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]			; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v7, v6			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v7, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v5, v4			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v5, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v3			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v3
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v2			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-SAFE-NEXT: v_perm_b32 v0, v4, v0, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v1, v6, v1, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v4f16:			; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v4f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v2			; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v2
	; GFX9-NNAN-NEXT: v_pk_min_f16 v1, v1, v3			; GFX9-NNAN-NEXT: v_pk_min_f16 v1, v1, v3
	; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]			; GFX9-NNAN-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v3, v7			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v3, v7
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v2, v6			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v2, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v5			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v5
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v4			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-SAFE-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-SAFE-NEXT: v_perm_b32 v0, v8, v0, s4
	; GFX9-SAFE-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-SAFE-NEXT: v_perm_b32 v1, v10, v1, s4
	; GFX9-SAFE-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX9-SAFE-NEXT: v_perm_b32 v2, v12, v2, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v8, 16, v0			; GFX9-SAFE-NEXT: v_perm_b32 v3, v14, v3, s4
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v2, v12, 16, v2
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v3, v14, 16, v3
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v8f16:			; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v8f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v4			; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v4
	; GFX9-NNAN-NEXT: v_pk_min_f16 v1, v1, v5			; GFX9-NNAN-NEXT: v_pk_min_f16 v1, v1, v5
	; GFX9-NNAN-NEXT: v_pk_min_f16 v2, v2, v6			; GFX9-NNAN-NEXT: v_pk_min_f16 v2, v2, v6
	▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show First 20 Lines • Show All 927 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, v7, v1			; GFX9-NEXT: v_lshlrev_b16_e32 v1, v7, v1
	; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3			; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; GFX9-NEXT: v_or_b32_e32 v1, v1, v3			; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2			; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v2			; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v6, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v6, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v3i16:			; R600-LABEL: v_fshr_v3i16:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	;			;
	; GFX10-LABEL: v_fshr_v3i16:			; GFX10-LABEL: v_fshr_v3i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v4
				; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0			; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX10-NEXT: v_xor_b32_e32 v8, -1, v4			; GFX10-NEXT: v_xor_b32_e32 v10, -1, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 16, v2			; GFX10-NEXT: v_lshlrev_b16 v6, 1, v6
	; GFX10-NEXT: v_xor_b32_e32 v10, -1, v6			; GFX10-NEXT: v_xor_b32_e32 v9, -1, v7
	; GFX10-NEXT: v_lshlrev_b16 v7, 1, v7
	; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2
	; GFX10-NEXT: v_lshlrev_b16 v0, v8, v0
	; GFX10-NEXT: v_lshrrev_b16 v4, v6, v9
	; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1			; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1
	; GFX10-NEXT: v_lshlrev_b16 v6, v10, v7			; GFX10-NEXT: v_lshrrev_b16 v7, v7, v8
				; GFX10-NEXT: v_lshlrev_b16 v0, v10, v0
				; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2
				; GFX10-NEXT: v_lshlrev_b16 v6, v9, v6
				; GFX10-NEXT: v_xor_b32_e32 v4, -1, v5
	; GFX10-NEXT: v_lshrrev_b16 v3, v5, v3			; GFX10-NEXT: v_lshrrev_b16 v3, v5, v3
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v2			; GFX10-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX10-NEXT: v_xor_b32_e32 v2, -1, v5			; GFX10-NEXT: v_or_b32_e32 v5, v6, v7
	; GFX10-NEXT: v_or_b32_e32 v4, v6, v4			; GFX10-NEXT: v_lshlrev_b16 v1, v4, v1
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v5, v0, 0x5040100
	; GFX10-NEXT: v_lshlrev_b16 v1, v2, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX10-NEXT: v_or_b32_e32 v1, v1, v3			; GFX10-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fshr_v3i16:			; GFX11-LABEL: v_fshr_v3i16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v4			; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v4
				; GFX11-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; GFX11-NEXT: v_lshlrev_b16 v0, 1, v0			; GFX11-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX11-NEXT: v_xor_b32_e32 v8, -1, v4			; GFX11-NEXT: v_xor_b32_e32 v10, -1, v4
	; GFX11-NEXT: v_lshrrev_b32_e32 v9, 16, v2			; GFX11-NEXT: v_lshlrev_b16 v6, 1, v6
	; GFX11-NEXT: v_xor_b32_e32 v10, -1, v6			; GFX11-NEXT: v_xor_b32_e32 v9, -1, v7
	; GFX11-NEXT: v_lshlrev_b16 v7, 1, v7
	; GFX11-NEXT: v_lshrrev_b16 v2, v4, v2
	; GFX11-NEXT: v_lshlrev_b16 v0, v8, v0
	; GFX11-NEXT: v_lshrrev_b16 v4, v6, v9
	; GFX11-NEXT: v_lshlrev_b16 v1, 1, v1			; GFX11-NEXT: v_lshlrev_b16 v1, 1, v1
	; GFX11-NEXT: v_lshlrev_b16 v6, v10, v7			; GFX11-NEXT: v_lshrrev_b16 v7, v7, v8
				; GFX11-NEXT: v_lshlrev_b16 v0, v10, v0
				; GFX11-NEXT: v_lshrrev_b16 v2, v4, v2
				; GFX11-NEXT: v_lshlrev_b16 v6, v9, v6
				; GFX11-NEXT: v_xor_b32_e32 v4, -1, v5
	; GFX11-NEXT: v_lshrrev_b16 v3, v5, v3			; GFX11-NEXT: v_lshrrev_b16 v3, v5, v3
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_4)
	; GFX11-NEXT: v_or_b32_e32 v0, v0, v2			; GFX11-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX11-NEXT: v_xor_b32_e32 v2, -1, v5			; GFX11-NEXT: v_or_b32_e32 v5, v6, v7
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_3)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_or_b32_e32 v4, v6, v4			; GFX11-NEXT: v_lshlrev_b16 v1, v4, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v5, v0, 0x5040100
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_lshlrev_b16 v1, v2, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2)
	; GFX11-NEXT: v_or_b32_e32 v1, v1, v3			; GFX11-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%ret = call <3 x i16> @llvm.fshr.v3i16(<3 x i16> %src0, <3 x i16> %src1, <3 x i16> %src2)			%ret = call <3 x i16> @llvm.fshr.v3i16(<3 x i16> %src0, <3 x i16> %src1, <3 x i16> %src2)
	ret <3 x i16> %ret			ret <3 x i16> %ret
	}			}

	define <4 x i16> @v_fshr_v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2) {			define <4 x i16> @v_fshr_v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2) {
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_xor_b32_e32 v8, -1, v5			; GFX9-NEXT: v_xor_b32_e32 v8, -1, v5
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, v8, v1			; GFX9-NEXT: v_lshlrev_b16_e32 v1, v8, v1
	; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3			; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; GFX9-NEXT: v_or_b32_e32 v1, v1, v3			; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2			; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX9-NEXT: v_or_b32_e32 v7, v7, v9			; GFX9-NEXT: v_or_b32_e32 v7, v7, v9
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v7, v0, s4
	; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v6, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v4i16:			; R600-LABEL: v_fshr_v4i16:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	;			;
	; GFX10-LABEL: v_fshr_v4i16:			; GFX10-LABEL: v_fshr_v4i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v5			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v4
	; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v11, 16, v2
	; GFX10-NEXT: v_xor_b32_e32 v11, -1, v5
	; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX10-NEXT: v_xor_b32_e32 v12, -1, v4
	; GFX10-NEXT: v_lshrrev_b16 v6, v7, v6			; GFX10-NEXT: v_lshrrev_b16 v6, v7, v6
	; GFX10-NEXT: v_lshlrev_b16 v8, 1, v8			; GFX10-NEXT: v_lshlrev_b16 v8, 1, v8
	; GFX10-NEXT: v_xor_b32_e32 v7, -1, v7			; GFX10-NEXT: v_xor_b32_e32 v7, -1, v7
	; GFX10-NEXT: v_lshrrev_b32_e32 v13, 16, v2			; GFX10-NEXT: v_lshlrev_b16 v9, 1, v9
	; GFX10-NEXT: v_lshlrev_b16 v10, 1, v10			; GFX10-NEXT: v_xor_b32_e32 v12, -1, v10
	; GFX10-NEXT: v_xor_b32_e32 v14, -1, v9			; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1
	; GFX10-NEXT: v_lshlrev_b16 v1, v11, v1			; GFX10-NEXT: v_xor_b32_e32 v13, -1, v5
	; GFX10-NEXT: v_lshlrev_b16 v0, v12, v0			; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0
				; GFX10-NEXT: v_xor_b32_e32 v14, -1, v4
				; GFX10-NEXT: v_lshlrev_b16 v7, v7, v8
				; GFX10-NEXT: v_lshrrev_b16 v8, v10, v11
				; GFX10-NEXT: v_lshlrev_b16 v9, v12, v9
				; GFX10-NEXT: v_lshlrev_b16 v1, v13, v1
				; GFX10-NEXT: v_lshlrev_b16 v0, v14, v0
	; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2			; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2
	; GFX10-NEXT: v_lshrrev_b16 v3, v5, v3			; GFX10-NEXT: v_lshrrev_b16 v3, v5, v3
	; GFX10-NEXT: v_lshlrev_b16 v4, v7, v8			; GFX10-NEXT: v_or_b32_e32 v4, v7, v6
	; GFX10-NEXT: v_lshrrev_b16 v5, v9, v13			; GFX10-NEXT: v_or_b32_e32 v5, v9, v8
	; GFX10-NEXT: v_lshlrev_b16 v7, v14, v10
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v2			; GFX10-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX10-NEXT: v_or_b32_e32 v1, v1, v3			; GFX10-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX10-NEXT: v_or_b32_e32 v2, v4, v6			; GFX10-NEXT: v_perm_b32 v0, v5, v0, 0x5040100
	; GFX10-NEXT: v_or_b32_e32 v3, v7, v5			; GFX10-NEXT: v_perm_b32 v1, v4, v1, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v3, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fshr_v4i16:			; GFX11-LABEL: v_fshr_v4i16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v3			; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v3
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v5			; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v5
	; GFX11-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX11-NEXT: v_lshrrev_b32_e32 v9, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v4
	; GFX11-NEXT: v_lshlrev_b16 v1, 1, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v11, 16, v2
	; GFX11-NEXT: v_xor_b32_e32 v11, -1, v5
	; GFX11-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX11-NEXT: v_xor_b32_e32 v12, -1, v4
	; GFX11-NEXT: v_lshrrev_b16 v6, v7, v6			; GFX11-NEXT: v_lshrrev_b16 v6, v7, v6
	; GFX11-NEXT: v_lshlrev_b16 v8, 1, v8			; GFX11-NEXT: v_lshlrev_b16 v8, 1, v8
	; GFX11-NEXT: v_xor_b32_e32 v7, -1, v7			; GFX11-NEXT: v_xor_b32_e32 v7, -1, v7
	; GFX11-NEXT: v_lshrrev_b32_e32 v13, 16, v2			; GFX11-NEXT: v_lshlrev_b16 v9, 1, v9
	; GFX11-NEXT: v_lshlrev_b16 v10, 1, v10			; GFX11-NEXT: v_xor_b32_e32 v12, -1, v10
	; GFX11-NEXT: v_xor_b32_e32 v14, -1, v9			; GFX11-NEXT: v_lshlrev_b16 v1, 1, v1
	; GFX11-NEXT: v_lshlrev_b16 v1, v11, v1			; GFX11-NEXT: v_xor_b32_e32 v13, -1, v5
	; GFX11-NEXT: v_lshlrev_b16 v0, v12, v0			; GFX11-NEXT: v_lshlrev_b16 v0, 1, v0
				; GFX11-NEXT: v_xor_b32_e32 v14, -1, v4
				; GFX11-NEXT: v_lshlrev_b16 v7, v7, v8
				; GFX11-NEXT: v_lshrrev_b16 v8, v10, v11
				; GFX11-NEXT: v_lshlrev_b16 v9, v12, v9
				; GFX11-NEXT: v_lshlrev_b16 v1, v13, v1
				; GFX11-NEXT: v_lshlrev_b16 v0, v14, v0
	; GFX11-NEXT: v_lshrrev_b16 v2, v4, v2			; GFX11-NEXT: v_lshrrev_b16 v2, v4, v2
	; GFX11-NEXT: v_lshrrev_b16 v3, v5, v3			; GFX11-NEXT: v_lshrrev_b16 v3, v5, v3
	; GFX11-NEXT: v_lshlrev_b16 v4, v7, v8			; GFX11-NEXT: v_or_b32_e32 v4, v7, v6
	; GFX11-NEXT: v_lshrrev_b16 v5, v9, v13			; GFX11-NEXT: v_or_b32_e32 v5, v9, v8
	; GFX11-NEXT: v_lshlrev_b16 v7, v14, v10			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_4)
	; GFX11-NEXT: v_or_b32_e32 v0, v0, v2			; GFX11-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX11-NEXT: v_or_b32_e32 v1, v1, v3			; GFX11-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX11-NEXT: v_or_b32_e32 v2, v4, v6			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_4)			; GFX11-NEXT: v_perm_b32 v0, v5, v0, 0x5040100
	; GFX11-NEXT: v_or_b32_e32 v3, v7, v5			; GFX11-NEXT: v_perm_b32 v1, v4, v1, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2)
	; GFX11-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%ret = call <4 x i16> @llvm.fshr.v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2)			%ret = call <4 x i16> @llvm.fshr.v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2)
	ret <4 x i16> %ret			ret <4 x i16> %ret
	}			}

	define i64 @v_fshr_i64(i64 %src0, i64 %src1, i64 %src2) {			define i64 @v_fshr_i64(i64 %src0, i64 %src1, i64 %src2) {
	; SI-LABEL: v_fshr_i64:			; SI-LABEL: v_fshr_i64:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	▲ Show 20 Lines • Show All 370 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

	Show First 20 Lines • Show All 1,026 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: flat_store_short v[0:1], v2			; GFX8-NEXT: flat_store_short v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: idot4_acc16_vecMul:			; GFX9-NODL-LABEL: idot4_acc16_vecMul:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NODL-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NODL-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v7, 8, v1			; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v6, 8, v1
	; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v8, 8, v2			; GFX9-NODL-NEXT: v_bfe_i32 v1, v1, 0, 8
	; GFX9-NODL-NEXT: v_and_b32_sdwa v2, v4, sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v7, 8, v2
	; GFX9-NODL-NEXT: v_and_b32_sdwa v1, v4, sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NODL-NEXT: v_bfe_i32 v2, v2, 0, 8
	; GFX9-NODL-NEXT: v_lshl_or_b32 v2, v8, 16, v2			; GFX9-NODL-NEXT: v_perm_b32 v2, v7, v2, s0
	; GFX9-NODL-NEXT: v_lshl_or_b32 v1, v7, 16, v1			; GFX9-NODL-NEXT: v_perm_b32 v1, v6, v1, s0
				; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v8, 8, v4
				; GFX9-NODL-NEXT: v_bfe_i32 v4, v4, 0, 8
	; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v9, 8, v5			; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v9, 8, v5
	; GFX9-NODL-NEXT: v_ashrrev_i16_e32 v10, 8, v6			; GFX9-NODL-NEXT: v_bfe_i32 v5, v5, 0, 8
	; GFX9-NODL-NEXT: v_and_b32_sdwa v6, v4, sext(v6) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NODL-NEXT: v_and_b32_sdwa v4, v4, sext(v5) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NODL-NEXT: v_lshl_or_b32 v5, v10, 16, v6			; GFX9-NODL-NEXT: v_perm_b32 v5, v9, v5, s0
	; GFX9-NODL-NEXT: v_lshl_or_b32 v4, v9, 16, v4			; GFX9-NODL-NEXT: v_perm_b32 v4, v8, v4, s0
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_add_u16_e32 v3, v1, v3			; GFX9-NODL-NEXT: v_add_u16_e32 v3, v1, v3
	; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v2, v4, v5			; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v2, v4, v5
	; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v2
	; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: idot4_acc16_vecMul:			; GFX9-DL-LABEL: idot4_acc16_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-DL-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v7, 8, v1			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 8, v1
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 8, v2			; GFX9-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
	; GFX9-DL-NEXT: v_and_b32_sdwa v2, v4, sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v7, 8, v2
	; GFX9-DL-NEXT: v_and_b32_sdwa v1, v4, sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-DL-NEXT: v_bfe_i32 v2, v2, 0, 8
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v8, 16, v2			; GFX9-DL-NEXT: v_perm_b32 v2, v7, v2, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v7, 16, v1			; GFX9-DL-NEXT: v_perm_b32 v1, v6, v1, s0
				; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 8, v4
				; GFX9-DL-NEXT: v_bfe_i32 v4, v4, 0, 8
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 8, v5			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 8, v5
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v10, 8, v6			; GFX9-DL-NEXT: v_bfe_i32 v5, v5, 0, 8
	; GFX9-DL-NEXT: v_and_b32_sdwa v6, v4, sext(v6) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-DL-NEXT: v_and_b32_sdwa v4, v4, sext(v5) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_lshl_or_b32 v5, v10, 16, v6			; GFX9-DL-NEXT: v_perm_b32 v5, v9, v5, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v9, 16, v4			; GFX9-DL-NEXT: v_perm_b32 v4, v8, v4, s0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v1, v3			; GFX9-DL-NEXT: v_add_u16_e32 v3, v1, v3
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v4, v5			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v4, v5
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot4_acc16_vecMul:			; GFX10-DL-LABEL: idot4_acc16_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_clause 0x1			; GFX10-DL-NEXT: s_clause 0x1
	; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-DL-NEXT: global_load_ushort v3, v0, s[0:1]			; GFX10-DL-NEXT: global_load_ushort v3, v0, s[0:1]
	; GFX10-DL-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NEXT: v_ashrrev_i16 v5, 8, v1			; GFX10-DL-NEXT: v_ashrrev_i16 v4, 8, v1
	; GFX10-DL-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NEXT: v_ashrrev_i16 v6, 8, v2			; GFX10-DL-NEXT: v_ashrrev_i16 v5, 8, v2
	; GFX10-DL-NEXT: v_and_b32_sdwa v7, v4, sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_bfe_i32 v6, v2, 0, 8
	; GFX10-DL-NEXT: v_and_b32_sdwa v8, v4, sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_bfe_i32 v7, v1, 0, 8
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX10-DL-NEXT: v_lshl_or_b32 v6, v6, 16, v7			; GFX10-DL-NEXT: v_perm_b32 v5, v5, v6, 0x5040100
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v5, 16, v8			; GFX10-DL-NEXT: v_perm_b32 v4, v4, v7, 0x5040100
	; GFX10-DL-NEXT: v_ashrrev_i16 v7, 8, v1			; GFX10-DL-NEXT: v_ashrrev_i16 v6, 8, v1
	; GFX10-DL-NEXT: v_ashrrev_i16 v8, 8, v2			; GFX10-DL-NEXT: v_ashrrev_i16 v7, 8, v2
	; GFX10-DL-NEXT: v_and_b32_sdwa v2, v4, sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_bfe_i32 v2, v2, 0, 8
	; GFX10-DL-NEXT: v_and_b32_sdwa v1, v4, sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v5, v6			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
	; GFX10-DL-NEXT: v_lshl_or_b32 v2, v8, 16, v2			; GFX10-DL-NEXT: v_perm_b32 v2, v7, v2, 0x5040100
	; GFX10-DL-NEXT: v_lshl_or_b32 v1, v7, 16, v1			; GFX10-DL-NEXT: v_perm_b32 v1, v6, v1, 0x5040100
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3			; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5			; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1			; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3			; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3
	Show All 31 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

	Show First 20 Lines • Show All 1,907 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot4_acc16_vecMul:			; GFX9-NODL-LABEL: udot4_acc16_vecMul:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff			; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NODL-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NODL-NEXT: s_mov_b32 s1, 0x5040100
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v5, 8, v1			; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v4, 8, v1
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v7, 8, v2			; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v6, 8, v2
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v8, 24, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v7, 24, v2
	; GFX9-NODL-NEXT: v_and_b32_sdwa v9, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_e32 v8, 0xff, v1
	; GFX9-NODL-NEXT: v_and_b32_sdwa v10, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NODL-NEXT: v_and_b32_e32 v9, 0xff, v2
	; GFX9-NODL-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NODL-NEXT: v_and_b32_sdwa v2, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_lshl_or_b32 v2, v7, 16, v2			; GFX9-NODL-NEXT: v_perm_b32 v2, v7, v2, s1
	; GFX9-NODL-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-NODL-NEXT: v_perm_b32 v1, v5, v1, s1
	; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xffff, v10			; GFX9-NODL-NEXT: v_perm_b32 v5, v6, v9, s1
	; GFX9-NODL-NEXT: v_and_b32_e32 v9, 0xffff, v9			; GFX9-NODL-NEXT: v_perm_b32 v4, v4, v8, s1
	; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NODL-NEXT: v_lshl_or_b32 v4, v8, 16, v4			; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v2, v4, v5
	; GFX9-NODL-NEXT: v_lshl_or_b32 v5, v6, 16, v9
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_add_u16_e32 v3, v1, v3			; GFX9-NODL-NEXT: v_add_u16_e32 v3, v2, v3
	; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v2, v5, v4			; GFX9-NODL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NODL-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot4_acc16_vecMul:			; GFX9-DL-LABEL: udot4_acc16_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: s_movk_i32 s0, 0xff			; GFX9-DL-NEXT: s_movk_i32 s0, 0xff
	; GFX9-DL-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-DL-NEXT: s_mov_b32 s1, 0x5040100
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_lshrrev_b16_e32 v5, 8, v1			; GFX9-DL-NEXT: v_lshrrev_b16_e32 v4, 8, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_lshrrev_b16_e32 v7, 8, v2			; GFX9-DL-NEXT: v_lshrrev_b16_e32 v6, 8, v2
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 24, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 24, v2
	; GFX9-DL-NEXT: v_and_b32_sdwa v9, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_e32 v8, 0xff, v1
	; GFX9-DL-NEXT: v_and_b32_sdwa v10, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-DL-NEXT: v_and_b32_e32 v9, 0xff, v2
	; GFX9-DL-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-DL-NEXT: v_and_b32_sdwa v2, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v7, 16, v2			; GFX9-DL-NEXT: v_perm_b32 v2, v7, v2, s1
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-DL-NEXT: v_perm_b32 v1, v5, v1, s1
	; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xffff, v10			; GFX9-DL-NEXT: v_perm_b32 v5, v6, v9, s1
	; GFX9-DL-NEXT: v_and_b32_e32 v9, 0xffff, v9			; GFX9-DL-NEXT: v_perm_b32 v4, v4, v8, s1
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v8, 16, v4			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v4, v5
	; GFX9-DL-NEXT: v_lshl_or_b32 v5, v6, 16, v9
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v1, v3			; GFX9-DL-NEXT: v_add_u16_e32 v3, v2, v3
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v5, v4			; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_acc16_vecMul:			; GFX10-DL-LABEL: udot4_acc16_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX10-DL-NEXT: v_mov_b32_e32 v8, 0xff
	; GFX10-DL-NEXT: v_mov_b32_e32 v5, 0xff
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_clause 0x1			; GFX10-DL-NEXT: s_clause 0x1
	; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-DL-NEXT: global_load_ushort v3, v0, s[0:1]			; GFX10-DL-NEXT: global_load_ushort v3, v0, s[0:1]
	; GFX10-DL-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NEXT: v_lshrrev_b16 v6, 8, v1			; GFX10-DL-NEXT: v_lshrrev_b16 v4, 8, v1
	; GFX10-DL-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NEXT: v_lshrrev_b16 v7, 8, v2			; GFX10-DL-NEXT: v_lshrrev_b16 v5, 8, v2
	; GFX10-DL-NEXT: v_and_b32_sdwa v8, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_and_b32_e32 v6, 0xff, v2
	; GFX10-DL-NEXT: v_and_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_and_b32_e32 v7, 0xff, v1
	; GFX10-DL-NEXT: v_and_b32_sdwa v9, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-DL-NEXT: v_perm_b32 v5, v5, v6, 0x5040100
	; GFX10-DL-NEXT: v_and_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-DL-NEXT: v_perm_b32 v4, v4, v7, 0x5040100
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX10-DL-NEXT: v_lshl_or_b32 v7, v7, 16, v8			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v7, 24, v2
	; GFX10-DL-NEXT: v_lshl_or_b32 v4, v6, 16, v4			; GFX10-DL-NEXT: v_and_b32_sdwa v2, v2, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX10-DL-NEXT: v_and_b32_sdwa v1, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
	; GFX10-DL-NEXT: v_and_b32_e32 v6, 0xffff, v9			; GFX10-DL-NEXT: v_perm_b32 v2, v7, v2, 0x5040100
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7			; GFX10-DL-NEXT: v_perm_b32 v1, v6, v1, 0x5040100
	; GFX10-DL-NEXT: v_lshl_or_b32 v2, v2, 16, v5
	; GFX10-DL-NEXT: v_lshl_or_b32 v1, v1, 16, v6
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3			; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5			; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1			; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3			; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3
	▲ Show 20 Lines • Show All 220 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

	Show First 20 Lines • Show All 2,339 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v4, 12			; GFX9-NEXT: v_mov_b32_e32 v4, 12
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-NEXT: global_load_ushort v3, v0, s[2:3]
				; GFX9-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-NEXT: s_addc_u32 s9, s9, 0			; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt vmcnt(2)			; GFX9-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 4, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 4, v1
	; GFX9-NEXT: v_lshlrev_b16_e32 v6, 12, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 12, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 12, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 20, v1
	; GFX9-NEXT: v_lshlrev_b16_sdwa v10, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 28, v1
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 4, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v13, 4, v2
	; GFX9-NEXT: v_lshlrev_b16_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-NEXT: v_lshlrev_b16_e32 v5, 12, v1
	; GFX9-NEXT: v_lshlrev_b16_e32 v13, 12, v2			; GFX9-NEXT: v_lshlrev_b16_e32 v12, 12, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v14, 12, v2			; GFX9-NEXT: v_lshlrev_b16_e32 v6, 12, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v15, 8, v2			; GFX9-NEXT: v_lshlrev_b16_e32 v7, 12, v7
	; GFX9-NEXT: v_lshrrev_b32_e32 v16, 20, v2			; GFX9-NEXT: v_lshlrev_b16_e32 v8, 12, v8
	; GFX9-NEXT: v_lshlrev_b16_sdwa v17, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_lshlrev_b16_e32 v13, 12, v13
	; GFX9-NEXT: v_lshrrev_b32_e32 v18, 28, v2			; GFX9-NEXT: v_lshlrev_b16_sdwa v9, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshlrev_b16_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-NEXT: v_lshrrev_b32_e32 v10, 20, v1
	; GFX9-NEXT: v_lshlrev_b16_e32 v4, 12, v5			; GFX9-NEXT: v_lshlrev_b16_sdwa v11, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v6			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX9-NEXT: v_lshlrev_b16_e32 v6, 12, v7			; GFX9-NEXT: v_lshrrev_b32_e32 v14, 8, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v7, 12, v8			; GFX9-NEXT: v_lshrrev_b32_e32 v15, 12, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v8, 12, v9			; GFX9-NEXT: v_lshlrev_b16_sdwa v16, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_ashrrev_i16_e32 v9, 12, v10			; GFX9-NEXT: v_lshrrev_b32_e32 v17, 20, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v10, 12, v11			; GFX9-NEXT: v_lshlrev_b16_sdwa v4, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-NEXT: v_lshlrev_b16_e32 v11, 12, v12			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX9-NEXT: v_ashrrev_i16_e32 v12, 12, v13			; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5
	; GFX9-NEXT: v_ashrrev_i16_e32 v4, 12, v4			; GFX9-NEXT: v_ashrrev_i16_e32 v12, 12, v12
	; GFX9-NEXT: v_ashrrev_i16_e32 v6, 12, v6			; GFX9-NEXT: v_ashrrev_i16_e32 v6, 12, v6
	; GFX9-NEXT: v_ashrrev_i16_e32 v7, 12, v7			; GFX9-NEXT: v_ashrrev_i16_e32 v7, 12, v7
	; GFX9-NEXT: v_ashrrev_i16_e32 v11, 12, v11
	; GFX9-NEXT: v_lshlrev_b16_e32 v13, 12, v14
	; GFX9-NEXT: v_lshlrev_b16_e32 v14, 12, v15
	; GFX9-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX9-NEXT: v_lshl_or_b32 v7, v11, 16, v12
	; GFX9-NEXT: v_lshl_or_b32 v4, v4, 16, v5
	; GFX9-NEXT: v_ashrrev_i16_e32 v8, 12, v8			; GFX9-NEXT: v_ashrrev_i16_e32 v8, 12, v8
	; GFX9-NEXT: v_ashrrev_i16_e32 v13, 12, v13			; GFX9-NEXT: v_ashrrev_i16_e32 v13, 12, v13
	; GFX9-NEXT: v_ashrrev_i16_e32 v14, 12, v14			; GFX9-NEXT: v_lshlrev_b16_e32 v10, 12, v10
	; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v7			; GFX9-NEXT: v_lshlrev_b16_e32 v1, 12, v1
	; GFX9-NEXT: v_lshlrev_b16_e32 v15, 12, v16			; GFX9-NEXT: v_lshlrev_b16_e32 v14, 12, v14
	; GFX9-NEXT: v_ashrrev_i16_e32 v16, 12, v17			; GFX9-NEXT: v_lshlrev_b16_e32 v15, 12, v15
	; GFX9-NEXT: v_lshlrev_b16_e32 v17, 12, v18			; GFX9-NEXT: v_lshlrev_b16_e32 v17, 12, v17
	; GFX9-NEXT: v_lshl_or_b32 v8, v8, 16, v9			; GFX9-NEXT: v_lshlrev_b16_e32 v2, 12, v2
	; GFX9-NEXT: v_lshl_or_b32 v9, v13, 16, v14			; GFX9-NEXT: v_perm_b32 v7, v8, v7, s0
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: v_perm_b32 v8, v13, v12, s0
	; GFX9-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-NEXT: v_perm_b32 v5, v6, v5, s0
	; GFX9-NEXT: v_ashrrev_i16_e32 v1, 12, v1			; GFX9-NEXT: v_ashrrev_i16_e32 v9, 12, v9
	; GFX9-NEXT: v_ashrrev_i16_e32 v2, 12, v2			; GFX9-NEXT: v_ashrrev_i16_e32 v11, 12, v11
				; GFX9-NEXT: v_ashrrev_i16_e32 v16, 12, v16
				; GFX9-NEXT: v_ashrrev_i16_e32 v4, 12, v4
	; GFX9-NEXT: v_ashrrev_i16_e32 v10, 12, v10			; GFX9-NEXT: v_ashrrev_i16_e32 v10, 12, v10
				; GFX9-NEXT: v_ashrrev_i16_e32 v1, 12, v1
				; GFX9-NEXT: v_ashrrev_i16_e32 v14, 12, v14
	; GFX9-NEXT: v_ashrrev_i16_e32 v15, 12, v15			; GFX9-NEXT: v_ashrrev_i16_e32 v15, 12, v15
	; GFX9-NEXT: v_ashrrev_i16_e32 v17, 12, v17			; GFX9-NEXT: v_ashrrev_i16_e32 v17, 12, v17
	; GFX9-NEXT: v_pk_mul_lo_u16 v5, v6, v9			; GFX9-NEXT: v_ashrrev_i16_e32 v2, 12, v2
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_pk_mul_lo_u16 v5, v5, v8
	; GFX9-NEXT: v_lshl_or_b32 v2, v17, 16, v2			; GFX9-NEXT: v_perm_b32 v2, v2, v4, s0
	; GFX9-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v1, v11, s0
	; GFX9-NEXT: v_lshl_or_b32 v10, v15, 16, v16			; GFX9-NEXT: v_perm_b32 v4, v17, v16, s0
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-NEXT: v_perm_b32 v9, v10, v9, s0
				; GFX9-NEXT: v_perm_b32 v10, v15, v14, s0
				; GFX9-NEXT: s_waitcnt vmcnt(0)
				; GFX9-NEXT: v_add_u16_e32 v3, v5, v3
	; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NEXT: v_pk_mul_lo_u16 v2, v8, v10			; GFX9-NEXT: v_pk_mul_lo_u16 v2, v9, v4
				; GFX9-NEXT: v_pk_mul_lo_u16 v4, v7, v10
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
				; GFX9-NEXT: v_add_u16_e32 v3, v3, v4
				; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: idot8_acc16_vecMul:			; GFX9-DL-LABEL: idot8_acc16_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-DL-NEXT: s_mov_b32 s10, -1			; GFX9-DL-NEXT: s_mov_b32 s10, -1
	; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-DL-NEXT: s_add_u32 s8, s8, s3			; GFX9-DL-NEXT: s_add_u32 s8, s8, s3
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: v_mov_b32_e32 v4, 12			; GFX9-DL-NEXT: v_mov_b32_e32 v4, 12
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
				; GFX9-DL-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0			; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 4, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 4, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v6, 12, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 12, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 12, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 20, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v10, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v11, 28, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v12, 4, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v13, 4, v2
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v5, 12, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v13, 12, v2			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v12, 12, v2
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v14, 12, v2			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v6, 12, v6
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v15, 8, v2			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v7, 12, v7
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v16, 20, v2			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v8, 12, v8
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v17, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v13, 12, v13
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v18, 28, v2			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v9, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 20, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v4, 12, v5			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v11, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v6			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v6, 12, v7			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v14, 8, v2
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v7, 12, v8			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v15, 12, v2
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v8, 12, v9			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v16, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 12, v10			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v17, 20, v2
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v10, 12, v11			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v4, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v11, 12, v12			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v12, 12, v13			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v4, 12, v4			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v12, 12, v12
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 12, v6			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 12, v6
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v7, 12, v7			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v7, 12, v7
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v11, 12, v11
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v13, 12, v14
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v14, 12, v15
	; GFX9-DL-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX9-DL-NEXT: v_lshl_or_b32 v7, v11, 16, v12
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v5
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 12, v8			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 12, v8
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v13, 12, v13			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v13, 12, v13
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v14, 12, v14			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v10, 12, v10
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v1, 12, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v15, 12, v16			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v14, 12, v14
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v16, 12, v17			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v15, 12, v15
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v17, 12, v18			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v17, 12, v17
	; GFX9-DL-NEXT: v_lshl_or_b32 v8, v8, 16, v9			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v2, 12, v2
	; GFX9-DL-NEXT: v_lshl_or_b32 v9, v13, 16, v14			; GFX9-DL-NEXT: v_perm_b32 v7, v8, v7, s0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: v_perm_b32 v8, v13, v12, s0
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-DL-NEXT: v_perm_b32 v5, v6, v5, s0
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v1, 12, v1			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 12, v9
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v2, 12, v2			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v11, 12, v11
				; GFX9-DL-NEXT: v_ashrrev_i16_e32 v16, 12, v16
				; GFX9-DL-NEXT: v_ashrrev_i16_e32 v4, 12, v4
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v10, 12, v10			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v10, 12, v10
				; GFX9-DL-NEXT: v_ashrrev_i16_e32 v1, 12, v1
				; GFX9-DL-NEXT: v_ashrrev_i16_e32 v14, 12, v14
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v15, 12, v15			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v15, 12, v15
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v17, 12, v17			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v17, 12, v17
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v6, v9			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v2, 12, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v5, v8
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v17, 16, v2			; GFX9-DL-NEXT: v_perm_b32 v2, v2, v4, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-DL-NEXT: v_perm_b32 v1, v1, v11, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v10, v15, 16, v16			; GFX9-DL-NEXT: v_perm_b32 v4, v17, v16, s0
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-DL-NEXT: v_perm_b32 v9, v10, v9, s0
				; GFX9-DL-NEXT: v_perm_b32 v10, v15, v14, s0
				; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
				; GFX9-DL-NEXT: v_add_u16_e32 v3, v5, v3
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v8, v10			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v9, v4
				; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v7, v10
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
				; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v4
				; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-XNACK-LABEL: idot8_acc16_vecMul:			; GFX10-DL-XNACK-LABEL: idot8_acc16_vecMul:
	Show All 9 Lines
	; GFX10-DL-XNACK-NEXT: s_addc_u32 s9, s9, 0			; GFX10-DL-XNACK-NEXT: s_addc_u32 s9, s9, 0
	; GFX10-DL-XNACK-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-XNACK-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-XNACK-NEXT: s_clause 0x1			; GFX10-DL-XNACK-NEXT: s_clause 0x1
	; GFX10-DL-XNACK-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-XNACK-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-XNACK-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-XNACK-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-XNACK-NEXT: v_mov_b32_e32 v0, 0			; GFX10-DL-XNACK-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-DL-XNACK-NEXT: global_load_ushort v3, v0, s[0:1]			; GFX10-DL-XNACK-NEXT: global_load_ushort v3, v0, s[0:1]
	; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v4, 4, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v5, 4, v1
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v5, 12, v1
	; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v11, 4, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v12, 4, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v12, 12, v2			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v4, 12, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v11, 12, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v14, 8, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v4, 12, v4			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v5, 12, v5
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v5, 12, v5			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v12, 12, v12
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v11, 12, v11			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 12, v1
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v12, 12, v12			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v6, 12, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v13, 8, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v13, 12, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v14, 12, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v7, 12, v7
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v14, 12, v14
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v4, 12, v4			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v4, 12, v4
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v11, 12, v11			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v11, 12, v11
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v12, 0xffff, v12			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v12, 12, v12
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v5, 12, v5
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v9, 16, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v16, 16, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v6, 12, v6			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v6, 12, v6
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v7, 12, v7
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v8, 12, v8
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v13, 12, v13			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v13, 12, v13
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v7, 12, v7			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v14, 12, v14
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v14, 12, v14			; GFX10-DL-XNACK-NEXT: v_perm_b32 v11, v12, v11, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v11, v11, 16, v12			; GFX10-DL-XNACK-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v4, v4, 16, v5			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v9, 20, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v8, 20, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v15, 16, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v15, 20, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v16, 20, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v9, 12, v9
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v16, 12, v16
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v6, 12, v6			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v6, 12, v6
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v5, 12, v13			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v7, 12, v7
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v12, 0xffff, v14			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v5, 12, v8
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v8, 12, v13
				; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v12, 12, v14
	; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v4, v4, v11			; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v4, v4, v11
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v10, 28, v1			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v9, 12, v9
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v8, 12, v8
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v15, 12, v15			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v15, 12, v15
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v9, 12, v9			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v16, 12, v16
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v13, 12, v16			; GFX10-DL-XNACK-NEXT: v_perm_b32 v8, v12, v8, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v5, v5, 16, v12			; GFX10-DL-XNACK-NEXT: v_perm_b32 v6, v7, v6, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v4, v3			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v4, v3
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v1, 12, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v10, 24, v1
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v8, 12, v8			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v1, 28, v1
				; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v17, 24, v2
				; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v9, 12, v9
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v11, 12, v15			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v11, 12, v15
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v2, 12, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v4, 0xffff, v13			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v4, 12, v16
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v9, 0xffff, v9			; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v6, v6, v8
	; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v5, v6, v5
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v7			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v7
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v10, 12, v10			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v10, 12, v10
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v17, 12, v17			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v1, 12, v1
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v1, 12, v1			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v12, 12, v17
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v2, 12, v2			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v2, 12, v2
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v4, v11, 16, v4			; GFX10-DL-XNACK-NEXT: v_perm_b32 v4, v4, v11, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v6, v8, 16, v9			; GFX10-DL-XNACK-NEXT: v_perm_b32 v5, v9, v5, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v5			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v6
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v5			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v6
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v10, 12, v10			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v10, 12, v10
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v5, 12, v17			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v6, 12, v12
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v2, 12, v2
	; GFX10-DL-XNACK-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v1, 12, v1
	; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v4, v6, v4			; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v4, v5, v4
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v7			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v7
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v2, v5, 16, v2			; GFX10-DL-XNACK-NEXT: v_perm_b32 v2, v2, v6, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX10-DL-XNACK-NEXT: v_perm_b32 v1, v1, v10, 0x5040100
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v4			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v3, v4
	; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX10-DL-XNACK-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v2, v3, v5			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v2, v3, v5
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v1, v2, v1			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v1, v2, v1
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v1, v1, v3			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v1, v1, v3
	; GFX10-DL-XNACK-NEXT: global_store_short v0, v1, s[0:1]			; GFX10-DL-XNACK-NEXT: global_store_short v0, v1, s[0:1]
	Show All 12 Lines
	; GFX10-DL-NOXNACK-NEXT: s_add_u32 s8, s8, s3			; GFX10-DL-NOXNACK-NEXT: s_add_u32 s8, s8, s3
	; GFX10-DL-NOXNACK-NEXT: s_addc_u32 s9, s9, 0			; GFX10-DL-NOXNACK-NEXT: s_addc_u32 s9, s9, 0
	; GFX10-DL-NOXNACK-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NOXNACK-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NOXNACK-NEXT: s_clause 0x1			; GFX10-DL-NOXNACK-NEXT: s_clause 0x1
	; GFX10-DL-NOXNACK-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NOXNACK-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NOXNACK-NEXT: global_load_dword v0, v0, s[6:7]			; GFX10-DL-NOXNACK-NEXT: global_load_dword v0, v0, s[6:7]
	; GFX10-DL-NOXNACK-NEXT: global_load_ushort v3, v2, s[0:1]			; GFX10-DL-NOXNACK-NEXT: global_load_ushort v3, v2, s[0:1]
	; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v4, 4, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v5, 4, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v5, 12, v1
	; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v11, 4, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v12, 4, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v12, 12, v0			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v4, 12, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v11, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v14, 8, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v4, 12, v4			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v5, 12, v5
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v5, 12, v5			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v12, 12, v12
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v11, 12, v11			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 12, v1
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v12, 12, v12			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v6, 12, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v13, 8, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v13, 12, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v14, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v7, 12, v7
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v14, 12, v14
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v4, 12, v4			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v4, 12, v4
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v11, 12, v11			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v11, 12, v11
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v12, 0xffff, v12			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v12, 12, v12
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v5, 12, v5
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v9, 16, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v16, 16, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v6, 12, v6			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v6, 12, v6
				; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v7, 12, v7
				; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v8, 12, v8
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v13, 12, v13			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v13, 12, v13
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v7, 12, v7			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v14, 12, v14
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v14, 12, v14			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v11, v12, v11, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v11, v11, 16, v12			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v4, v4, 16, v5			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v9, 20, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v8, 20, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v15, 16, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v15, 20, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v16, 20, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v9, 12, v9
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v16, 12, v16
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v6, 12, v6			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v6, 12, v6
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v5, 12, v13			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v7, 12, v7
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v12, 0xffff, v14			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v5, 12, v8
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v8, 12, v13
				; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v12, 12, v14
	; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v4, v4, v11			; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v4, v4, v11
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v10, 28, v1			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v9, 12, v9
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v17, 28, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v8, 12, v8
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v15, 12, v15			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v15, 12, v15
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v9, 12, v9			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v16, 12, v16
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v13, 12, v16			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v8, v12, v8, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v5, v5, 16, v12			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v6, v7, v6, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v4, v3			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v4, v3
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v1, 12, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v10, 24, v1
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v8, 12, v8			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v1, 28, v1
				; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v17, 24, v0
				; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v9, 12, v9
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v11, 12, v15			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v11, 12, v15
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v0, 12, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v0, 28, v0
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v4, 0xffff, v13			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v4, 12, v16
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v9, 0xffff, v9			; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v6, v6, v8
	; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v5, v6, v5
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v7			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v7
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v10, 12, v10			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v10, 12, v10
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v17, 12, v17			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v1, 12, v1
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v1, 12, v1			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v12, 12, v17
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v0, 12, v0			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v0, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v4, v11, 16, v4			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v4, v4, v11, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v6, v8, 16, v9			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v5, v9, v5, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v5			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 16, v6
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v5			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v6
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v10, 12, v10			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v10, 12, v10
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v5, 12, v17			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v6, 12, v12
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v0, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v1, 12, v1
	; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v4, v6, v4			; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v4, v5, v4
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v7			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v7
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v0, v5, 16, v0			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v0, v0, v6, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX10-DL-NOXNACK-NEXT: v_perm_b32 v1, v1, v10, 0x5040100
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v4			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v3, v3, v4
	; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v0, v1, v0			; GFX10-DL-NOXNACK-NEXT: v_pk_mul_lo_u16 v0, v1, v0
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v1, v3, v5			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v1, v3, v5
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v1, v0			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v1, v0
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v3			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v3
	; GFX10-DL-NOXNACK-NEXT: global_store_short v2, v0, s[0:1]			; GFX10-DL-NOXNACK-NEXT: global_store_short v2, v0, s[0:1]
	▲ Show 20 Lines • Show All 796 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

	Show First 20 Lines • Show All 2,207 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-NEXT: s_mov_b32 s10, -1			; GFX9-NEXT: s_mov_b32 s10, -1
	; GFX9-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-NEXT: s_add_u32 s8, s8, s3			; GFX9-NEXT: s_add_u32 s8, s8, s3
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_addc_u32 s9, s9, 0			; GFX9-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-NEXT: global_load_ushort v3, v0, s[2:3]
				; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt vmcnt(2)			; GFX9-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NEXT: v_and_b32_e32 v5, 15, v1			; GFX9-NEXT: v_and_b32_e32 v4, 15, v1
	; GFX9-NEXT: v_bfe_u32 v7, v1, 8, 4			; GFX9-NEXT: v_bfe_u32 v5, v1, 4, 4
				; GFX9-NEXT: v_bfe_u32 v6, v1, 8, 4
				; GFX9-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_and_b32_e32 v12, 15, v2			; GFX9-NEXT: v_and_b32_e32 v11, 15, v2
	; GFX9-NEXT: v_bfe_u32 v4, v1, 4, 4			; GFX9-NEXT: v_bfe_u32 v12, v2, 4, 4
	; GFX9-NEXT: v_bfe_u32 v6, v1, 12, 4			; GFX9-NEXT: v_perm_b32 v6, v7, v6, s0
	; GFX9-NEXT: v_bfe_u32 v11, v2, 4, 4			; GFX9-NEXT: v_perm_b32 v7, v12, v11, s0
	; GFX9-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX9-NEXT: v_perm_b32 v4, v5, v4, s0
	; GFX9-NEXT: v_and_b32_e32 v12, 0xffff, v12			; GFX9-NEXT: v_bfe_u32 v8, v1, 16, 4
	; GFX9-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX9-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-NEXT: v_bfe_u32 v9, v1, 16, 4			; GFX9-NEXT: v_bfe_u32 v13, v2, 8, 4
	; GFX9-NEXT: v_bfe_u32 v14, v2, 8, 4			; GFX9-NEXT: v_bfe_u32 v14, v2, 12, 4
	; GFX9-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX9-NEXT: v_lshl_or_b32 v7, v11, 16, v12
	; GFX9-NEXT: v_lshl_or_b32 v4, v4, 16, v5
	; GFX9-NEXT: v_bfe_u32 v8, v1, 20, 4
	; GFX9-NEXT: v_bfe_u32 v13, v2, 12, 4
	; GFX9-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX9-NEXT: v_and_b32_e32 v14, 0xffff, v14
	; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v7			; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v7
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 28, v1			; GFX9-NEXT: v_perm_b32 v8, v9, v8, s0
	; GFX9-NEXT: v_bfe_u32 v1, v1, 24, 4			; GFX9-NEXT: v_perm_b32 v9, v14, v13, s0
	; GFX9-NEXT: v_bfe_u32 v15, v2, 20, 4
	; GFX9-NEXT: v_bfe_u32 v16, v2, 16, 4
	; GFX9-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-NEXT: v_bfe_u32 v10, v1, 24, 4
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX9-NEXT: v_and_b32_e32 v16, 0xffff, v16			; GFX9-NEXT: v_bfe_u32 v15, v2, 16, 4
				; GFX9-NEXT: v_bfe_u32 v16, v2, 20, 4
				; GFX9-NEXT: v_bfe_u32 v17, v2, 24, 4
				; GFX9-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX9-NEXT: v_pk_mul_lo_u16 v5, v6, v9			; GFX9-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v2, v17, 16, v2			; GFX9-NEXT: v_perm_b32 v2, v2, v17, s0
	; GFX9-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v1, v10, s0
	; GFX9-NEXT: v_lshl_or_b32 v10, v15, 16, v16			; GFX9-NEXT: v_perm_b32 v10, v16, v15, s0
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NEXT: v_pk_mul_lo_u16 v2, v8, v10			; GFX9-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot8_acc16_vecMul:			; GFX9-DL-LABEL: udot8_acc16_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-DL-NEXT: s_mov_b32 s10, -1			; GFX9-DL-NEXT: s_mov_b32 s10, -1
	; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-DL-NEXT: s_add_u32 s8, s8, s3			; GFX9-DL-NEXT: s_add_u32 s8, s8, s3
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0			; GFX9-DL-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
				; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v1			; GFX9-DL-NEXT: v_and_b32_e32 v4, 15, v1
	; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v5, v1, 4, 4
				; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 8, 4
				; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_and_b32_e32 v12, 15, v2			; GFX9-DL-NEXT: v_and_b32_e32 v11, 15, v2
	; GFX9-DL-NEXT: v_bfe_u32 v4, v1, 4, 4			; GFX9-DL-NEXT: v_bfe_u32 v12, v2, 4, 4
	; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 12, 4			; GFX9-DL-NEXT: v_perm_b32 v6, v7, v6, s0
	; GFX9-DL-NEXT: v_bfe_u32 v11, v2, 4, 4			; GFX9-DL-NEXT: v_perm_b32 v7, v12, v11, s0
	; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX9-DL-NEXT: v_perm_b32 v4, v5, v4, s0
	; GFX9-DL-NEXT: v_and_b32_e32 v12, 0xffff, v12			; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 16, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 16, 4			; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 8, 4
	; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 12, 4
	; GFX9-DL-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX9-DL-NEXT: v_lshl_or_b32 v7, v11, 16, v12
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v5
	; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 12, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX9-DL-NEXT: v_and_b32_e32 v14, 0xffff, v14
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 28, v1			; GFX9-DL-NEXT: v_perm_b32 v8, v9, v8, s0
	; GFX9-DL-NEXT: v_bfe_u32 v1, v1, 24, 4			; GFX9-DL-NEXT: v_perm_b32 v9, v14, v13, s0
	; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 16, 4
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-DL-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-DL-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-DL-NEXT: v_bfe_u32 v10, v1, 24, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX9-DL-NEXT: v_and_b32_e32 v16, 0xffff, v16			; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 16, 4
				; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 20, 4
				; GFX9-DL-NEXT: v_bfe_u32 v17, v2, 24, 4
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v6, v9			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v17, 16, v2			; GFX9-DL-NEXT: v_perm_b32 v2, v2, v17, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-DL-NEXT: v_perm_b32 v1, v1, v10, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v10, v15, 16, v16			; GFX9-DL-NEXT: v_perm_b32 v10, v16, v15, s0
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v8, v10			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	Show All 13 Lines
	; GFX10-DL-NEXT: s_addc_u32 s9, s9, 0			; GFX10-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_clause 0x1			; GFX10-DL-NEXT: s_clause 0x1
	; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-DL-NEXT: global_load_ushort v3, v0, s[0:1]			; GFX10-DL-NEXT: global_load_ushort v3, v0, s[0:1]
	; GFX10-DL-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NEXT: v_and_b32_e32 v6, 15, v1			; GFX10-DL-NEXT: v_and_b32_e32 v4, 15, v1
	; GFX10-DL-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v5, 15, v2
	; GFX10-DL-NEXT: v_bfe_u32 v4, v1, 4, 4			; GFX10-DL-NEXT: v_bfe_u32 v6, v2, 4, 4
	; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 4, 4			; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 4, 4
	; GFX10-DL-NEXT: v_bfe_u32 v8, v1, 8, 4			; GFX10-DL-NEXT: v_bfe_u32 v8, v2, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v6, 0xffff, v6			; GFX10-DL-NEXT: v_bfe_u32 v9, v1, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX10-DL-NEXT: v_bfe_u32 v12, v2, 8, 4
	; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v8, 0xffff, v8
	; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v6
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v9, 16, v5
	; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX10-DL-NEXT: v_bfe_u32 v11, v1, 16, 4
	; GFX10-DL-NEXT: v_lshl_or_b32 v7, v7, 16, v8
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
	; GFX10-DL-NEXT: v_bfe_u32 v5, v2, 16, 4
	; GFX10-DL-NEXT: v_lshl_or_b32 v9, v9, 16, v12
	; GFX10-DL-NEXT: v_bfe_u32 v10, v1, 20, 4			; GFX10-DL-NEXT: v_bfe_u32 v10, v1, 20, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v11, 0xffff, v11			; GFX10-DL-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
				; GFX10-DL-NEXT: v_perm_b32 v4, v7, v4, 0x5040100
				; GFX10-DL-NEXT: v_bfe_u32 v6, v1, 8, 4
				; GFX10-DL-NEXT: v_bfe_u32 v7, v2, 8, 4
				; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
				; GFX10-DL-NEXT: v_perm_b32 v6, v9, v6, 0x5040100
				; GFX10-DL-NEXT: v_perm_b32 v7, v8, v7, 0x5040100
				; GFX10-DL-NEXT: v_bfe_u32 v5, v1, 16, 4
				; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 20, 4
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3			; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3
	; GFX10-DL-NEXT: v_bfe_u32 v4, v2, 20, 4			; GFX10-DL-NEXT: v_bfe_u32 v4, v2, 16, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v6, v6, v7
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v7, v7, v9			; GFX10-DL-NEXT: v_perm_b32 v5, v10, v5, 0x5040100
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 28, v1			; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 24, 4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v8			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v8
	; GFX10-DL-NEXT: v_bfe_u32 v1, v1, 24, 4			; GFX10-DL-NEXT: v_perm_b32 v4, v9, v4, 0x5040100
	; GFX10-DL-NEXT: v_bfe_u32 v8, v2, 24, 4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v6
	; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v5			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v10, 16, v11			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v6
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v9, 16, v7			; GFX10-DL-NEXT: v_bfe_u32 v6, v2, 24, 4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v7
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 28, v2			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v7, 0xffff, v8
	; GFX10-DL-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v5, v4			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v5, v4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v9			; GFX10-DL-NEXT: v_perm_b32 v1, v1, v7, 0x5040100
	; GFX10-DL-NEXT: v_lshl_or_b32 v2, v2, 16, v7			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v8
	; GFX10-DL-NEXT: v_lshl_or_b32 v1, v6, 16, v1			; GFX10-DL-NEXT: v_perm_b32 v2, v2, v6, 0x5040100
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v4			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v4
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5			; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1			; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3			; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3
	; GFX10-DL-NEXT: global_store_short v0, v1, s[0:1]			; GFX10-DL-NEXT: global_store_short v0, v1, s[0:1]
	▲ Show 20 Lines • Show All 518 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-NEXT: s_mov_b32 s10, -1			; GFX9-NEXT: s_mov_b32 s10, -1
	; GFX9-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-NEXT: s_add_u32 s8, s8, s3			; GFX9-NEXT: s_add_u32 s8, s8, s3
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_addc_u32 s9, s9, 0			; GFX9-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_load_ubyte v3, v0, s[2:3]			; GFX9-NEXT: global_load_ubyte v3, v0, s[2:3]
				; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt vmcnt(2)			; GFX9-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NEXT: v_and_b32_e32 v5, 15, v1			; GFX9-NEXT: v_and_b32_e32 v4, 15, v1
	; GFX9-NEXT: v_bfe_u32 v7, v1, 8, 4			; GFX9-NEXT: v_bfe_u32 v5, v1, 4, 4
				; GFX9-NEXT: v_bfe_u32 v6, v1, 8, 4
				; GFX9-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_and_b32_e32 v12, 15, v2			; GFX9-NEXT: v_and_b32_e32 v11, 15, v2
	; GFX9-NEXT: v_bfe_u32 v4, v1, 4, 4			; GFX9-NEXT: v_bfe_u32 v12, v2, 4, 4
	; GFX9-NEXT: v_bfe_u32 v6, v1, 12, 4			; GFX9-NEXT: v_perm_b32 v6, v7, v6, s0
	; GFX9-NEXT: v_bfe_u32 v11, v2, 4, 4			; GFX9-NEXT: v_perm_b32 v7, v12, v11, s0
	; GFX9-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX9-NEXT: v_perm_b32 v4, v5, v4, s0
	; GFX9-NEXT: v_and_b32_e32 v12, 0xffff, v12			; GFX9-NEXT: v_bfe_u32 v8, v1, 16, 4
	; GFX9-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX9-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-NEXT: v_bfe_u32 v9, v1, 16, 4			; GFX9-NEXT: v_bfe_u32 v13, v2, 8, 4
	; GFX9-NEXT: v_bfe_u32 v14, v2, 8, 4			; GFX9-NEXT: v_bfe_u32 v14, v2, 12, 4
	; GFX9-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX9-NEXT: v_lshl_or_b32 v7, v11, 16, v12
	; GFX9-NEXT: v_lshl_or_b32 v4, v4, 16, v5
	; GFX9-NEXT: v_bfe_u32 v8, v1, 20, 4
	; GFX9-NEXT: v_bfe_u32 v13, v2, 12, 4
	; GFX9-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX9-NEXT: v_and_b32_e32 v14, 0xffff, v14
	; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v7			; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v7
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 28, v1			; GFX9-NEXT: v_perm_b32 v8, v9, v8, s0
	; GFX9-NEXT: v_bfe_u32 v1, v1, 24, 4			; GFX9-NEXT: v_perm_b32 v9, v14, v13, s0
	; GFX9-NEXT: v_bfe_u32 v15, v2, 20, 4
	; GFX9-NEXT: v_bfe_u32 v16, v2, 16, 4
	; GFX9-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-NEXT: v_bfe_u32 v10, v1, 24, 4
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX9-NEXT: v_and_b32_e32 v16, 0xffff, v16			; GFX9-NEXT: v_bfe_u32 v15, v2, 16, 4
				; GFX9-NEXT: v_bfe_u32 v16, v2, 20, 4
				; GFX9-NEXT: v_bfe_u32 v17, v2, 24, 4
				; GFX9-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX9-NEXT: v_pk_mul_lo_u16 v5, v6, v9			; GFX9-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v2, v17, 16, v2			; GFX9-NEXT: v_perm_b32 v2, v2, v17, s0
	; GFX9-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v1, v10, s0
	; GFX9-NEXT: v_lshl_or_b32 v10, v15, 16, v16			; GFX9-NEXT: v_perm_b32 v10, v16, v15, s0
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NEXT: v_pk_mul_lo_u16 v2, v8, v10			; GFX9-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_and_b32_e32 v1, 15, v1			; GFX9-NEXT: v_and_b32_e32 v1, 15, v1
	; GFX9-NEXT: global_store_byte v0, v1, s[2:3]			; GFX9-NEXT: global_store_byte v0, v1, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot8_acc4_vecMul:			; GFX9-DL-LABEL: udot8_acc4_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-DL-NEXT: s_mov_b32 s10, -1			; GFX9-DL-NEXT: s_mov_b32 s10, -1
	; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-DL-NEXT: s_add_u32 s8, s8, s3			; GFX9-DL-NEXT: s_add_u32 s8, s8, s3
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0			; GFX9-DL-NEXT: s_mov_b32 s0, 0x5040100
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
				; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v1			; GFX9-DL-NEXT: v_and_b32_e32 v4, 15, v1
	; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v5, v1, 4, 4
				; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 8, 4
				; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_and_b32_e32 v12, 15, v2			; GFX9-DL-NEXT: v_and_b32_e32 v11, 15, v2
	; GFX9-DL-NEXT: v_bfe_u32 v4, v1, 4, 4			; GFX9-DL-NEXT: v_bfe_u32 v12, v2, 4, 4
	; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 12, 4			; GFX9-DL-NEXT: v_perm_b32 v6, v7, v6, s0
	; GFX9-DL-NEXT: v_bfe_u32 v11, v2, 4, 4			; GFX9-DL-NEXT: v_perm_b32 v7, v12, v11, s0
	; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX9-DL-NEXT: v_perm_b32 v4, v5, v4, s0
	; GFX9-DL-NEXT: v_and_b32_e32 v12, 0xffff, v12			; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 16, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 16, 4			; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 8, 4
	; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 12, 4
	; GFX9-DL-NEXT: v_lshl_or_b32 v6, v6, 16, v7
	; GFX9-DL-NEXT: v_lshl_or_b32 v7, v11, 16, v12
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v5
	; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 12, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX9-DL-NEXT: v_and_b32_e32 v14, 0xffff, v14
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 28, v1			; GFX9-DL-NEXT: v_perm_b32 v8, v9, v8, s0
	; GFX9-DL-NEXT: v_bfe_u32 v1, v1, 24, 4			; GFX9-DL-NEXT: v_perm_b32 v9, v14, v13, s0
	; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 16, 4
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-DL-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-DL-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-DL-NEXT: v_bfe_u32 v10, v1, 24, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX9-DL-NEXT: v_and_b32_e32 v16, 0xffff, v16			; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 16, 4
				; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 20, 4
				; GFX9-DL-NEXT: v_bfe_u32 v17, v2, 24, 4
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v6, v9			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v17, 16, v2			; GFX9-DL-NEXT: v_perm_b32 v2, v2, v17, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-DL-NEXT: v_perm_b32 v1, v1, v10, s0
	; GFX9-DL-NEXT: v_lshl_or_b32 v10, v15, 16, v16			; GFX9-DL-NEXT: v_perm_b32 v10, v16, v15, s0
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v8, v10			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	Show All 14 Lines
	; GFX10-DL-NEXT: s_addc_u32 s9, s9, 0			; GFX10-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_clause 0x1			; GFX10-DL-NEXT: s_clause 0x1
	; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-DL-NEXT: global_load_ubyte v3, v0, s[0:1]			; GFX10-DL-NEXT: global_load_ubyte v3, v0, s[0:1]
	; GFX10-DL-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NEXT: v_and_b32_e32 v6, 15, v1			; GFX10-DL-NEXT: v_and_b32_e32 v4, 15, v1
	; GFX10-DL-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v5, 15, v2
	; GFX10-DL-NEXT: v_bfe_u32 v4, v1, 4, 4			; GFX10-DL-NEXT: v_bfe_u32 v6, v2, 4, 4
	; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 4, 4			; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 4, 4
	; GFX10-DL-NEXT: v_bfe_u32 v8, v1, 8, 4			; GFX10-DL-NEXT: v_bfe_u32 v8, v2, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v6, 0xffff, v6			; GFX10-DL-NEXT: v_bfe_u32 v9, v1, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX10-DL-NEXT: v_bfe_u32 v12, v2, 8, 4
	; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v8, 0xffff, v8
	; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v6
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v9, 16, v5
	; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 12, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX10-DL-NEXT: v_bfe_u32 v11, v1, 16, 4
	; GFX10-DL-NEXT: v_lshl_or_b32 v7, v7, 16, v8
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
	; GFX10-DL-NEXT: v_bfe_u32 v5, v2, 16, 4
	; GFX10-DL-NEXT: v_lshl_or_b32 v9, v9, 16, v12
	; GFX10-DL-NEXT: v_bfe_u32 v10, v1, 20, 4			; GFX10-DL-NEXT: v_bfe_u32 v10, v1, 20, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v11, 0xffff, v11			; GFX10-DL-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
				; GFX10-DL-NEXT: v_perm_b32 v4, v7, v4, 0x5040100
				; GFX10-DL-NEXT: v_bfe_u32 v6, v1, 8, 4
				; GFX10-DL-NEXT: v_bfe_u32 v7, v2, 8, 4
				; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
				; GFX10-DL-NEXT: v_perm_b32 v6, v9, v6, 0x5040100
				; GFX10-DL-NEXT: v_perm_b32 v7, v8, v7, 0x5040100
				; GFX10-DL-NEXT: v_bfe_u32 v5, v1, 16, 4
				; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 20, 4
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3			; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3
	; GFX10-DL-NEXT: v_bfe_u32 v4, v2, 20, 4			; GFX10-DL-NEXT: v_bfe_u32 v4, v2, 16, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v6, v6, v7
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v7, v7, v9			; GFX10-DL-NEXT: v_perm_b32 v5, v10, v5, 0x5040100
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 28, v1			; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 24, 4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v8			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v8
	; GFX10-DL-NEXT: v_bfe_u32 v1, v1, 24, 4			; GFX10-DL-NEXT: v_perm_b32 v4, v9, v4, 0x5040100
	; GFX10-DL-NEXT: v_bfe_u32 v8, v2, 24, 4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v6
	; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v5			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 28, v1
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v10, 16, v11			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v6
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v9, 16, v7			; GFX10-DL-NEXT: v_bfe_u32 v6, v2, 24, 4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v7
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 28, v2			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v7, 0xffff, v8
	; GFX10-DL-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v5, v4			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v5, v4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v9			; GFX10-DL-NEXT: v_perm_b32 v1, v1, v7, 0x5040100
	; GFX10-DL-NEXT: v_lshl_or_b32 v2, v2, 16, v7			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v8
	; GFX10-DL-NEXT: v_lshl_or_b32 v1, v6, 16, v1			; GFX10-DL-NEXT: v_perm_b32 v2, v2, v6, 0x5040100
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v4			; GFX10-DL-NEXT: v_add_nc_u16 v3, v3, v4
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5			; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1			; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3			; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3
	; GFX10-DL-NEXT: v_and_b32_e32 v1, 15, v1			; GFX10-DL-NEXT: v_and_b32_e32 v1, 15, v1
	▲ Show 20 Lines • Show All 269 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

Show First 20 Lines • Show All 656 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2i16_0(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_0(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2i16_0:		; GFX9-LABEL: v_insertelement_v2i16_0:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v2, 0x3e7
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
; GFX9-NEXT: s_movk_i32 s2, 0x3e7		; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v1, v2, s2, v1		; GFX9-NEXT: v_bfi_b32 v1, s2, v2, v1
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2i16_0:		; VI-LABEL: v_insertelement_v2i16_0:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @v_insertelement_v2i16_0_reghi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 %elt.arg) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_0_reghi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 %elt.arg) #0 {
; GFX9-LABEL: v_insertelement_v2i16_0_reghi:		; GFX9-LABEL: v_insertelement_v2i16_0_reghi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff0000		; GFX9-NEXT: v_mov_b32_e32 v2, 0x7060302
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
; GFX9-NEXT: v_lshrrev_b32_e64 v2, 16, s6
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_or_b32 v1, v1, v3, v2		; GFX9-NEXT: v_perm_b32 v1, v1, s6, v2
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2i16_0_reghi:		; VI-LABEL: v_insertelement_v2i16_0_reghi:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
Show All 33 Lines
;		;
; GFX11-LABEL: v_insertelement_v2i16_0_reghi:		; GFX11-LABEL: v_insertelement_v2i16_0_reghi:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10		; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b32 v1, v0, s[6:7]		; GFX11-NEXT: global_load_b32 v1, v0, s[6:7]
; GFX11-NEXT: v_lshrrev_b32_e64 v2, 16, s0
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)		; GFX11-NEXT: v_perm_b32 v1, v1, s0, 0x7060302
; GFX11-NEXT: v_and_or_b32 v1, 0xffff0000, v1, v2
; GFX11-NEXT: global_store_b32 v0, v1, s[4:5]		; GFX11-NEXT: global_store_b32 v0, v1, s[4:5]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%elt.hi = lshr i32 %elt.arg, 16		%elt.hi = lshr i32 %elt.arg, 16
%elt = trunc i32 %elt.hi to i16		%elt = trunc i32 %elt.hi to i16
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2i16_0_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_0_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2i16_0_inlineimm:		; GFX9-LABEL: v_insertelement_v2i16_0_inlineimm:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v1, v2, 53, v1		; GFX9-NEXT: v_bfi_b32 v1, s2, 53, v1
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2i16_0_inlineimm:		; VI-LABEL: v_insertelement_v2i16_0_inlineimm:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
}		}

; FIXME: fold lshl_or c0, c1, v0 -> or (c0 << c1), v0		; FIXME: fold lshl_or c0, c1, v0 -> or (c0 << c1), v0
define amdgpu_kernel void @v_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2i16_1:		; GFX9-LABEL: v_insertelement_v2i16_1:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v2, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
; GFX9-NEXT: s_movk_i32 s2, 0x3e7		; GFX9-NEXT: s_movk_i32 s2, 0x3e7
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, s2, v1, v2
; GFX9-NEXT: v_lshl_or_b32 v1, s2, 16, v1
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2i16_1:		; VI-LABEL: v_insertelement_v2i16_1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
Show All 29 Lines
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
;		;
; GFX11-LABEL: v_insertelement_v2i16_1:		; GFX11-LABEL: v_insertelement_v2i16_1:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]		; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]
		; GFX11-NEXT: s_movk_i32 s2, 0x3e7
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, s2, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, 0x3e7, 16, v1
; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]		; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 1		%vecins = insertelement <2 x i16> %vec, i16 999, i32 1
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2i16_1_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_1_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2i16_1_inlineimm:		; GFX9-LABEL: v_insertelement_v2i16_1_inlineimm:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v2, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, -15, v1, v2
; GFX9-NEXT: v_lshl_or_b32 v1, -15, 16, v1
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2i16_1_inlineimm:		; VI-LABEL: v_insertelement_v2i16_1_inlineimm:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
Show All 30 Lines
;		;
; GFX11-LABEL: v_insertelement_v2i16_1_inlineimm:		; GFX11-LABEL: v_insertelement_v2i16_1_inlineimm:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]		; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, -15, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, -15, 16, v1
; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]		; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 -15, i32 1		%vecins = insertelement <2 x i16> %vec, i16 -15, i32 1
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2f16_0(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_0(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2f16_0:		; GFX9-LABEL: v_insertelement_v2f16_0:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, 0x4500		; GFX9-NEXT: v_mov_b32_e32 v2, 0x4500
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; GFX9-NEXT: v_bfi_b32 v1, s2, v2, v1
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2f16_0:		; VI-LABEL: v_insertelement_v2f16_0:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
Show All 29 Lines
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
;		;
; GFX11-LABEL: v_insertelement_v2f16_0:		; GFX11-LABEL: v_insertelement_v2f16_0:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]		; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]
		; GFX11-NEXT: s_movk_i32 s2, 0x4500
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; GFX11-NEXT: v_bfi_b32 v1, 0xffff, s2, v1
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, 0x4500
; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]		; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 0		%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 0
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2f16_0_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_0_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2f16_0_inlineimm:		; GFX9-LABEL: v_insertelement_v2f16_0_inlineimm:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; GFX9-NEXT: v_bfi_b32 v1, s2, 53, v1
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, 53
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2f16_0_inlineimm:		; VI-LABEL: v_insertelement_v2f16_0_inlineimm:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
Show All 30 Lines
;		;
; GFX11-LABEL: v_insertelement_v2f16_0_inlineimm:		; GFX11-LABEL: v_insertelement_v2f16_0_inlineimm:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]		; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; GFX11-NEXT: v_bfi_b32 v1, 0xffff, 53, v1
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, 53
; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]		; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
%vecins = insertelement <2 x half> %vec, half 0xH0035, i32 0		%vecins = insertelement <2 x half> %vec, half 0xH0035, i32 0
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2f16_1(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_1(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2f16_1:		; GFX9-LABEL: v_insertelement_v2f16_1:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v2, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
; GFX9-NEXT: s_movk_i32 s2, 0x4500		; GFX9-NEXT: s_movk_i32 s2, 0x4500
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, s2, v1, v2
; GFX9-NEXT: v_lshl_or_b32 v1, s2, 16, v1
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2f16_1:		; VI-LABEL: v_insertelement_v2f16_1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
Show All 29 Lines
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
;		;
; GFX11-LABEL: v_insertelement_v2f16_1:		; GFX11-LABEL: v_insertelement_v2f16_1:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]		; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]
		; GFX11-NEXT: s_movk_i32 s2, 0x4500
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, s2, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, 0x4500, 16, v1
; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]		; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 1		%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 1
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2f16_1_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_1_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
; GFX9-LABEL: v_insertelement_v2f16_1_inlineimm:		; GFX9-LABEL: v_insertelement_v2f16_1_inlineimm:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v2, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[2:3]		; GFX9-NEXT: global_load_dword v1, v0, s[2:3]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, 35, v1, v2
; GFX9-NEXT: v_lshl_or_b32 v1, 35, 16, v1
; GFX9-NEXT: global_store_dword v0, v1, s[0:1]		; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2f16_1_inlineimm:		; VI-LABEL: v_insertelement_v2f16_1_inlineimm:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
Show All 30 Lines
;		;
; GFX11-LABEL: v_insertelement_v2f16_1_inlineimm:		; GFX11-LABEL: v_insertelement_v2f16_1_inlineimm:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]		; GFX11-NEXT: global_load_b32 v1, v0, s[2:3]
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, 35, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, 35, 16, v1
; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]		; GFX11-NEXT: global_store_b32 v0, v1, s[0:1]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
▲ Show 20 Lines • Show All 274 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @v_insertelement_v4f16_0(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, [8 x i32], i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_0(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, [8 x i32], i32 %val) #0 {
; GFX9-LABEL: v_insertelement_v4f16_0:		; GFX9-LABEL: v_insertelement_v4f16_0:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x30		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x30
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]		; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
		; GFX9-NEXT: v_mov_b32_e32 v3, s6
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v0, v3, s6, v0		; GFX9-NEXT: v_bfi_b32 v0, s2, v3, v0
; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]		; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4f16_0:		; VI-LABEL: v_insertelement_v4f16_0:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x30		; VI-NEXT: s_load_dword s4, s[4:5], 0x30
; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @v_insertelement_v4f16_1(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_1(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {
; GFX9-LABEL: v_insertelement_v4f16_1:		; GFX9-LABEL: v_insertelement_v4f16_1:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX9-NEXT: v_mov_b32_e32 v3, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]		; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, s6, v0, v3
; GFX9-NEXT: v_lshl_or_b32 v0, s6, 16, v0
; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]		; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4f16_1:		; VI-LABEL: v_insertelement_v4f16_1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
Show All 35 Lines
; GFX11-LABEL: v_insertelement_v4f16_1:		; GFX11-LABEL: v_insertelement_v4f16_1:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10		; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b64 v[0:1], v2, s[6:7]		; GFX11-NEXT: global_load_b64 v[0:1], v2, s[6:7]
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX11-NEXT: v_perm_b32 v0, s0, v0, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v0, s0, 16, v0
; GFX11-NEXT: global_store_b64 v2, v[0:1], s[4:5]		; GFX11-NEXT: global_store_b64 v2, v[0:1], s[4:5]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep		%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 1		%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 1
store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep		store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v4f16_2(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, [8 x i32], i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_2(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, [8 x i32], i32 %val) #0 {
; GFX9-LABEL: v_insertelement_v4f16_2:		; GFX9-LABEL: v_insertelement_v4f16_2:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x30		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x30
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]		; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
		; GFX9-NEXT: v_mov_b32_e32 v3, s6
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v1, v3, s6, v1		; GFX9-NEXT: v_bfi_b32 v1, s2, v3, v1
; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]		; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4f16_2:		; VI-LABEL: v_insertelement_v4f16_2:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x30		; VI-NEXT: s_load_dword s4, s[4:5], 0x30
; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @v_insertelement_v4f16_3(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4f16_3(<4 x half> addrspace(1)* %out, <4 x half> addrspace(1)* %in, i32 %val) #0 {
; GFX9-LABEL: v_insertelement_v4f16_3:		; GFX9-LABEL: v_insertelement_v4f16_3:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX9-NEXT: v_mov_b32_e32 v3, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]		; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, s6, v1, v3
; GFX9-NEXT: v_lshl_or_b32 v1, s6, 16, v1
; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]		; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4f16_3:		; VI-LABEL: v_insertelement_v4f16_3:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
Show All 35 Lines
; GFX11-LABEL: v_insertelement_v4f16_3:		; GFX11-LABEL: v_insertelement_v4f16_3:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10		; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b64 v[0:1], v2, s[6:7]		; GFX11-NEXT: global_load_b64 v[0:1], v2, s[6:7]
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, s0, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, s0, 16, v1
; GFX11-NEXT: global_store_b64 v2, v[0:1], s[4:5]		; GFX11-NEXT: global_store_b64 v2, v[0:1], s[4:5]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep		%vec = load <4 x half>, <4 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 3		%vecins = insertelement <4 x half> %vec, half %val.cvt, i32 3
store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep		store <4 x half> %vecins, <4 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v4i16_2(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4i16_2(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {
; GFX9-LABEL: v_insertelement_v4i16_2:		; GFX9-LABEL: v_insertelement_v4i16_2:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]		; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
		; GFX9-NEXT: v_mov_b32_e32 v3, s6
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v1, v3, s6, v1		; GFX9-NEXT: v_bfi_b32 v1, s2, v3, v1
; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]		; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4i16_2:		; VI-LABEL: v_insertelement_v4i16_2:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
▲ Show 20 Lines • Show All 270 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @v_insertelement_v8f16_3(<8 x half> addrspace(1)* %out, <8 x half> addrspace(1)* %in, i32 %val) {		define amdgpu_kernel void @v_insertelement_v8f16_3(<8 x half> addrspace(1)* %out, <8 x half> addrspace(1)* %in, i32 %val) {
; GFX9-LABEL: v_insertelement_v8f16_3:		; GFX9-LABEL: v_insertelement_v8f16_3:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0
		; GFX9-NEXT: v_mov_b32_e32 v5, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]		; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, s6, v1, v5
; GFX9-NEXT: v_lshl_or_b32 v1, s6, 16, v1
; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v8f16_3:		; VI-LABEL: v_insertelement_v8f16_3:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0
Show All 37 Lines
; GFX11-LABEL: v_insertelement_v8f16_3:		; GFX11-LABEL: v_insertelement_v8f16_3:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v4, 4, v0
; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10		; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b128 v[0:3], v4, s[6:7]		; GFX11-NEXT: global_load_b128 v[0:3], v4, s[6:7]
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, s0, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, s0, 16, v1
; GFX11-NEXT: global_store_b128 v4, v[0:3], s[4:5]		; GFX11-NEXT: global_store_b128 v4, v[0:3], s[4:5]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <8 x half>, <8 x half> addrspace(1)* %in.gep		%vec = load <8 x half>, <8 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <8 x half> %vec, half %val.cvt, i32 3		%vecins = insertelement <8 x half> %vec, half %val.cvt, i32 3
store <8 x half> %vecins, <8 x half> addrspace(1)* %out.gep		store <8 x half> %vecins, <8 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v8i16_6(<8 x i16> addrspace(1)* %out, <8 x i16> addrspace(1)* %in, i32 %val) {		define amdgpu_kernel void @v_insertelement_v8i16_6(<8 x i16> addrspace(1)* %out, <8 x i16> addrspace(1)* %in, i32 %val) {
; GFX9-LABEL: v_insertelement_v8i16_6:		; GFX9-LABEL: v_insertelement_v8i16_6:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]		; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
		; GFX9-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v3, v5, s6, v3		; GFX9-NEXT: v_bfi_b32 v3, s2, v5, v3
; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v8i16_6:		; VI-LABEL: v_insertelement_v8i16_6:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @v_insertelement_v8f16_dynamic(<8 x half> addrspace(1)* %out, <8 x half> addrspace(1)* %in, i32 %val, i32 %n) {		define amdgpu_kernel void @v_insertelement_v8f16_dynamic(<8 x half> addrspace(1)* %out, <8 x half> addrspace(1)* %in, i32 %val, i32 %n) {
; GFX9-LABEL: v_insertelement_v8f16_dynamic:		; GFX9-LABEL: v_insertelement_v8f16_dynamic:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]		; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]
; GFX9-NEXT: s_cmp_eq_u32 s7, 7		; GFX9-NEXT: s_cmp_eq_u32 s7, 6
; GFX9-NEXT: v_mov_b32_e32 v5, s6		; GFX9-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 6		; GFX9-NEXT: s_cmp_eq_u32 s7, 7
		; GFX9-NEXT: s_mov_b32 s2, 0x5040100
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v3		; GFX9-NEXT: v_cndmask_b32_e32 v6, v3, v5, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v5, vcc		; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v3
		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
		; GFX9-NEXT: s_cmp_eq_u32 s7, 4
		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 5		; GFX9-NEXT: s_cmp_eq_u32 s7, 5
; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v2		; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v2
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 4		; GFX9-NEXT: s_cmp_eq_u32 s7, 2
; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v5, vcc		; GFX9-NEXT: v_perm_b32 v3, v3, v6, s2
		; GFX9-NEXT: v_cndmask_b32_e32 v6, v7, v5, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 3		; GFX9-NEXT: s_cmp_eq_u32 s7, 3
; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v1		; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v1
; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 2		; GFX9-NEXT: s_cmp_eq_u32 s7, 0
; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v3		; GFX9-NEXT: v_perm_b32 v2, v6, v2, s2
; GFX9-NEXT: v_cndmask_b32_e32 v6, v8, v5, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v6, v8, v5, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 1		; GFX9-NEXT: s_cmp_eq_u32 s7, 1
; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v0		; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v0
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 0
; GFX9-NEXT: v_lshl_or_b32 v2, v7, 16, v2
; GFX9-NEXT: v_cndmask_b32_e32 v7, v9, v5, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_cndmask_b32_e32 v5, v9, v5, vcc
; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v6, v1, s2
; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v5, v0, s2
; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v8f16_dynamic:		; VI-LABEL: v_insertelement_v8f16_dynamic:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x10		; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0
▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
;		;
; GFX11-LABEL: v_insertelement_v8f16_dynamic:		; GFX11-LABEL: v_insertelement_v8f16_dynamic:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v4, 4, v0
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x10		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x10
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_load_b128 v[0:3], v4, s[6:7]		; GFX11-NEXT: global_load_b128 v[0:3], v4, s[6:7]
		; GFX11-NEXT: s_cmp_eq_u32 s1, 6
		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 7		; GFX11-NEXT: s_cmp_eq_u32 s1, 7
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_cndmask_b32_e64 v5, v3, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 6		; GFX11-NEXT: s_cmp_eq_u32 s1, 4
		; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX11-NEXT: s_cselect_b32 s3, -1, 0		; GFX11-NEXT: s_cselect_b32 s3, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 5		; GFX11-NEXT: s_cmp_eq_u32 s1, 5
; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v3
; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v2		; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v2
; GFX11-NEXT: v_cndmask_b32_e64 v3, v3, s0, s3		; GFX11-NEXT: v_cndmask_b32_e64 v2, v2, s0, s3
; GFX11-NEXT: s_cselect_b32 s3, -1, 0		; GFX11-NEXT: s_cselect_b32 s3, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 4		; GFX11-NEXT: s_cmp_eq_u32 s1, 2
; GFX11-NEXT: v_cndmask_b32_e64 v5, v5, s0, s2		; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1
		; GFX11-NEXT: v_cndmask_b32_e64 v3, v3, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 3		; GFX11-NEXT: s_cmp_eq_u32 s1, 3
; GFX11-NEXT: v_cndmask_b32_e64 v6, v6, s0, s3		; GFX11-NEXT: v_cndmask_b32_e64 v1, v1, s0, s2
; GFX11-NEXT: s_cselect_b32 s3, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 2
; GFX11-NEXT: v_cndmask_b32_e64 v2, v2, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 1
; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1
; GFX11-NEXT: s_cselect_b32 s6, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 0		; GFX11-NEXT: s_cmp_eq_u32 s1, 0
; GFX11-NEXT: v_lshrrev_b32_e32 v8, 16, v0		; GFX11-NEXT: v_lshrrev_b32_e32 v8, 16, v0
		; GFX11-NEXT: v_cndmask_b32_e64 v7, v7, s0, s2
		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
		; GFX11-NEXT: s_cmp_eq_u32 s1, 1
		; GFX11-NEXT: v_cndmask_b32_e64 v6, v6, s0, s3
; GFX11-NEXT: s_cselect_b32 s1, -1, 0		; GFX11-NEXT: s_cselect_b32 s1, -1, 0
; GFX11-NEXT: v_cndmask_b32_e64 v1, v1, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v0, v0, s0, s2
; GFX11-NEXT: v_cndmask_b32_e64 v0, v0, s0, s1		; GFX11-NEXT: v_cndmask_b32_e64 v8, v8, s0, s1
; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX11-NEXT: v_perm_b32 v3, v3, v5, 0x5040100
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX11-NEXT: v_perm_b32 v2, v6, v2, 0x5040100
; GFX11-NEXT: v_cndmask_b32_e64 v7, v7, s0, s3		; GFX11-NEXT: v_perm_b32 v1, v7, v1, 0x5040100
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX11-NEXT: v_cndmask_b32_e64 v8, v8, s0, s6
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX11-NEXT: v_lshl_or_b32 v3, v5, 16, v3
; GFX11-NEXT: v_lshl_or_b32 v2, v6, 16, v2
; GFX11-NEXT: v_lshl_or_b32 v1, v7, 16, v1
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4)		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4)
; GFX11-NEXT: v_lshl_or_b32 v0, v8, 16, v0		; GFX11-NEXT: v_perm_b32 v0, v8, v0, 0x5040100
; GFX11-NEXT: global_store_b128 v4, v[0:3], s[4:5]		; GFX11-NEXT: global_store_b128 v4, v[0:3], s[4:5]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <8 x half>, <8 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <8 x half>, <8 x half> addrspace(1)* %in.gep		%vec = load <8 x half>, <8 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <8 x half> %vec, half %val.cvt, i32 %n		%vecins = insertelement <8 x half> %vec, half %val.cvt, i32 %n
store <8 x half> %vecins, <8 x half> addrspace(1)* %out.gep		store <8 x half> %vecins, <8 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v16f16_3(<16 x half> addrspace(1)* %out, <16 x half> addrspace(1)* %in, i32 %val) {		define amdgpu_kernel void @v_insertelement_v16f16_3(<16 x half> addrspace(1)* %out, <16 x half> addrspace(1)* %in, i32 %val) {
; GFX9-LABEL: v_insertelement_v16f16_3:		; GFX9-LABEL: v_insertelement_v16f16_3:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v8, 5, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v8, 5, v0
		; GFX9-NEXT: v_mov_b32_e32 v9, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx4 v[0:3], v8, s[2:3]		; GFX9-NEXT: global_load_dwordx4 v[0:3], v8, s[2:3]
; GFX9-NEXT: global_load_dwordx4 v[4:7], v8, s[2:3] offset:16		; GFX9-NEXT: global_load_dwordx4 v[4:7], v8, s[2:3] offset:16
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, s6, v1, v9
; GFX9-NEXT: v_lshl_or_b32 v1, s6, 16, v1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[0:1] offset:16		; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[0:1] offset:16
; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v16f16_3:		; VI-LABEL: v_insertelement_v16f16_3:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v8, 5, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v8, 5, v0
; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10		; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: s_clause 0x1		; GFX11-NEXT: s_clause 0x1
; GFX11-NEXT: global_load_b128 v[0:3], v8, s[6:7]		; GFX11-NEXT: global_load_b128 v[0:3], v8, s[6:7]
; GFX11-NEXT: global_load_b128 v[4:7], v8, s[6:7] offset:16		; GFX11-NEXT: global_load_b128 v[4:7], v8, s[6:7] offset:16
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, s0, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, s0, 16, v1
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_clause 0x1		; GFX11-NEXT: s_clause 0x1
; GFX11-NEXT: global_store_b128 v8, v[4:7], s[4:5] offset:16		; GFX11-NEXT: global_store_b128 v8, v[4:7], s[4:5] offset:16
; GFX11-NEXT: global_store_b128 v8, v[0:3], s[4:5]		; GFX11-NEXT: global_store_b128 v8, v[0:3], s[4:5]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <16 x half>, <16 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <16 x half>, <16 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <16 x half>, <16 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <16 x half>, <16 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <16 x half>, <16 x half> addrspace(1)* %in.gep		%vec = load <16 x half>, <16 x half> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
%val.cvt = bitcast i16 %val.trunc to half		%val.cvt = bitcast i16 %val.trunc to half
%vecins = insertelement <16 x half> %vec, half %val.cvt, i32 3		%vecins = insertelement <16 x half> %vec, half %val.cvt, i32 3
store <16 x half> %vecins, <16 x half> addrspace(1)* %out.gep		store <16 x half> %vecins, <16 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v16i16_6(<16 x i16> addrspace(1)* %out, <16 x i16> addrspace(1)* %in, i32 %val) {		define amdgpu_kernel void @v_insertelement_v16i16_6(<16 x i16> addrspace(1)* %out, <16 x i16> addrspace(1)* %in, i32 %val) {
; GFX9-LABEL: v_insertelement_v16i16_6:		; GFX9-LABEL: v_insertelement_v16i16_6:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v8, 5, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v8, 5, v0
; GFX9-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx4 v[0:3], v8, s[2:3]		; GFX9-NEXT: global_load_dwordx4 v[0:3], v8, s[2:3]
; GFX9-NEXT: global_load_dwordx4 v[4:7], v8, s[2:3] offset:16		; GFX9-NEXT: global_load_dwordx4 v[4:7], v8, s[2:3] offset:16
		; GFX9-NEXT: s_mov_b32 s2, 0xffff
		; GFX9-NEXT: v_mov_b32_e32 v9, s6
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_bfi_b32 v3, v9, s6, v3		; GFX9-NEXT: v_bfi_b32 v3, s2, v9, v3
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[0:1] offset:16		; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[0:1] offset:16
; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v16i16_6:		; VI-LABEL: v_insertelement_v16i16_6:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
; GFX9-LABEL: v_insertelement_v16f16_dynamic:		; GFX9-LABEL: v_insertelement_v16f16_dynamic:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v8, 5, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v8, 5, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx4 v[0:3], v8, s[2:3]		; GFX9-NEXT: global_load_dwordx4 v[0:3], v8, s[2:3]
; GFX9-NEXT: global_load_dwordx4 v[4:7], v8, s[2:3] offset:16		; GFX9-NEXT: global_load_dwordx4 v[4:7], v8, s[2:3] offset:16
; GFX9-NEXT: s_cmp_eq_u32 s7, 7		; GFX9-NEXT: s_cmp_eq_u32 s7, 6
; GFX9-NEXT: v_mov_b32_e32 v9, s6		; GFX9-NEXT: v_mov_b32_e32 v9, s6
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 6		; GFX9-NEXT: s_cmp_eq_u32 s7, 7
		; GFX9-NEXT: s_mov_b32 s2, 0x5040100
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshrrev_b32_e32 v10, 16, v3		; GFX9-NEXT: v_cndmask_b32_e32 v10, v3, v9, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v10, v10, v9, vcc		; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v3
		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
		; GFX9-NEXT: s_cmp_eq_u32 s7, 4
		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 5		; GFX9-NEXT: s_cmp_eq_u32 s7, 5
; GFX9-NEXT: v_lshrrev_b32_e32 v11, 16, v2		; GFX9-NEXT: v_lshrrev_b32_e32 v11, 16, v2
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 4		; GFX9-NEXT: s_cmp_eq_u32 s7, 2
; GFX9-NEXT: v_cndmask_b32_e32 v11, v11, v9, vcc		; GFX9-NEXT: v_perm_b32 v3, v3, v10, s2
		; GFX9-NEXT: v_cndmask_b32_e32 v10, v11, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v9, vcc
; GFX9-NEXT: s_cmp_eq_u32 s7, 3		; GFX9-NEXT: s_cmp_eq_u32 s7, 3
; GFX9-NEXT: v_lshrrev_b32_e32 v12, 16, v1		; GFX9-NEXT: v_lshrrev_b32_e32 v12, 16, v1
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 2		; GFX9-NEXT: s_cmp_eq_u32 s7, 0
; GFX9-NEXT: v_lshl_or_b32 v2, v11, 16, v2
; GFX9-NEXT: v_cndmask_b32_e32 v11, v12, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v11, v12, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 1		; GFX9-NEXT: s_cmp_eq_u32 s7, 1
; GFX9-NEXT: v_lshrrev_b32_e32 v13, 16, v0		; GFX9-NEXT: v_lshrrev_b32_e32 v13, 16, v0
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 0		; GFX9-NEXT: s_cmp_eq_u32 s7, 14
; GFX9-NEXT: v_cndmask_b32_e32 v12, v13, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v12, v13, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 15		; GFX9-NEXT: s_cmp_eq_u32 s7, 15
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v14, 16, v7		; GFX9-NEXT: v_lshrrev_b32_e32 v14, 16, v7
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 14		; GFX9-NEXT: s_cmp_eq_u32 s7, 12
; GFX9-NEXT: v_cndmask_b32_e32 v13, v14, v9, vcc		; GFX9-NEXT: v_perm_b32 v0, v12, v0, s2
		; GFX9-NEXT: v_cndmask_b32_e32 v12, v14, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 13		; GFX9-NEXT: s_cmp_eq_u32 s7, 13
; GFX9-NEXT: v_lshrrev_b32_e32 v15, 16, v6		; GFX9-NEXT: v_lshrrev_b32_e32 v15, 16, v6
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 12		; GFX9-NEXT: s_cmp_eq_u32 s7, 10
; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX9-NEXT: v_perm_b32 v7, v12, v7, s2
; GFX9-NEXT: v_lshl_or_b32 v0, v12, 16, v0
; GFX9-NEXT: v_cndmask_b32_e32 v12, v15, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v12, v15, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 11		; GFX9-NEXT: s_cmp_eq_u32 s7, 11
; GFX9-NEXT: v_lshl_or_b32 v3, v10, 16, v3		; GFX9-NEXT: v_perm_b32 v2, v10, v2, s2
; GFX9-NEXT: v_lshrrev_b32_e32 v10, 16, v5		; GFX9-NEXT: v_lshrrev_b32_e32 v10, 16, v5
; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 10		; GFX9-NEXT: s_cmp_eq_u32 s7, 8
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: v_cndmask_b32_e32 v10, v10, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v10, v10, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 9		; GFX9-NEXT: s_cmp_eq_u32 s7, 9
; GFX9-NEXT: v_lshl_or_b32 v1, v11, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v11, v1, s2
; GFX9-NEXT: v_lshrrev_b32_e32 v11, 16, v4		; GFX9-NEXT: v_lshrrev_b32_e32 v11, 16, v4
; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: s_cmp_eq_u32 s7, 8
; GFX9-NEXT: v_cndmask_b32_e32 v11, v11, v9, vcc
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v9, vcc
; GFX9-NEXT: v_and_b32_e32 v7, 0xffff, v7		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
; GFX9-NEXT: v_and_b32_e32 v6, 0xffff, v6		; GFX9-NEXT: v_cndmask_b32_e32 v9, v11, v9, vcc
; GFX9-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX9-NEXT: v_perm_b32 v6, v12, v6, s2
; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX9-NEXT: v_perm_b32 v5, v10, v5, s2
; GFX9-NEXT: v_lshl_or_b32 v7, v13, 16, v7		; GFX9-NEXT: v_perm_b32 v4, v9, v4, s2
; GFX9-NEXT: v_lshl_or_b32 v6, v12, 16, v6
; GFX9-NEXT: v_lshl_or_b32 v5, v10, 16, v5
; GFX9-NEXT: v_lshl_or_b32 v4, v11, 16, v4
; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[0:1] offset:16		; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[0:1] offset:16
; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v16f16_dynamic:		; VI-LABEL: v_insertelement_v16f16_dynamic:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10		; VI-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
▲ Show 20 Lines • Show All 224 Lines • ▼ Show 20 Lines
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0		; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
; GFX11-NEXT: v_lshlrev_b32_e32 v8, 5, v0		; GFX11-NEXT: v_lshlrev_b32_e32 v8, 5, v0
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x10		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x10
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: s_clause 0x1		; GFX11-NEXT: s_clause 0x1
; GFX11-NEXT: global_load_b128 v[0:3], v8, s[6:7]		; GFX11-NEXT: global_load_b128 v[0:3], v8, s[6:7]
; GFX11-NEXT: global_load_b128 v[4:7], v8, s[6:7] offset:16		; GFX11-NEXT: global_load_b128 v[4:7], v8, s[6:7] offset:16
		; GFX11-NEXT: s_cmp_eq_u32 s1, 6
		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 7		; GFX11-NEXT: s_cmp_eq_u32 s1, 7
		; GFX11-NEXT: s_waitcnt vmcnt(1)
		; GFX11-NEXT: v_cndmask_b32_e64 v9, v3, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 6		; GFX11-NEXT: s_cmp_eq_u32 s1, 4
		; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX11-NEXT: s_cselect_b32 s3, -1, 0		; GFX11-NEXT: s_cselect_b32 s3, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 5		; GFX11-NEXT: s_cmp_eq_u32 s1, 5
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v2
; GFX11-NEXT: v_lshrrev_b32_e32 v9, 16, v3		; GFX11-NEXT: v_cndmask_b32_e64 v2, v2, s0, s3
; GFX11-NEXT: v_cndmask_b32_e64 v3, v3, s0, s3
; GFX11-NEXT: s_cselect_b32 s3, -1, 0		; GFX11-NEXT: s_cselect_b32 s3, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 4		; GFX11-NEXT: s_cmp_eq_u32 s1, 2
; GFX11-NEXT: v_lshrrev_b32_e32 v11, 16, v1		; GFX11-NEXT: v_lshrrev_b32_e32 v11, 16, v1
; GFX11-NEXT: v_cndmask_b32_e64 v9, v9, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v3, v3, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 3		; GFX11-NEXT: s_cmp_eq_u32 s1, 3
; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v2		; GFX11-NEXT: v_cndmask_b32_e64 v1, v1, s0, s2
; GFX11-NEXT: v_cndmask_b32_e64 v2, v2, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 2		; GFX11-NEXT: s_cmp_eq_u32 s1, 0
; GFX11-NEXT: v_lshrrev_b32_e32 v12, 16, v0		; GFX11-NEXT: v_lshrrev_b32_e32 v12, 16, v0
; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX11-NEXT: v_cndmask_b32_e64 v11, v11, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v11, v11, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 1		; GFX11-NEXT: s_cmp_eq_u32 s1, 1
; GFX11-NEXT: v_cndmask_b32_e64 v1, v1, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v0, v0, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 0		; GFX11-NEXT: s_cmp_eq_u32 s1, 14
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v13, 16, v7		; GFX11-NEXT: v_lshrrev_b32_e32 v13, 16, v7
; GFX11-NEXT: v_cndmask_b32_e64 v10, v10, s0, s3		; GFX11-NEXT: v_cndmask_b32_e64 v10, v10, s0, s3
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX11-NEXT: v_perm_b32 v3, v3, v9, 0x5040100
; GFX11-NEXT: v_lshl_or_b32 v3, v9, 16, v3
; GFX11-NEXT: v_cndmask_b32_e64 v9, v12, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v9, v12, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 15		; GFX11-NEXT: s_cmp_eq_u32 s1, 15
; GFX11-NEXT: v_cndmask_b32_e64 v0, v0, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v7, v7, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 14		; GFX11-NEXT: s_cmp_eq_u32 s1, 12
; GFX11-NEXT: v_lshl_or_b32 v2, v10, 16, v2		; GFX11-NEXT: v_lshrrev_b32_e32 v14, 16, v6
		; GFX11-NEXT: v_perm_b32 v2, v10, v2, 0x5040100
; GFX11-NEXT: v_cndmask_b32_e64 v10, v13, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v10, v13, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 13		; GFX11-NEXT: s_cmp_eq_u32 s1, 13
; GFX11-NEXT: v_lshrrev_b32_e32 v14, 16, v6		; GFX11-NEXT: v_cndmask_b32_e64 v6, v6, s0, s2
; GFX11-NEXT: v_cndmask_b32_e64 v7, v7, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 12		; GFX11-NEXT: s_cmp_eq_u32 s1, 10
; GFX11-NEXT: v_lshrrev_b32_e32 v15, 16, v5		; GFX11-NEXT: v_lshrrev_b32_e32 v15, 16, v5
; GFX11-NEXT: s_cselect_b32 s3, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 11
; GFX11-NEXT: v_cndmask_b32_e64 v12, v14, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v12, v14, s0, s2
; GFX11-NEXT: s_cselect_b32 s2, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 10		; GFX11-NEXT: s_cmp_eq_u32 s1, 11
; GFX11-NEXT: v_cndmask_b32_e64 v6, v6, s0, s3		; GFX11-NEXT: v_cndmask_b32_e64 v5, v5, s0, s2
; GFX11-NEXT: s_cselect_b32 s3, -1, 0		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 9
; GFX11-NEXT: v_lshrrev_b32_e32 v16, 16, v4
; GFX11-NEXT: s_cselect_b32 s6, -1, 0
; GFX11-NEXT: s_cmp_eq_u32 s1, 8		; GFX11-NEXT: s_cmp_eq_u32 s1, 8
; GFX11-NEXT: v_cndmask_b32_e64 v5, v5, s0, s3		; GFX11-NEXT: v_lshrrev_b32_e32 v16, 16, v4
; GFX11-NEXT: s_cselect_b32 s1, -1, 0
; GFX11-NEXT: v_and_b32_e32 v7, 0xffff, v7
; GFX11-NEXT: v_cndmask_b32_e64 v4, v4, s0, s1
; GFX11-NEXT: v_cndmask_b32_e64 v13, v15, s0, s2		; GFX11-NEXT: v_cndmask_b32_e64 v13, v15, s0, s2
; GFX11-NEXT: v_and_b32_e32 v6, 0xffff, v6		; GFX11-NEXT: s_cselect_b32 s2, -1, 0
; GFX11-NEXT: v_cndmask_b32_e64 v14, v16, s0, s6		; GFX11-NEXT: s_cmp_eq_u32 s1, 9
; GFX11-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX11-NEXT: v_cndmask_b32_e64 v4, v4, s0, s2
; GFX11-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX11-NEXT: s_cselect_b32 s1, -1, 0
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v7, v10, v7, 0x5040100
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX11-NEXT: v_cndmask_b32_e64 v14, v16, s0, s1
; GFX11-NEXT: v_lshl_or_b32 v7, v10, 16, v7		; GFX11-NEXT: v_perm_b32 v6, v12, v6, 0x5040100
; GFX11-NEXT: v_lshl_or_b32 v6, v12, 16, v6		; GFX11-NEXT: v_perm_b32 v5, v13, v5, 0x5040100
; GFX11-NEXT: v_lshl_or_b32 v5, v13, 16, v5		; GFX11-NEXT: v_perm_b32 v1, v11, v1, 0x5040100
; GFX11-NEXT: v_lshl_or_b32 v4, v14, 16, v4		; GFX11-NEXT: v_perm_b32 v0, v9, v0, 0x5040100
; GFX11-NEXT: v_lshl_or_b32 v1, v11, 16, v1		; GFX11-NEXT: v_perm_b32 v4, v14, v4, 0x5040100
; GFX11-NEXT: v_lshl_or_b32 v0, v9, 16, v0
; GFX11-NEXT: s_clause 0x1		; GFX11-NEXT: s_clause 0x1
; GFX11-NEXT: global_store_b128 v8, v[4:7], s[4:5] offset:16		; GFX11-NEXT: global_store_b128 v8, v[4:7], s[4:5] offset:16
; GFX11-NEXT: global_store_b128 v8, v[0:3], s[4:5]		; GFX11-NEXT: global_store_b128 v8, v[0:3], s[4:5]
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <16 x half>, <16 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <16 x half>, <16 x half> addrspace(1)* %in, i64 %tid.ext
Show All 14 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.gather4.a16.dim.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s

	define amdgpu_ps <4 x float> @gather4_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
	; GFX9-LABEL: gather4_2d:			; GFX9-LABEL: gather4_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_2d:			; GFX10-LABEL: gather4_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {			define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {
	; GFX9-LABEL: gather4_cube:			; GFX9-LABEL: gather4_cube:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_cube:			; GFX10-LABEL: gather4_cube:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16			; GFX10-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {			define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {
	; GFX9-LABEL: gather4_2darray:			; GFX9-LABEL: gather4_2darray:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_2darray:			; GFX10-LABEL: gather4_2darray:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_2d:			; GFX9-LABEL: gather4_c_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_c_2d:			; GFX10-LABEL: gather4_c_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_cl_2d:			; GFX9-LABEL: gather4_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_cl_2d:			; GFX10-LABEL: gather4_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_cl_2d:			; GFX9-LABEL: gather4_c_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
				; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_mov_b32_e32 v5, v3			; GFX9-NEXT: v_mov_b32_e32 v5, v3
	; GFX9-NEXT: v_mov_b32_e32 v3, v0			; GFX9-NEXT: v_mov_b32_e32 v3, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v4, v2, v1, s14
	; GFX9-NEXT: v_lshl_or_b32 v4, v2, 16, v0
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4_c_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_c_cl_2d:			; GFX10-LABEL: gather4_c_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {
	; GFX9-LABEL: gather4_b_2d:			; GFX9-LABEL: gather4_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_b_2d:			; GFX10-LABEL: gather4_b_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_b_2d:			; GFX9-LABEL: gather4_c_b_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX9-NEXT: v_perm_b32 v2, v3, v2, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_c_b_2d:			; GFX10-LABEL: gather4_c_b_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_b_cl_2d:			; GFX9-LABEL: gather4_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
				; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_mov_b32_e32 v5, v3			; GFX9-NEXT: v_mov_b32_e32 v5, v3
	; GFX9-NEXT: v_mov_b32_e32 v3, v0			; GFX9-NEXT: v_mov_b32_e32 v3, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v4, v2, v1, s14
	; GFX9-NEXT: v_lshl_or_b32 v4, v2, 16, v0
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4_b_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_b_cl_2d:			; GFX10-LABEL: gather4_b_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_b_cl_2d:			; GFX9-LABEL: gather4_c_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[12:13], exec			; GFX9-NEXT: s_mov_b64 s[12:13], exec
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
				; GFX9-NEXT: s_mov_b32 s14, 0x5040100
	; GFX9-NEXT: v_mov_b32_e32 v7, v4			; GFX9-NEXT: v_mov_b32_e32 v7, v4
	; GFX9-NEXT: v_mov_b32_e32 v4, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
	; GFX9-NEXT: v_mov_b32_e32 v5, v1			; GFX9-NEXT: v_mov_b32_e32 v5, v1
	; GFX9-NEXT: v_lshl_or_b32 v6, v3, 16, v0			; GFX9-NEXT: v_mov_b32_e32 v4, v0
				; GFX9-NEXT: v_perm_b32 v6, v3, v2, s14
	; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]			; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
	; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[4:7], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[4:7], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_c_b_cl_2d:			; GFX10-LABEL: gather4_c_b_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s12, exec_lo			; GFX10-NEXT: s_mov_b32 s12, exec_lo
	; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12			; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
	; GFX10-NEXT: image_gather4_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f16.f16(i32 1, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_l_2d:			; GFX9-LABEL: gather4_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s12, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v1, v1, v0, s12
	; GFX9-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_l_2d:			; GFX10-LABEL: gather4_l_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
	; GFX10-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_c_l_2d:			; GFX9-LABEL: gather4_c_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
				; GFX9-NEXT: s_mov_b32 s12, 0x5040100
	; GFX9-NEXT: v_mov_b32_e32 v5, v3			; GFX9-NEXT: v_mov_b32_e32 v5, v3
	; GFX9-NEXT: v_mov_b32_e32 v3, v0			; GFX9-NEXT: v_mov_b32_e32 v3, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v4, v2, v1, s12
	; GFX9-NEXT: v_lshl_or_b32 v4, v2, 16, v0
	; GFX9-NEXT: image_gather4_c_l v[0:3], v[3:5], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_l v[0:3], v[3:5], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_c_l_2d:			; GFX10-LABEL: gather4_c_l_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: image_gather4_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
	; GFX9-LABEL: gather4_lz_2d:			; GFX9-LABEL: gather4_lz_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: s_mov_b32 s12, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_perm_b32 v0, v1, v0, s12
	; GFX9-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_lz_2d:			; GFX10-LABEL: gather4_lz_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_lz v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
	; GFX9-LABEL: gather4_c_lz_2d:			; GFX9-LABEL: gather4_c_lz_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: s_mov_b32 s12, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX9-NEXT: v_perm_b32 v1, v2, v1, s12
	; GFX9-NEXT: image_gather4_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: gather4_c_lz_2d:			; GFX10-LABEL: gather4_c_lz_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: image_gather4_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_gather4_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.lz.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.lz.2d.v4f32.f32(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 22 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.a16.dim.ll

Show All 25 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
; GFX9-LABEL: sample_2d:		; GFX9-LABEL: sample_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_2d:		; GFX10-LABEL: sample_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.2d.v4f32.f16(i32 15, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.2d.v4f32.f16(i32 15, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %r) {		define amdgpu_ps <4 x float> @sample_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %r) {
; GFX9-LABEL: sample_3d:		; GFX9-LABEL: sample_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v1, v0, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_3d:		; GFX10-LABEL: sample_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16		; GFX10-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.3d.v4f32.f16(i32 15, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.3d.v4f32.f16(i32 15, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {		define amdgpu_ps <4 x float> @sample_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {
; GFX9-LABEL: sample_cube:		; GFX9-LABEL: sample_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v1, v0, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16 da		; GFX9-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cube:		; GFX10-LABEL: sample_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_CUBE a16		; GFX10-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_CUBE a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cube.v4f32.f16(i32 15, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cube.v4f32.f16(i32 15, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_1darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %slice) {		define amdgpu_ps <4 x float> @sample_1darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %slice) {
; GFX9-LABEL: sample_1darray:		; GFX9-LABEL: sample_1darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16 da		; GFX9-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_1darray:		; GFX10-LABEL: sample_1darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D_ARRAY a16		; GFX10-NEXT: image_sample v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D_ARRAY a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.1darray.v4f32.f16(i32 15, half %s, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.1darray.v4f32.f16(i32 15, half %s, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {		define amdgpu_ps <4 x float> @sample_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {
; GFX9-LABEL: sample_2darray:		; GFX9-LABEL: sample_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v1, v0, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16 da		; GFX9-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_2darray:		; GFX10-LABEL: sample_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D_ARRAY a16		; GFX10-NEXT: image_sample v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D_ARRAY a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.2darray.v4f32.f16(i32 15, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.2darray.v4f32.f16(i32 15, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}
Show All 21 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
; GFX9-LABEL: sample_c_2d:		; GFX9-LABEL: sample_c_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_2d:		; GFX10-LABEL: sample_c_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %clamp) {
; GFX9-LABEL: sample_cl_1d:		; GFX9-LABEL: sample_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_cl v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_cl v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cl_1d:		; GFX10-LABEL: sample_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_cl v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_cl v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cl.1d.v4f32.f16(i32 15, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cl.1d.v4f32.f16(i32 15, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_cl_2d:		; GFX9-LABEL: sample_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v1, v0, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cl_2d:		; GFX10-LABEL: sample_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cl.2d.v4f32.f16(i32 15, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cl.2d.v4f32.f16(i32 15, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %clamp) {
; GFX9-LABEL: sample_c_cl_1d:		; GFX9-LABEL: sample_c_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_c_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_cl_1d:		; GFX10-LABEL: sample_c_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_c_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cl.1d.v4f32.f16(i32 15, float %zcompare, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cl.1d.v4f32.f16(i32 15, float %zcompare, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_c_cl_2d:		; GFX9-LABEL: sample_c_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v5, v3		; GFX9-NEXT: v_mov_b32_e32 v5, v3
; GFX9-NEXT: v_mov_b32_e32 v3, v0		; GFX9-NEXT: v_mov_b32_e32 v3, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v4, v2, v1, s14
; GFX9-NEXT: v_lshl_or_b32 v4, v2, 16, v0
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_c_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_cl_2d:		; GFX10-LABEL: sample_c_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cl.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cl.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}
Show All 21 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t) {
; GFX9-LABEL: sample_b_2d:		; GFX9-LABEL: sample_b_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_b_2d:		; GFX10-LABEL: sample_b_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.b.2d.v4f32.f16.f16(i32 15, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.b.2d.v4f32.f16.f16(i32 15, half %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}
Show All 21 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t) {
; GFX9-LABEL: sample_c_b_2d:		; GFX9-LABEL: sample_c_b_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v2, v3, v2, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_b_2d:		; GFX10-LABEL: sample_c_b_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.b.2d.v4f32.f16.f16(i32 15, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.b.2d.v4f32.f16.f16(i32 15, half %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_b_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_b_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %clamp) {
; GFX9-LABEL: sample_b_cl_1d:		; GFX9-LABEL: sample_b_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_b_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_b_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_b_cl_1d:		; GFX10-LABEL: sample_b_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_b_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_b_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.b.cl.1d.v4f32.f16.f16(i32 15, half %bias, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.b.cl.1d.v4f32.f16.f16(i32 15, half %bias, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_b_cl_2d:		; GFX9-LABEL: sample_b_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v5, v3		; GFX9-NEXT: v_mov_b32_e32 v5, v3
; GFX9-NEXT: v_mov_b32_e32 v3, v0		; GFX9-NEXT: v_mov_b32_e32 v3, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v4, v2, v1, s14
; GFX9-NEXT: v_lshl_or_b32 v4, v2, 16, v0
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_b_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_b_cl v[0:3], v[3:5], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_b_cl_2d:		; GFX10-LABEL: sample_b_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.b.cl.2d.v4f32.f16.f16(i32 15, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.b.cl.2d.v4f32.f16.f16(i32 15, half %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_b_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_b_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %clamp) {
; GFX9-LABEL: sample_c_b_cl_1d:		; GFX9-LABEL: sample_c_b_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v2, v3, v2, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_c_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_b_cl_1d:		; GFX10-LABEL: sample_c_b_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_c_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.b.cl.1d.v4f32.f16.f16(i32 15, half %bias, float %zcompare, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.b.cl.1d.v4f32.f16.f16(i32 15, half %bias, float %zcompare, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %bias, float %zcompare, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_c_b_cl_2d:		; GFX9-LABEL: sample_c_b_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b64 s[12:13], exec		; GFX9-NEXT: s_mov_b64 s[12:13], exec
; GFX9-NEXT: s_wqm_b64 exec, exec		; GFX9-NEXT: s_wqm_b64 exec, exec
		; GFX9-NEXT: s_mov_b32 s14, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v7, v4		; GFX9-NEXT: v_mov_b32_e32 v7, v4
; GFX9-NEXT: v_mov_b32_e32 v4, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX9-NEXT: v_mov_b32_e32 v5, v1		; GFX9-NEXT: v_mov_b32_e32 v5, v1
; GFX9-NEXT: v_lshl_or_b32 v6, v3, 16, v0		; GFX9-NEXT: v_mov_b32_e32 v4, v0
		; GFX9-NEXT: v_perm_b32 v6, v3, v2, s14
; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]		; GFX9-NEXT: s_and_b64 exec, exec, s[12:13]
; GFX9-NEXT: image_sample_c_b_cl v[0:3], v[4:7], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_b_cl v[0:3], v[4:7], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_b_cl_2d:		; GFX10-LABEL: sample_c_b_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s12, exec_lo		; GFX10-NEXT: s_mov_b32 s12, exec_lo
; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo		; GFX10-NEXT: s_wqm_b32 exec_lo, exec_lo
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12		; GFX10-NEXT: s_and_b32 exec_lo, exec_lo, s12
; GFX10-NEXT: image_sample_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.b.cl.2d.v4f32.f16.f16(i32 15, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.b.cl.2d.v4f32.f16.f16(i32 15, half %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}
Show All 13 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_d_2d:		; GFX9-LABEL: sample_d_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: v_perm_b32 v4, v5, v4, s12
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v3, v3, v2, s12
; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4		; GFX9-NEXT: v_perm_b32 v2, v1, v0, s12
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v2, v1, 16, v0
; GFX9-NEXT: image_sample_d v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_d v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_d_2d:		; GFX10-LABEL: sample_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v3, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v2, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0
; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, half %s, half %t, half %r) {		define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, half %s, half %t, half %r) {
; GFX9-LABEL: sample_d_3d:		; GFX9-LABEL: sample_d_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v12, v8		; GFX9-NEXT: v_mov_b32_e32 v12, v8
; GFX9-NEXT: v_mov_b32_e32 v8, v2
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v6
; GFX9-NEXT: v_lshl_or_b32 v11, v7, 16, v2
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_mov_b32_e32 v10, v5		; GFX9-NEXT: v_mov_b32_e32 v10, v5
; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v2		; GFX9-NEXT: v_mov_b32_e32 v8, v2
; GFX9-NEXT: v_lshl_or_b32 v7, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v11, v7, v6, s12
		; GFX9-NEXT: v_perm_b32 v9, v4, v3, s12
		; GFX9-NEXT: v_perm_b32 v7, v1, v0, s12
; GFX9-NEXT: image_sample_d v[0:3], v[7:12], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_d v[0:3], v[7:12], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_d_3d:		; GFX10-LABEL: sample_d_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v12, v8		; GFX10-NEXT: v_mov_b32_e32 v12, v8
; GFX10-NEXT: v_mov_b32_e32 v8, v2
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v6
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX10-NEXT: v_mov_b32_e32 v10, v5		; GFX10-NEXT: v_mov_b32_e32 v10, v5
; GFX10-NEXT: v_lshl_or_b32 v11, v7, 16, v2		; GFX10-NEXT: v_mov_b32_e32 v8, v2
; GFX10-NEXT: v_lshl_or_b32 v9, v4, 16, v3		; GFX10-NEXT: v_perm_b32 v11, v7, v6, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v7, v1, 16, v0		; GFX10-NEXT: v_perm_b32 v9, v4, v3, 0x5040100
		; GFX10-NEXT: v_perm_b32 v7, v1, v0, 0x5040100
; GFX10-NEXT: image_sample_d_g16 v[0:3], v[7:12], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16		; GFX10-NEXT: image_sample_d_g16 v[0:3], v[7:12], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 14 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_c_d_2d:		; GFX9-LABEL: sample_c_d_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v7, v3		; GFX9-NEXT: v_mov_b32_e32 v7, v3
; GFX9-NEXT: v_mov_b32_e32 v8, v2		; GFX9-NEXT: v_mov_b32_e32 v8, v2
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v5		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v2		; GFX9-NEXT: v_perm_b32 v3, v6, v5, s12
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v7		; GFX9-NEXT: v_perm_b32 v2, v4, v7, s12
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, v8, v1, s12
; GFX9-NEXT: v_lshl_or_b32 v2, v4, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v1, v8, 16, v1
; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_2d:		; GFX10-LABEL: sample_c_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {
; GFX9-LABEL: sample_d_cl_1d:		; GFX9-LABEL: sample_d_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v2, v3, v2, s12
; GFX9-NEXT: image_sample_d_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_d_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_d_cl_1d:		; GFX10-LABEL: sample_d_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_d_cl_2d:		; GFX9-LABEL: sample_d_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: v_perm_b32 v5, v5, v4, s12
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v4, v3, v2, s12
; GFX9-NEXT: v_lshl_or_b32 v5, v5, 16, v4		; GFX9-NEXT: v_perm_b32 v3, v1, v0, s12
; GFX9-NEXT: v_lshl_or_b32 v4, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v3, v1, 16, v0
; GFX9-NEXT: image_sample_d_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_d_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_d_cl_2d:		; GFX10-LABEL: sample_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {
; GFX9-LABEL: sample_c_d_cl_1d:		; GFX9-LABEL: sample_c_d_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v3, v4, 16, v3		; GFX9-NEXT: v_perm_b32 v3, v4, v3, s12
; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_cl_1d:		; GFX10-LABEL: sample_c_d_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_c_d_cl_2d:		; GFX9-LABEL: sample_c_d_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v11, v7		; GFX9-NEXT: v_mov_b32_e32 v11, v7
; GFX9-NEXT: v_mov_b32_e32 v7, v0		; GFX9-NEXT: v_mov_b32_e32 v7, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v5		; GFX9-NEXT: v_perm_b32 v10, v6, v5, s12
; GFX9-NEXT: v_lshl_or_b32 v10, v6, 16, v0		; GFX9-NEXT: v_perm_b32 v9, v4, v3, s12
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v3		; GFX9-NEXT: v_perm_b32 v8, v2, v1, s12
; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v8, v2, 16, v0
; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_cl_2d:		; GFX10-LABEL: sample_c_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], [v0, v1, v3, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], [v0, v1, v3, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %lod) {		define amdgpu_ps <4 x float> @sample_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %lod) {
; GFX9-LABEL: sample_l_1d:		; GFX9-LABEL: sample_l_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s12
; GFX9-NEXT: image_sample_l v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_l v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_l_1d:		; GFX10-LABEL: sample_l_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_l v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_l v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.l.1d.v4f32.f16(i32 15, half %s, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.l.1d.v4f32.f16(i32 15, half %s, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {		define amdgpu_ps <4 x float> @sample_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {
; GFX9-LABEL: sample_l_2d:		; GFX9-LABEL: sample_l_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v1, v0, s12
; GFX9-NEXT: image_sample_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_l_2d:		; GFX10-LABEL: sample_l_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v1, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v0
; GFX10-NEXT: image_sample_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.l.2d.v4f32.f16(i32 15, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.l.2d.v4f32.f16(i32 15, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %lod) {		define amdgpu_ps <4 x float> @sample_c_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %lod) {
; GFX9-LABEL: sample_c_l_1d:		; GFX9-LABEL: sample_c_l_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s12
; GFX9-NEXT: image_sample_c_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_l_1d:		; GFX10-LABEL: sample_c_l_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.1d.v4f32.f16(i32 15, float %zcompare, half %s, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.1d.v4f32.f16(i32 15, float %zcompare, half %s, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {		define amdgpu_ps <4 x float> @sample_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {
; GFX9-LABEL: sample_c_l_2d:		; GFX9-LABEL: sample_c_l_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v5, v3		; GFX9-NEXT: v_mov_b32_e32 v5, v3
; GFX9-NEXT: v_mov_b32_e32 v3, v0		; GFX9-NEXT: v_mov_b32_e32 v3, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v4, v2, v1, s12
; GFX9-NEXT: v_lshl_or_b32 v4, v2, 16, v0
; GFX9-NEXT: image_sample_c_l v[0:3], v[3:5], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_l v[0:3], v[3:5], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_l_2d:		; GFX10-LABEL: sample_c_l_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.lz.1d.v4f32.f16(i32 15, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.lz.1d.v4f32.f16(i32 15, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
; GFX9-LABEL: sample_lz_2d:		; GFX9-LABEL: sample_lz_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s12
; GFX9-NEXT: image_sample_lz v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_lz v[0:3], v0, s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_lz_2d:		; GFX10-LABEL: sample_lz_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_lz v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_lz v[0:3], v0, s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.lz.2d.v4f32.f16(i32 15, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.lz.2d.v4f32.f16(i32 15, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.lz.1d.v4f32.f16(i32 15, float %zcompare, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.lz.1d.v4f32.f16(i32 15, float %zcompare, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
; GFX9-LABEL: sample_c_lz_2d:		; GFX9-LABEL: sample_c_lz_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1		; GFX9-NEXT: v_perm_b32 v1, v2, v1, s12
; GFX9-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_lz_2d:		; GFX10-LABEL: sample_c_lz_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.lz.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.lz.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {		define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {
; GFX9-LABEL: sample_c_d_o_2darray_V1:		; GFX9-LABEL: sample_c_d_o_2darray_V1:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v13, v8		; GFX9-NEXT: v_mov_b32_e32 v13, v8
; GFX9-NEXT: v_mov_b32_e32 v8, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GFX9-NEXT: v_lshl_or_b32 v12, v7, 16, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GFX9-NEXT: v_lshl_or_b32 v11, v5, 16, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX9-NEXT: v_mov_b32_e32 v9, v1		; GFX9-NEXT: v_mov_b32_e32 v9, v1
; GFX9-NEXT: v_lshl_or_b32 v10, v3, 16, v0		; GFX9-NEXT: v_mov_b32_e32 v8, v0
		; GFX9-NEXT: v_perm_b32 v12, v7, v6, s12
		; GFX9-NEXT: v_perm_b32 v11, v5, v4, s12
		; GFX9-NEXT: v_perm_b32 v10, v3, v2, s12
; GFX9-NEXT: image_sample_c_d_o v0, v[8:13], s[0:7], s[8:11] dmask:0x4 a16 da		; GFX9-NEXT: image_sample_c_d_o v0, v[8:13], s[0:7], s[8:11] dmask:0x4 a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_o_2darray_V1:		; GFX10-LABEL: sample_c_d_o_2darray_V1:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v13, v8		; GFX10-NEXT: v_mov_b32_e32 v13, v8
; GFX10-NEXT: v_mov_b32_e32 v9, v1		; GFX10-NEXT: v_mov_b32_e32 v9, v1
; GFX10-NEXT: v_mov_b32_e32 v8, v0		; GFX10-NEXT: v_mov_b32_e32 v8, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v6		; GFX10-NEXT: v_perm_b32 v12, v7, v6, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v11, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v10, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v12, v7, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v11, v5, 16, v1
; GFX10-NEXT: v_lshl_or_b32 v10, v3, 16, v2
; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[8:13], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16		; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[8:13], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f16(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f16(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret float %v		ret float %v
}		}

define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {		define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {
; GFX9-LABEL: sample_c_d_o_2darray_V2:		; GFX9-LABEL: sample_c_d_o_2darray_V2:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v13, v8		; GFX9-NEXT: v_mov_b32_e32 v13, v8
; GFX9-NEXT: v_mov_b32_e32 v8, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GFX9-NEXT: v_lshl_or_b32 v12, v7, 16, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GFX9-NEXT: v_lshl_or_b32 v11, v5, 16, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX9-NEXT: v_mov_b32_e32 v9, v1		; GFX9-NEXT: v_mov_b32_e32 v9, v1
; GFX9-NEXT: v_lshl_or_b32 v10, v3, 16, v0		; GFX9-NEXT: v_mov_b32_e32 v8, v0
		; GFX9-NEXT: v_perm_b32 v12, v7, v6, s12
		; GFX9-NEXT: v_perm_b32 v11, v5, v4, s12
		; GFX9-NEXT: v_perm_b32 v10, v3, v2, s12
; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:13], s[0:7], s[8:11] dmask:0x6 a16 da		; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:13], s[0:7], s[8:11] dmask:0x6 a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_o_2darray_V2:		; GFX10-LABEL: sample_c_d_o_2darray_V2:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v13, v8		; GFX10-NEXT: v_mov_b32_e32 v13, v8
; GFX10-NEXT: v_mov_b32_e32 v9, v1		; GFX10-NEXT: v_mov_b32_e32 v9, v1
; GFX10-NEXT: v_mov_b32_e32 v8, v0		; GFX10-NEXT: v_mov_b32_e32 v8, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v6		; GFX10-NEXT: v_perm_b32 v12, v7, v6, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v11, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v10, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v12, v7, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v11, v5, 16, v1
; GFX10-NEXT: v_lshl_or_b32 v10, v3, 16, v2
; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[8:13], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16		; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[8:13], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <2 x float> %v		ret <2 x float> %v
}		}

▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.cd.a16.dim.ll

Show All 16 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_cd_2d:		; GFX9-LABEL: sample_cd_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: v_perm_b32 v4, v5, v4, s12
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v3, v3, v2, s12
; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4		; GFX9-NEXT: v_perm_b32 v2, v1, v0, s12
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v2, v1, 16, v0
; GFX9-NEXT: image_sample_cd v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_cd v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cd_2d:		; GFX10-LABEL: sample_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v3, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v2, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0
; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 14 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_c_cd_2d:		; GFX9-LABEL: sample_c_cd_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v7, v3		; GFX9-NEXT: v_mov_b32_e32 v7, v3
; GFX9-NEXT: v_mov_b32_e32 v8, v2		; GFX9-NEXT: v_mov_b32_e32 v8, v2
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v5		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v2		; GFX9-NEXT: v_perm_b32 v3, v6, v5, s12
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v7		; GFX9-NEXT: v_perm_b32 v2, v4, v7, s12
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, v8, v1, s12
; GFX9-NEXT: v_lshl_or_b32 v2, v4, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v1, v8, 16, v1
; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_cd_2d:		; GFX10-LABEL: sample_c_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {
; GFX9-LABEL: sample_cd_cl_1d:		; GFX9-LABEL: sample_cd_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v2, v3, 16, v2		; GFX9-NEXT: v_perm_b32 v2, v3, v2, s12
; GFX9-NEXT: image_sample_cd_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_cd_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cd_cl_1d:		; GFX10-LABEL: sample_cd_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_cd_cl_2d:		; GFX9-LABEL: sample_cd_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX9-NEXT: v_perm_b32 v5, v5, v4, s12
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v4, v3, v2, s12
; GFX9-NEXT: v_lshl_or_b32 v5, v5, 16, v4		; GFX9-NEXT: v_perm_b32 v3, v1, v0, s12
; GFX9-NEXT: v_lshl_or_b32 v4, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v3, v1, 16, v0
; GFX9-NEXT: image_sample_cd_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_cd_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cd_cl_2d:		; GFX10-LABEL: sample_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {
; GFX9-LABEL: sample_c_cd_cl_1d:		; GFX9-LABEL: sample_c_cd_cl_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v3, v4, 16, v3		; GFX9-NEXT: v_perm_b32 v3, v4, v3, s12
; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_cd_cl_1d:		; GFX10-LABEL: sample_c_cd_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_c_cd_cl_2d:		; GFX9-LABEL: sample_c_cd_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
		; GFX9-NEXT: s_mov_b32 s12, 0x5040100
; GFX9-NEXT: v_mov_b32_e32 v11, v7		; GFX9-NEXT: v_mov_b32_e32 v11, v7
; GFX9-NEXT: v_mov_b32_e32 v7, v0		; GFX9-NEXT: v_mov_b32_e32 v7, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v5		; GFX9-NEXT: v_perm_b32 v10, v6, v5, s12
; GFX9-NEXT: v_lshl_or_b32 v10, v6, 16, v0		; GFX9-NEXT: v_perm_b32 v9, v4, v3, s12
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v3		; GFX9-NEXT: v_perm_b32 v8, v2, v1, s12
; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v0
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v8, v2, 16, v0
; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_cd_cl_2d:		; GFX10-LABEL: sample_c_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], [v0, v1, v3, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], [v0, v1, v3, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.cd.g16.encode.ll

	Show All 9 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_cd_2d:			; GFX10-LABEL: sample_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2 ; encoding: [0xff,0x04,0x04,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd7,0x03,0x05,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100 ; encoding: [0x00,0x00,0x44,0xd7,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa0,0xf1,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x00]			; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa0,0xf1,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x00]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D ; encoding: [0x01,0x0f,0xa8,0xf1,0x00,0x00,0x40,0x00]			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D ; encoding: [0x01,0x0f,0xa8,0xf1,0x00,0x00,0x40,0x00]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_c_cd_2d:			; GFX10-LABEL: sample_c_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3 ; encoding: [0xff,0x06,0x06,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100 ; encoding: [0x03,0x00,0x44,0xd7,0x04,0x07,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1 ; encoding: [0xff,0x02,0x02,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100 ; encoding: [0x01,0x00,0x44,0xd7,0x02,0x03,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3 ; encoding: [0x03,0x00,0x6f,0xd7,0x04,0x21,0x0d,0x04]
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1 ; encoding: [0x01,0x00,0x6f,0xd7,0x02,0x21,0x05,0x04]
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa8,0xf1,0x00,0x00,0x40,0x00,0x01,0x03,0x05,0x06]			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa8,0xf1,0x00,0x00,0x40,0x00,0x01,0x03,0x05,0x06]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_1d:			; GFX10-LABEL: sample_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D ; encoding: [0x01,0x0f,0xa4,0xf1,0x00,0x00,0x40,0x00]			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D ; encoding: [0x01,0x0f,0xa4,0xf1,0x00,0x00,0x40,0x00]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_2d:			; GFX10-LABEL: sample_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2 ; encoding: [0xff,0x04,0x04,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd7,0x03,0x05,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100 ; encoding: [0x00,0x00,0x44,0xd7,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa4,0xf1,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x06]			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa4,0xf1,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x06]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_1d:			; GFX10-LABEL: sample_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D ; encoding: [0x01,0x0f,0xac,0xf1,0x00,0x00,0x40,0x00]			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D ; encoding: [0x01,0x0f,0xac,0xf1,0x00,0x00,0x40,0x00]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_2d:			; GFX10-LABEL: sample_c_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, v2 ; encoding: [0x02,0x03,0x10,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v8, v2 ; encoding: [0x02,0x03,0x10,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v3 ; encoding: [0xff,0x06,0x00,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v4, v4, v3, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd7,0x04,0x07,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1 ; encoding: [0xff,0x02,0x02,0x36,0xff,0xff,0x00,0x00]			; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100 ; encoding: [0x03,0x00,0x44,0xd7,0x08,0x03,0xfe,0x03,0x00,0x01,0x04,0x05]
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v0 ; encoding: [0x04,0x00,0x6f,0xd7,0x04,0x21,0x01,0x04]
	; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v1 ; encoding: [0x03,0x00,0x6f,0xd7,0x08,0x21,0x05,0x04]
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x09,0x0f,0xac,0xf1,0x02,0x00,0x40,0x00]			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x09,0x0f,0xac,0xf1,0x02,0x00,0x40,0x00]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 12 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.cd.g16.ll

	Show All 9 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_cd_2d:			; GFX10-LABEL: sample_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_c_cd_2d:			; GFX10-LABEL: sample_c_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_1d:			; GFX10-LABEL: sample_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_2d:			; GFX10-LABEL: sample_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_1d:			; GFX10-LABEL: sample_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_2d:			; GFX10-LABEL: sample_c_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, v2			; GFX10-NEXT: v_mov_b32_e32 v8, v2
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v4, v4, v3, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v1
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 12 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

Show All 18 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {
; GFX10-LABEL: sample_d_2d:		; GFX10-LABEL: sample_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10-NEXT: image_sample_d v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_d v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_d_2d:		; GFX10GISEL-LABEL: sample_d_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10GISEL-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r) {		define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r) {
; GFX10-LABEL: sample_d_3d:		; GFX10-LABEL: sample_d_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v15, v8		; GFX10-NEXT: v_mov_b32_e32 v15, v8
; GFX10-NEXT: v_mov_b32_e32 v8, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GFX10-NEXT: v_mov_b32_e32 v13, v5		; GFX10-NEXT: v_mov_b32_e32 v13, v5
; GFX10-NEXT: v_mov_b32_e32 v12, v4		; GFX10-NEXT: v_mov_b32_e32 v12, v4
; GFX10-NEXT: v_mov_b32_e32 v11, v3		; GFX10-NEXT: v_mov_b32_e32 v11, v3
; GFX10-NEXT: v_mov_b32_e32 v10, v2		; GFX10-NEXT: v_mov_b32_e32 v10, v2
; GFX10-NEXT: v_mov_b32_e32 v9, v1		; GFX10-NEXT: v_mov_b32_e32 v9, v1
; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0		; GFX10-NEXT: v_mov_b32_e32 v8, v0
		; GFX10-NEXT: v_perm_b32 v14, v7, v6, 0x5040100
; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16		; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_d_3d:		; GFX10GISEL-LABEL: sample_d_3d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
; GFX10GISEL-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8		; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
; GFX10GISEL-NEXT: v_lshl_or_b32 v6, v9, 16, v6		; GFX10GISEL-NEXT: v_perm_b32 v6, v9, v6, 0x5040100
; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16		; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {
; GFX10-LABEL: sample_c_d_2d:		; GFX10-LABEL: sample_c_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10-NEXT: image_sample_c_d v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_d v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_d_2d:		; GFX10GISEL-LABEL: sample_c_d_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10GISEL-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s, half %clamp) {
; GFX10-LABEL: sample_d_cl_1d:		; GFX10-LABEL: sample_d_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: image_sample_d_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_d_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_d_cl_1d:		; GFX10GISEL-LABEL: sample_d_cl_1d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10GISEL-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {
; GFX10-LABEL: sample_d_cl_2d:		; GFX10-LABEL: sample_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v11, v6		; GFX10-NEXT: v_mov_b32_e32 v11, v6
; GFX10-NEXT: v_mov_b32_e32 v6, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GFX10-NEXT: v_mov_b32_e32 v9, v3		; GFX10-NEXT: v_mov_b32_e32 v9, v3
; GFX10-NEXT: v_mov_b32_e32 v8, v2		; GFX10-NEXT: v_mov_b32_e32 v8, v2
; GFX10-NEXT: v_mov_b32_e32 v7, v1		; GFX10-NEXT: v_mov_b32_e32 v7, v1
; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0		; GFX10-NEXT: v_mov_b32_e32 v6, v0
		; GFX10-NEXT: v_perm_b32 v10, v5, v4, 0x5040100
; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_d_cl_2d:		; GFX10GISEL-LABEL: sample_d_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5		; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
; GFX10GISEL-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6		; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v7, 16, v4		; GFX10GISEL-NEXT: v_perm_b32 v4, v7, v4, 0x5040100
; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp) {
; GFX10-LABEL: sample_c_d_cl_1d:		; GFX10-LABEL: sample_c_d_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_d_cl_1d:		; GFX10GISEL-LABEL: sample_c_d_cl_1d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10GISEL-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {
; GFX10-LABEL: sample_c_d_cl_2d:		; GFX10-LABEL: sample_c_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v13, v7		; GFX10-NEXT: v_mov_b32_e32 v13, v7
; GFX10-NEXT: v_mov_b32_e32 v7, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v5
; GFX10-NEXT: v_mov_b32_e32 v11, v4		; GFX10-NEXT: v_mov_b32_e32 v11, v4
; GFX10-NEXT: v_mov_b32_e32 v10, v3		; GFX10-NEXT: v_mov_b32_e32 v10, v3
; GFX10-NEXT: v_mov_b32_e32 v9, v2		; GFX10-NEXT: v_mov_b32_e32 v9, v2
; GFX10-NEXT: v_mov_b32_e32 v8, v1		; GFX10-NEXT: v_mov_b32_e32 v8, v1
; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0		; GFX10-NEXT: v_mov_b32_e32 v7, v0
		; GFX10-NEXT: v_perm_b32 v12, v6, v5, 0x5040100
; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_d_cl_2d:		; GFX10GISEL-LABEL: sample_c_d_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6		; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
; GFX10GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7		; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
; GFX10GISEL-NEXT: v_lshl_or_b32 v5, v8, 16, v5		; GFX10GISEL-NEXT: v_perm_b32 v5, v8, v5, 0x5040100
; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {
; GFX10-LABEL: sample_cd_2d:		; GFX10-LABEL: sample_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10-NEXT: image_sample_cd v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_cd v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_cd_2d:		; GFX10GISEL-LABEL: sample_cd_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX10GISEL-NEXT: v_perm_b32 v4, v5, v4, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t) {
; GFX10-LABEL: sample_c_cd_2d:		; GFX10-LABEL: sample_c_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_cd_2d:		; GFX10GISEL-LABEL: sample_c_cd_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10GISEL-NEXT: v_perm_b32 v5, v6, v5, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v5, v6, 16, v5
; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s, half %clamp) {
; GFX10-LABEL: sample_cd_cl_1d:		; GFX10-LABEL: sample_cd_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: image_sample_cd_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_cd_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_cd_cl_1d:		; GFX10GISEL-LABEL: sample_cd_cl_1d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10GISEL-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {
; GFX10-LABEL: sample_cd_cl_2d:		; GFX10-LABEL: sample_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v11, v6		; GFX10-NEXT: v_mov_b32_e32 v11, v6
; GFX10-NEXT: v_mov_b32_e32 v6, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GFX10-NEXT: v_mov_b32_e32 v9, v3		; GFX10-NEXT: v_mov_b32_e32 v9, v3
; GFX10-NEXT: v_mov_b32_e32 v8, v2		; GFX10-NEXT: v_mov_b32_e32 v8, v2
; GFX10-NEXT: v_mov_b32_e32 v7, v1		; GFX10-NEXT: v_mov_b32_e32 v7, v1
; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0		; GFX10-NEXT: v_mov_b32_e32 v6, v0
		; GFX10-NEXT: v_perm_b32 v10, v5, v4, 0x5040100
; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_cd_cl_2d:		; GFX10GISEL-LABEL: sample_cd_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5		; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
; GFX10GISEL-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6		; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v7, 16, v4		; GFX10GISEL-NEXT: v_perm_b32 v4, v7, v4, 0x5040100
; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp) {
; GFX10-LABEL: sample_c_cd_cl_1d:		; GFX10-LABEL: sample_c_cd_cl_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_cd_cl_1d:		; GFX10GISEL-LABEL: sample_c_cd_cl_1d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10GISEL-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp) {
; GFX10-LABEL: sample_c_cd_cl_2d:		; GFX10-LABEL: sample_c_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v13, v7		; GFX10-NEXT: v_mov_b32_e32 v13, v7
; GFX10-NEXT: v_mov_b32_e32 v7, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v5
; GFX10-NEXT: v_mov_b32_e32 v11, v4		; GFX10-NEXT: v_mov_b32_e32 v11, v4
; GFX10-NEXT: v_mov_b32_e32 v10, v3		; GFX10-NEXT: v_mov_b32_e32 v10, v3
; GFX10-NEXT: v_mov_b32_e32 v9, v2		; GFX10-NEXT: v_mov_b32_e32 v9, v2
; GFX10-NEXT: v_mov_b32_e32 v8, v1		; GFX10-NEXT: v_mov_b32_e32 v8, v1
; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0		; GFX10-NEXT: v_mov_b32_e32 v7, v0
		; GFX10-NEXT: v_perm_b32 v12, v6, v5, 0x5040100
; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_cd_cl_2d:		; GFX10GISEL-LABEL: sample_c_cd_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6		; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
; GFX10GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7		; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
; GFX10GISEL-NEXT: v_lshl_or_b32 v5, v8, 16, v5		; GFX10GISEL-NEXT: v_perm_b32 v5, v8, v5, 0x5040100
; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16		; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice) {		define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice) {
; GFX10-LABEL: sample_c_d_o_2darray_V1:		; GFX10-LABEL: sample_c_d_o_2darray_V1:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v15, v8		; GFX10-NEXT: v_mov_b32_e32 v15, v8
; GFX10-NEXT: v_mov_b32_e32 v8, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GFX10-NEXT: v_mov_b32_e32 v13, v5		; GFX10-NEXT: v_mov_b32_e32 v13, v5
; GFX10-NEXT: v_mov_b32_e32 v12, v4		; GFX10-NEXT: v_mov_b32_e32 v12, v4
; GFX10-NEXT: v_mov_b32_e32 v11, v3		; GFX10-NEXT: v_mov_b32_e32 v11, v3
; GFX10-NEXT: v_mov_b32_e32 v10, v2		; GFX10-NEXT: v_mov_b32_e32 v10, v2
; GFX10-NEXT: v_mov_b32_e32 v9, v1		; GFX10-NEXT: v_mov_b32_e32 v9, v1
; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0		; GFX10-NEXT: v_mov_b32_e32 v8, v0
		; GFX10-NEXT: v_perm_b32 v14, v7, v6, 0x5040100
; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16		; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:		; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
; GFX10GISEL-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8		; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
; GFX10GISEL-NEXT: v_lshl_or_b32 v6, v9, 16, v6		; GFX10GISEL-NEXT: v_perm_b32 v6, v9, v6, 0x5040100
; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16		; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret float %v		ret float %v
}		}

define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice) {		define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice) {
; GFX10-LABEL: sample_c_d_o_2darray_V2:		; GFX10-LABEL: sample_c_d_o_2darray_V2:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v15, v8		; GFX10-NEXT: v_mov_b32_e32 v15, v8
; GFX10-NEXT: v_mov_b32_e32 v8, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GFX10-NEXT: v_mov_b32_e32 v13, v5		; GFX10-NEXT: v_mov_b32_e32 v13, v5
; GFX10-NEXT: v_mov_b32_e32 v12, v4		; GFX10-NEXT: v_mov_b32_e32 v12, v4
; GFX10-NEXT: v_mov_b32_e32 v11, v3		; GFX10-NEXT: v_mov_b32_e32 v11, v3
; GFX10-NEXT: v_mov_b32_e32 v10, v2		; GFX10-NEXT: v_mov_b32_e32 v10, v2
; GFX10-NEXT: v_mov_b32_e32 v9, v1		; GFX10-NEXT: v_mov_b32_e32 v9, v1
; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0		; GFX10-NEXT: v_mov_b32_e32 v8, v0
		; GFX10-NEXT: v_perm_b32 v14, v7, v6, 0x5040100
; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16		; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:		; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
; GFX10GISEL-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8		; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
; GFX10GISEL-NEXT: v_lshl_or_b32 v6, v9, 16, v6		; GFX10GISEL-NEXT: v_perm_b32 v6, v9, v6, 0x5040100
; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16		; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <2 x float> %v		ret <2 x float> %v
}		}

Show All 34 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_g16_noa16_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_g16_noa16_d_2d:		; GFX10-LABEL: sample_g16_noa16_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_d_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_d_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10GISEL-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10GISEL-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10GISEL-NEXT: v_lshl_or_b32 v1, v3, 16, v2
; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {		define amdgpu_ps <4 x float> @sample_g16_noa16_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
; GFX10-LABEL: sample_g16_noa16_d_3d:		; GFX10-LABEL: sample_g16_noa16_d_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v9, v3		; GFX10-NEXT: v_mov_b32_e32 v9, v3
; GFX10-NEXT: v_mov_b32_e32 v3, v2		; GFX10-NEXT: v_mov_b32_e32 v3, v2
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v2, v1, v0, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v9		; GFX10-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0
; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D		; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:		; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v3		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v3
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v2		; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v2
; GFX10GISEL-NEXT: v_and_b32_e32 v9, 0xffff, v9		; GFX10GISEL-NEXT: v_perm_b32 v2, v1, v0, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v2, v1, 16, v0		; GFX10GISEL-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v4, 16, v9
; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D		; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_g16_noa16_c_d_2d:		; GFX10-LABEL: sample_g16_noa16_c_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_c_d_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_c_d_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10GISEL-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10GISEL-NEXT: v_perm_b32 v2, v4, v3, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10GISEL-NEXT: v_lshl_or_b32 v2, v4, 16, v3
; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_g16_noa16_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_g16_noa16_d_cl_2d:		; GFX10-LABEL: sample_g16_noa16_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10GISEL-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10GISEL-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10GISEL-NEXT: v_lshl_or_b32 v1, v3, 16, v2
; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 14 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_g16_noa16_c_d_cl_2d:		; GFX10-LABEL: sample_g16_noa16_c_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v8, v2		; GFX10-NEXT: v_mov_b32_e32 v8, v2
; GFX10-NEXT: v_mov_b32_e32 v2, v0		; GFX10-NEXT: v_mov_b32_e32 v2, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v4, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v1
; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v2		; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v2
		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v3
; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0		; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX10GISEL-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v1, 0xffff, v3		; GFX10GISEL-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v3, v8, 16, v0
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v4, 16, v1
; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_g16_noa16_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_g16_noa16_cd_2d:		; GFX10-LABEL: sample_g16_noa16_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_cd_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_cd_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10GISEL-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10GISEL-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10GISEL-NEXT: v_lshl_or_b32 v1, v3, 16, v2
; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], [v0, v1, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_g16_noa16_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_g16_noa16_c_cd_2d:		; GFX10-LABEL: sample_g16_noa16_c_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10GISEL-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX10GISEL-NEXT: v_perm_b32 v2, v4, v3, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v1, v2, 16, v1
; GFX10GISEL-NEXT: v_lshl_or_b32 v2, v4, 16, v3
; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_g16_noa16_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_g16_noa16_cd_cl_2d:		; GFX10-LABEL: sample_g16_noa16_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10GISEL-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX10GISEL-NEXT: v_perm_b32 v1, v3, v2, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10GISEL-NEXT: v_lshl_or_b32 v1, v3, 16, v2
; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 14 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_g16_noa16_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_g16_noa16_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_g16_noa16_c_cd_cl_2d:		; GFX10-LABEL: sample_g16_noa16_c_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v8, v2		; GFX10-NEXT: v_mov_b32_e32 v8, v2
; GFX10-NEXT: v_mov_b32_e32 v2, v0		; GFX10-NEXT: v_mov_b32_e32 v2, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v3		; GFX10-NEXT: v_perm_b32 v4, v4, v3, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v1
; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_2d:		; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_2d:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v2		; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v2
		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v3
; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0		; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX10GISEL-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v1, 0xffff, v3		; GFX10GISEL-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v3, v8, 16, v0
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v4, 16, v1
; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps float @sample_g16_noa16_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {		define amdgpu_ps float @sample_g16_noa16_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
; GFX10-LABEL: sample_g16_noa16_c_d_o_2darray_V1:		; GFX10-LABEL: sample_g16_noa16_c_d_o_2darray_V1:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v9, v2		; GFX10-NEXT: v_mov_b32_e32 v9, v3
; GFX10-NEXT: v_mov_b32_e32 v10, v3		; GFX10-NEXT: v_mov_b32_e32 v10, v2
; GFX10-NEXT: v_mov_b32_e32 v3, v1		; GFX10-NEXT: v_mov_b32_e32 v3, v1
; GFX10-NEXT: v_mov_b32_e32 v2, v0		; GFX10-NEXT: v_mov_b32_e32 v2, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v5, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v9		; GFX10-NEXT: v_perm_b32 v4, v9, v10, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v1
; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY		; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_c_d_o_2darray_V1:		; GFX10GISEL-LABEL: sample_g16_noa16_c_d_o_2darray_V1:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v2		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v2
; GFX10GISEL-NEXT: v_mov_b32_e32 v10, v3		; GFX10GISEL-NEXT: v_mov_b32_e32 v10, v3
		; GFX10GISEL-NEXT: v_mov_b32_e32 v11, v4
; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0		; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0
; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v1		; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v1
; GFX10GISEL-NEXT: v_and_b32_e32 v1, 0xffff, v4		; GFX10GISEL-NEXT: v_perm_b32 v4, v10, v9, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v9		; GFX10GISEL-NEXT: v_perm_b32 v5, v5, v11, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v5, v5, 16, v1
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v10, 16, v0
; GFX10GISEL-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY		; GFX10GISEL-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret float %v		ret float %v
}		}

define amdgpu_ps <2 x float> @sample_g16_noa16_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {		define amdgpu_ps <2 x float> @sample_g16_noa16_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
; GFX10-LABEL: sample_g16_noa16_c_d_o_2darray_V2:		; GFX10-LABEL: sample_g16_noa16_c_d_o_2darray_V2:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v9, v2		; GFX10-NEXT: v_mov_b32_e32 v9, v3
; GFX10-NEXT: v_mov_b32_e32 v10, v3		; GFX10-NEXT: v_mov_b32_e32 v10, v2
; GFX10-NEXT: v_mov_b32_e32 v3, v1		; GFX10-NEXT: v_mov_b32_e32 v3, v1
; GFX10-NEXT: v_mov_b32_e32 v2, v0		; GFX10-NEXT: v_mov_b32_e32 v2, v0
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX10-NEXT: v_perm_b32 v5, v5, v4, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v9		; GFX10-NEXT: v_perm_b32 v4, v9, v10, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v0
; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v1
; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY		; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX10GISEL-LABEL: sample_g16_noa16_c_d_o_2darray_V2:		; GFX10GISEL-LABEL: sample_g16_noa16_c_d_o_2darray_V2:
; GFX10GISEL: ; %bb.0: ; %main_body		; GFX10GISEL: ; %bb.0: ; %main_body
; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v2		; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v2
; GFX10GISEL-NEXT: v_mov_b32_e32 v10, v3		; GFX10GISEL-NEXT: v_mov_b32_e32 v10, v3
		; GFX10GISEL-NEXT: v_mov_b32_e32 v11, v4
; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0		; GFX10GISEL-NEXT: v_mov_b32_e32 v2, v0
; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v1		; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v1
; GFX10GISEL-NEXT: v_and_b32_e32 v1, 0xffff, v4		; GFX10GISEL-NEXT: v_perm_b32 v4, v10, v9, 0x5040100
; GFX10GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v9		; GFX10GISEL-NEXT: v_perm_b32 v5, v5, v11, 0x5040100
; GFX10GISEL-NEXT: v_lshl_or_b32 v5, v5, 16, v1
; GFX10GISEL-NEXT: v_lshl_or_b32 v4, v10, 16, v0
; GFX10GISEL-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY		; GFX10GISEL-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY
; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)		; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
; GFX10GISEL-NEXT: ; return to shader part epilog		; GFX10GISEL-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <2 x float> %v		ret <2 x float> %v
}		}

Show All 25 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.encode.ll

Show All 16 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_d_2d:		; GFX10-LABEL: sample_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2 ; encoding: [0xff,0x04,0x04,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd7,0x03,0x05,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100 ; encoding: [0x00,0x00,0x44,0xd7,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]
; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0x88,0xf0,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x00]		; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0x88,0xf0,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x00]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: sample_d_2d:		; GFX11-LABEL: sample_d_2d:
; GFX11: ; %bb.0: ; %main_body		; GFX11: ; %bb.0: ; %main_body
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2 ; encoding: [0xff,0x04,0x04,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v2, v3, v2, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd6,0x03,0x05,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100 ; encoding: [0x00,0x00,0x44,0xd6,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2) ; encoding: [0x12,0x01,0x87,0xbf]
; GFX11-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x56,0xd6,0x03,0x21,0x09,0x04]
; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x56,0xd6,0x01,0x21,0x01,0x04]
; GFX11-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x05,0x0f,0xe4,0xf0,0x00,0x00,0x00,0x08,0x02,0x04,0x05,0x00]		; GFX11-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x05,0x0f,0xe4,0xf0,0x00,0x00,0x00,0x08,0x02,0x04,0x05,0x00]
; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]		; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]
; GFX11-NEXT: ; return to shader part epilog		; GFX11-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {		define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
; GFX10-LABEL: sample_d_3d:		; GFX10-LABEL: sample_d_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v3, v2 ; encoding: [0x02,0x03,0x06,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v3, v2 ; encoding: [0x02,0x03,0x06,0x7e]
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v2, v1, v0, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd7,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v9 ; encoding: [0xff,0x12,0x04,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v4, v4, v9, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd7,0x04,0x13,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v2 ; encoding: [0x04,0x00,0x6f,0xd7,0x04,0x21,0x09,0x04]
; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0 ; encoding: [0x02,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]
; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D ; encoding: [0x11,0x0f,0x88,0xf0,0x02,0x00,0x40,0x00]		; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D ; encoding: [0x11,0x0f,0x88,0xf0,0x02,0x00,0x40,0x00]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: sample_d_3d:		; GFX11-LABEL: sample_d_3d:
; GFX11: ; %bb.0: ; %main_body		; GFX11: ; %bb.0: ; %main_body
; GFX11-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v3, v2 ; encoding: [0x02,0x03,0x06,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v3, v2 ; encoding: [0x02,0x03,0x06,0x7e]
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v2, v1, v0, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd6,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_1) ; encoding: [0x93,0x00,0x87,0xbf]
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v9 ; encoding: [0xff,0x12,0x04,0x36,0xff,0xff,0x00,0x00]
; GFX11-NEXT: v_lshl_or_b32 v4, v4, 16, v2 ; encoding: [0x04,0x00,0x56,0xd6,0x04,0x21,0x09,0x04]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) ; encoding: [0x03,0x00,0x87,0xbf]		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) ; encoding: [0x03,0x00,0x87,0xbf]
; GFX11-NEXT: v_lshl_or_b32 v2, v1, 16, v0 ; encoding: [0x02,0x00,0x56,0xd6,0x01,0x21,0x01,0x04]		; GFX11-NEXT: v_perm_b32 v4, v4, v9, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd6,0x04,0x13,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D ; encoding: [0x08,0x0f,0xe4,0xf0,0x02,0x00,0x00,0x08]		; GFX11-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D ; encoding: [0x08,0x0f,0xe4,0xf0,0x02,0x00,0x00,0x08]
; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]		; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]
; GFX11-NEXT: ; return to shader part epilog		; GFX11-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_c_d_2d:		; GFX10-LABEL: sample_c_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3 ; encoding: [0xff,0x06,0x06,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100 ; encoding: [0x03,0x00,0x44,0xd7,0x04,0x07,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1 ; encoding: [0xff,0x02,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100 ; encoding: [0x01,0x00,0x44,0xd7,0x02,0x03,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3 ; encoding: [0x03,0x00,0x6f,0xd7,0x04,0x21,0x0d,0x04]
; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1 ; encoding: [0x01,0x00,0x6f,0xd7,0x02,0x21,0x05,0x04]
; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa8,0xf0,0x00,0x00,0x40,0x00,0x01,0x03,0x05,0x06]		; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa8,0xf0,0x00,0x00,0x40,0x00,0x01,0x03,0x05,0x06]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: sample_c_d_2d:		; GFX11-LABEL: sample_c_d_2d:
; GFX11: ; %bb.0: ; %main_body		; GFX11: ; %bb.0: ; %main_body
; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3 ; encoding: [0xff,0x06,0x06,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v3, v4, v3, 0x5040100 ; encoding: [0x03,0x00,0x44,0xd6,0x04,0x07,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1 ; encoding: [0xff,0x02,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v1, v2, v1, 0x5040100 ; encoding: [0x01,0x00,0x44,0xd6,0x02,0x03,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2) ; encoding: [0x12,0x01,0x87,0xbf]
; GFX11-NEXT: v_lshl_or_b32 v3, v4, 16, v3 ; encoding: [0x03,0x00,0x56,0xd6,0x04,0x21,0x0d,0x04]
; GFX11-NEXT: v_lshl_or_b32 v1, v2, 16, v1 ; encoding: [0x01,0x00,0x56,0xd6,0x02,0x21,0x05,0x04]
; GFX11-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x05,0x0f,0xe8,0xf0,0x00,0x00,0x00,0x08,0x01,0x03,0x05,0x06]		; GFX11-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x05,0x0f,0xe8,0xf0,0x00,0x00,0x00,0x08,0x01,0x03,0x05,0x06]
; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]		; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]
; GFX11-NEXT: ; return to shader part epilog		; GFX11-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 12 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_d_cl_2d:		; GFX10-LABEL: sample_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2 ; encoding: [0xff,0x04,0x04,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd7,0x03,0x05,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100 ; encoding: [0x00,0x00,0x44,0xd7,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]
; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0x8c,0xf0,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x06]		; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0x8c,0xf0,0x00,0x00,0x40,0x00,0x02,0x04,0x05,0x06]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: sample_d_cl_2d:		; GFX11-LABEL: sample_d_cl_2d:
; GFX11: ; %bb.0: ; %main_body		; GFX11: ; %bb.0: ; %main_body
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2 ; encoding: [0xff,0x04,0x04,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v2, v3, v2, 0x5040100 ; encoding: [0x02,0x00,0x44,0xd6,0x03,0x05,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0 ; encoding: [0xff,0x00,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100 ; encoding: [0x00,0x00,0x44,0xd6,0x01,0x01,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2) ; encoding: [0x12,0x01,0x87,0xbf]
; GFX11-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x56,0xd6,0x03,0x21,0x09,0x04]
; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x56,0xd6,0x01,0x21,0x01,0x04]
; GFX11-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x05,0x0f,0x7c,0xf1,0x00,0x00,0x00,0x08,0x02,0x04,0x05,0x06]		; GFX11-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x05,0x0f,0x7c,0xf1,0x00,0x00,0x00,0x08,0x02,0x04,0x05,0x06]
; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]		; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]
; GFX11-NEXT: ; return to shader part epilog		; GFX11-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

Show All 14 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_c_d_cl_2d:		; GFX10-LABEL: sample_c_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v8, v2 ; encoding: [0x02,0x03,0x10,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v8, v2 ; encoding: [0x02,0x03,0x10,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v3 ; encoding: [0xff,0x06,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v4, v4, v3, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd7,0x04,0x07,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1 ; encoding: [0xff,0x02,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100 ; encoding: [0x03,0x00,0x44,0xd7,0x08,0x03,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v0 ; encoding: [0x04,0x00,0x6f,0xd7,0x04,0x21,0x01,0x04]
; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v1 ; encoding: [0x03,0x00,0x6f,0xd7,0x08,0x21,0x05,0x04]
; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x09,0x0f,0xac,0xf0,0x02,0x00,0x40,0x00]		; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x09,0x0f,0xac,0xf0,0x02,0x00,0x40,0x00]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: sample_c_d_cl_2d:		; GFX11-LABEL: sample_c_d_cl_2d:
; GFX11: ; %bb.0: ; %main_body		; GFX11: ; %bb.0: ; %main_body
; GFX11-NEXT: v_mov_b32_e32 v8, v2 ; encoding: [0x02,0x03,0x10,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v8, v2 ; encoding: [0x02,0x03,0x10,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v3 ; encoding: [0xff,0x06,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v4, v4, v3, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd6,0x04,0x07,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1 ; encoding: [0xff,0x02,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) ; encoding: [0x03,0x00,0x87,0xbf]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2) ; encoding: [0x12,0x01,0x87,0xbf]		; GFX11-NEXT: v_perm_b32 v3, v8, v1, 0x5040100 ; encoding: [0x03,0x00,0x44,0xd6,0x08,0x03,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_lshl_or_b32 v4, v4, 16, v0 ; encoding: [0x04,0x00,0x56,0xd6,0x04,0x21,0x01,0x04]
; GFX11-NEXT: v_lshl_or_b32 v3, v8, 16, v1 ; encoding: [0x03,0x00,0x56,0xd6,0x08,0x21,0x05,0x04]
; GFX11-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x04,0x0f,0x50,0xf1,0x02,0x00,0x00,0x08]		; GFX11-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x04,0x0f,0x50,0xf1,0x02,0x00,0x00,0x08]
; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]		; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]
; GFX11-NEXT: ; return to shader part epilog		; GFX11-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {		define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
; GFX10-LABEL: sample_c_d_o_2darray_V1:		; GFX10-LABEL: sample_c_d_o_2darray_V1:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v9, v2 ; encoding: [0x02,0x03,0x12,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v10, v3 ; encoding: [0x03,0x03,0x14,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v10, v2 ; encoding: [0x02,0x03,0x14,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4 ; encoding: [0xff,0x08,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v5, v5, v4, 0x5040100 ; encoding: [0x05,0x00,0x44,0xd7,0x05,0x09,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v9 ; encoding: [0xff,0x12,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v4, v9, v10, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd7,0x09,0x15,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v0 ; encoding: [0x05,0x00,0x6f,0xd7,0x05,0x21,0x01,0x04]
; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v1 ; encoding: [0x04,0x00,0x6f,0xd7,0x0a,0x21,0x05,0x04]
; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x29,0x04,0xe8,0xf0,0x02,0x00,0x40,0x00]		; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x29,0x04,0xe8,0xf0,0x02,0x00,0x40,0x00]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: sample_c_d_o_2darray_V1:		; GFX11-LABEL: sample_c_d_o_2darray_V1:
; GFX11: ; %bb.0: ; %main_body		; GFX11: ; %bb.0: ; %main_body
; GFX11-NEXT: v_mov_b32_e32 v9, v2 ; encoding: [0x02,0x03,0x12,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v10, v3 ; encoding: [0x03,0x03,0x14,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v10, v2 ; encoding: [0x02,0x03,0x14,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v4 ; encoding: [0xff,0x08,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v5, v5, v4, 0x5040100 ; encoding: [0x05,0x00,0x44,0xd6,0x05,0x09,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v9 ; encoding: [0xff,0x12,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) ; encoding: [0x04,0x00,0x87,0xbf]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2) ; encoding: [0x12,0x01,0x87,0xbf]		; GFX11-NEXT: v_perm_b32 v4, v9, v10, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd6,0x09,0x15,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_lshl_or_b32 v5, v5, 16, v0 ; encoding: [0x05,0x00,0x56,0xd6,0x05,0x21,0x01,0x04]
; GFX11-NEXT: v_lshl_or_b32 v4, v10, 16, v1 ; encoding: [0x04,0x00,0x56,0xd6,0x0a,0x21,0x05,0x04]
; GFX11-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x14,0x04,0xf0,0xf0,0x02,0x00,0x00,0x08]		; GFX11-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x14,0x04,0xf0,0xf0,0x02,0x00,0x00,0x08]
; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]		; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]
; GFX11-NEXT: ; return to shader part epilog		; GFX11-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret float %v		ret float %v
}		}

define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {		define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
; GFX10-LABEL: sample_c_d_o_2darray_V2:		; GFX10-LABEL: sample_c_d_o_2darray_V2:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v9, v2 ; encoding: [0x02,0x03,0x12,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v10, v3 ; encoding: [0x03,0x03,0x14,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v10, v2 ; encoding: [0x02,0x03,0x14,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]
; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]		; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4 ; encoding: [0xff,0x08,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v5, v5, v4, 0x5040100 ; encoding: [0x05,0x00,0x44,0xd7,0x05,0x09,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v9 ; encoding: [0xff,0x12,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_perm_b32 v4, v9, v10, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd7,0x09,0x15,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v0 ; encoding: [0x05,0x00,0x6f,0xd7,0x05,0x21,0x01,0x04]
; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v1 ; encoding: [0x04,0x00,0x6f,0xd7,0x0a,0x21,0x05,0x04]
; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x29,0x06,0xe8,0xf0,0x02,0x00,0x40,0x00]		; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x29,0x06,0xe8,0xf0,0x02,0x00,0x40,0x00]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
;		;
; GFX11-LABEL: sample_c_d_o_2darray_V2:		; GFX11-LABEL: sample_c_d_o_2darray_V2:
; GFX11: ; %bb.0: ; %main_body		; GFX11: ; %bb.0: ; %main_body
; GFX11-NEXT: v_mov_b32_e32 v9, v2 ; encoding: [0x02,0x03,0x12,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v9, v3 ; encoding: [0x03,0x03,0x12,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v10, v3 ; encoding: [0x03,0x03,0x14,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v10, v2 ; encoding: [0x02,0x03,0x14,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v3, v1 ; encoding: [0x01,0x03,0x06,0x7e]
; GFX11-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]		; GFX11-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v4 ; encoding: [0xff,0x08,0x00,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: v_perm_b32 v5, v5, v4, 0x5040100 ; encoding: [0x05,0x00,0x44,0xd6,0x05,0x09,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v9 ; encoding: [0xff,0x12,0x02,0x36,0xff,0xff,0x00,0x00]		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) ; encoding: [0x04,0x00,0x87,0xbf]
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2) ; encoding: [0x12,0x01,0x87,0xbf]		; GFX11-NEXT: v_perm_b32 v4, v9, v10, 0x5040100 ; encoding: [0x04,0x00,0x44,0xd6,0x09,0x15,0xfe,0x03,0x00,0x01,0x04,0x05]
; GFX11-NEXT: v_lshl_or_b32 v5, v5, 16, v0 ; encoding: [0x05,0x00,0x56,0xd6,0x05,0x21,0x01,0x04]
; GFX11-NEXT: v_lshl_or_b32 v4, v10, 16, v1 ; encoding: [0x04,0x00,0x56,0xd6,0x0a,0x21,0x05,0x04]
; GFX11-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x14,0x06,0xf0,0xf0,0x02,0x00,0x00,0x08]		; GFX11-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY ; encoding: [0x14,0x06,0xf0,0xf0,0x02,0x00,0x00,0x08]
; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]		; GFX11-NEXT: s_waitcnt vmcnt(0) ; encoding: [0xf7,0x03,0x89,0xbf]
; GFX11-NEXT: ; return to shader part epilog		; GFX11-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <2 x float> %v		ret <2 x float> %v
}		}

Show All 16 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.ll

	Show All 10 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_d_2d:			; GFX10-LABEL: sample_d_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {			define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
	; GFX10-LABEL: sample_d_3d:			; GFX10-LABEL: sample_d_3d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v3			; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v3, v2			; GFX10-NEXT: v_mov_b32_e32 v3, v2
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v2, v1, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v9			; GFX10-NEXT: v_perm_b32 v4, v4, v9, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {			define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
	; GFX10-LABEL: sample_c_d_2d:			; GFX10-LABEL: sample_c_d_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v3, v4, v3, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v1, v2, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_d_cl_1d:			; GFX10-LABEL: sample_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_d_cl_2d:			; GFX10-LABEL: sample_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v2, v3, v2, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_d_cl_1d:			; GFX10-LABEL: sample_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
	; GFX10-LABEL: sample_c_d_cl_2d:			; GFX10-LABEL: sample_c_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, v2			; GFX10-NEXT: v_mov_b32_e32 v8, v2
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v3			; GFX10-NEXT: v_perm_b32 v4, v4, v3, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_perm_b32 v3, v8, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v3, v8, 16, v1
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {			define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
	; GFX10-LABEL: sample_c_d_o_2darray_V1:			; GFX10-LABEL: sample_c_d_o_2darray_V1:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v2			; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v10, v3			; GFX10-NEXT: v_mov_b32_e32 v10, v2
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v5, v5, v4, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v9			; GFX10-NEXT: v_perm_b32 v4, v9, v10, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v1
	; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY			; GFX10-NEXT: image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret float %v			ret float %v
	}			}

	define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {			define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
	; GFX10-LABEL: sample_c_d_o_2darray_V2:			; GFX10-LABEL: sample_c_d_o_2darray_V2:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v2			; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v10, v3			; GFX10-NEXT: v_mov_b32_e32 v10, v2
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: v_mov_b32_e32 v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v5, v5, v4, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v9			; GFX10-NEXT: v_perm_b32 v4, v9, v10, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v4, v10, 16, v1
	; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY			; GFX10-NEXT: image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <2 x float> %v			ret <2 x float> %v
	}			}

	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/load-hi16.ll

Show All 18 Lines
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_hi_v2i16_multi_use_lo:		; GFX906-LABEL: load_local_lo_hi_v2i16_multi_use_lo:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v1, v0		; GFX906-NEXT: ds_read_u16 v1, v0
; GFX906-NEXT: ds_read_u16 v0, v0 offset:16		; GFX906-NEXT: ds_read_u16 v0, v0 offset:16
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_mov_b32_e32 v2, 0		; GFX906-NEXT: v_mov_b32_e32 v2, 0
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: ds_write_b16 v2, v1		; GFX906-NEXT: ds_write_b16 v2, v1
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_hi_v2i16_multi_use_lo:		; GFX803-LABEL: load_local_lo_hi_v2i16_multi_use_lo:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v1, v0		; GFX803-NEXT: ds_read_u16 v1, v0
Show All 31 Lines
}		}

define <2 x i16> @load_local_lo_hi_v2i16_multi_use_hi(i16 addrspace(3)* noalias %in) #0 {		define <2 x i16> @load_local_lo_hi_v2i16_multi_use_hi(i16 addrspace(3)* noalias %in) #0 {
; GFX900-LABEL: load_local_lo_hi_v2i16_multi_use_hi:		; GFX900-LABEL: load_local_lo_hi_v2i16_multi_use_hi:
; GFX900: ; %bb.0: ; %entry		; GFX900: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v1, v0 offset:16		; GFX900-NEXT: ds_read_u16 v1, v0 offset:16
; GFX900-NEXT: ds_read_u16 v0, v0		; GFX900-NEXT: ds_read_u16 v0, v0
		; GFX900-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_mov_b32_e32 v2, 0		; GFX900-NEXT: v_mov_b32_e32 v2, 0
; GFX900-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-NEXT: ds_write_b16 v2, v1		; GFX900-NEXT: ds_write_b16 v2, v1
; GFX900-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_hi_v2i16_multi_use_hi:		; GFX906-LABEL: load_local_lo_hi_v2i16_multi_use_hi:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v1, v0 offset:16		; GFX906-NEXT: ds_read_u16 v1, v0 offset:16
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_mov_b32_e32 v2, 0		; GFX906-NEXT: v_mov_b32_e32 v2, 0
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: ds_write_b16 v2, v1		; GFX906-NEXT: ds_write_b16 v2, v1
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_hi_v2i16_multi_use_hi:		; GFX803-LABEL: load_local_lo_hi_v2i16_multi_use_hi:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v1, v0 offset:16		; GFX803-NEXT: ds_read_u16 v1, v0 offset:16
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: v_mov_b32_e32 v2, 0		; GFX803-NEXT: v_mov_b32_e32 v2, 0
; GFX803-NEXT: s_waitcnt lgkmcnt(1)		; GFX803-NEXT: s_waitcnt lgkmcnt(1)
; GFX803-NEXT: ds_write_b16 v2, v1		; GFX803-NEXT: ds_write_b16 v2, v1
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(1)		; GFX803-NEXT: s_waitcnt lgkmcnt(1)
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX900-FLATSCR-LABEL: load_local_lo_hi_v2i16_multi_use_hi:		; GFX900-FLATSCR-LABEL: load_local_lo_hi_v2i16_multi_use_hi:
; GFX900-FLATSCR: ; %bb.0: ; %entry		; GFX900-FLATSCR: ; %bb.0: ; %entry
; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-FLATSCR-NEXT: ds_read_u16 v1, v0 offset:16		; GFX900-FLATSCR-NEXT: ds_read_u16 v1, v0 offset:16
; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v2, 0		; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v2, 0
; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-FLATSCR-NEXT: ds_write_b16 v2, v1		; GFX900-FLATSCR-NEXT: ds_write_b16 v2, v1
; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-FLATSCR-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
; GFX900-FLATSCR-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 8		%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 8
%load.lo = load i16, i16 addrspace(3)* %in		%load.lo = load i16, i16 addrspace(3)* %in
%load.hi = load i16, i16 addrspace(3)* %gep		%load.hi = load i16, i16 addrspace(3)* %gep
store i16 %load.hi, i16 addrspace(3)* null		store i16 %load.hi, i16 addrspace(3)* null
%build0 = insertelement <2 x i16> undef, i16 %load.lo, i32 0		%build0 = insertelement <2 x i16> undef, i16 %load.lo, i32 0
%build1 = insertelement <2 x i16> %build0, i16 %load.hi, i32 1		%build1 = insertelement <2 x i16> %build0, i16 %load.hi, i32 1
ret <2 x i16> %build1		ret <2 x i16> %build1
}		}

define <2 x i16> @load_local_lo_hi_v2i16_multi_use_lohi(i16 addrspace(3)* noalias %in, i16 addrspace(3)* noalias %out0, i16 addrspace(3)* noalias %out1) #0 {		define <2 x i16> @load_local_lo_hi_v2i16_multi_use_lohi(i16 addrspace(3)* noalias %in, i16 addrspace(3)* noalias %out0, i16 addrspace(3)* noalias %out1) #0 {
; GFX900-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:		; GFX900-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:
; GFX900: ; %bb.0: ; %entry		; GFX900: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v3, v0		; GFX900-NEXT: ds_read_u16 v3, v0
; GFX900-NEXT: ds_read_u16 v0, v0 offset:16		; GFX900-NEXT: ds_read_u16 v0, v0 offset:16
		; GFX900-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-NEXT: ds_write_b16 v1, v3		; GFX900-NEXT: ds_write_b16 v1, v3
; GFX900-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-NEXT: ds_write_b16 v2, v0		; GFX900-NEXT: ds_write_b16 v2, v0
; GFX900-NEXT: v_and_b32_e32 v1, 0xffff, v3		; GFX900-NEXT: v_perm_b32 v0, v0, v3, s4
; GFX900-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:		; GFX906-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v3, v0		; GFX906-NEXT: ds_read_u16 v3, v0
; GFX906-NEXT: ds_read_u16 v0, v0 offset:16		; GFX906-NEXT: ds_read_u16 v0, v0 offset:16
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: ds_write_b16 v1, v3		; GFX906-NEXT: ds_write_b16 v1, v3
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: ds_write_b16 v2, v0		; GFX906-NEXT: ds_write_b16 v2, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v3		; GFX906-NEXT: v_perm_b32 v0, v0, v3, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:		; GFX803-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v3, v0		; GFX803-NEXT: ds_read_u16 v3, v0
; GFX803-NEXT: ds_read_u16 v0, v0 offset:16		; GFX803-NEXT: ds_read_u16 v0, v0 offset:16
; GFX803-NEXT: s_waitcnt lgkmcnt(1)		; GFX803-NEXT: s_waitcnt lgkmcnt(1)
; GFX803-NEXT: ds_write_b16 v1, v3		; GFX803-NEXT: ds_write_b16 v1, v3
; GFX803-NEXT: s_waitcnt lgkmcnt(1)		; GFX803-NEXT: s_waitcnt lgkmcnt(1)
; GFX803-NEXT: ds_write_b16 v2, v0		; GFX803-NEXT: ds_write_b16 v2, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX803-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX803-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX900-FLATSCR-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:		; GFX900-FLATSCR-LABEL: load_local_lo_hi_v2i16_multi_use_lohi:
; GFX900-FLATSCR: ; %bb.0: ; %entry		; GFX900-FLATSCR: ; %bb.0: ; %entry
; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-FLATSCR-NEXT: ds_read_u16 v3, v0		; GFX900-FLATSCR-NEXT: ds_read_u16 v3, v0
; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0 offset:16		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0 offset:16
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-FLATSCR-NEXT: ds_write_b16 v1, v3		; GFX900-FLATSCR-NEXT: ds_write_b16 v1, v3
; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(1)
; GFX900-FLATSCR-NEXT: ds_write_b16 v2, v0		; GFX900-FLATSCR-NEXT: ds_write_b16 v2, v0
; GFX900-FLATSCR-NEXT: v_and_b32_e32 v1, 0xffff, v3		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v0, v3, s0
; GFX900-FLATSCR-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 8		%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 8
%load.lo = load i16, i16 addrspace(3)* %in		%load.lo = load i16, i16 addrspace(3)* %in
%load.hi = load i16, i16 addrspace(3)* %gep		%load.hi = load i16, i16 addrspace(3)* %gep
store i16 %load.lo, i16 addrspace(3)* %out0		store i16 %load.lo, i16 addrspace(3)* %out0
store i16 %load.hi, i16 addrspace(3)* %out1		store i16 %load.hi, i16 addrspace(3)* %out1
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_mov_b32_e32 v0, v1		; GFX900-NEXT: v_mov_b32_e32 v0, v1
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2i16_reglo:		; GFX906-LABEL: load_local_hi_v2i16_reglo:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2i16_reglo:		; GFX803-LABEL: load_local_hi_v2i16_reglo:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
Show All 24 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2i16_reglo_vreg:		; GFX906-LABEL: load_local_hi_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg:		; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2f16_reglo_vreg:		; GFX906-LABEL: load_local_hi_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2f16_reglo_vreg:		; GFX803-LABEL: load_local_hi_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 30 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_local_hi_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u8 v0, v0		; GFX906-NEXT: ds_read_u8 v0, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 31 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_local_hi_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_i8 v0, v0		; GFX906-NEXT: ds_read_i8 v0, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 31 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_local_hi_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u8 v0, v0		; GFX906-NEXT: ds_read_u8 v0, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_local_hi_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 33 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_local_hi_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_i8 v0, v0		; GFX906-NEXT: ds_read_i8 v0, v0
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_local_hi_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 33 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_hi_v2i16_reglo_vreg:		; GFX906-LABEL: load_global_hi_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg:		; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_hi_v2f16_reglo_vreg:		; GFX906-LABEL: load_global_hi_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_hi_v2f16_reglo_vreg:		; GFX803-LABEL: load_global_hi_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_hi_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_global_hi_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 33 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_hi_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_global_hi_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 33 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_hi_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_global_hi_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_hi_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_global_hi_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 34 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_hi_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_global_hi_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_hi_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_global_hi_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 34 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_hi_v2i16_reglo_vreg:		; GFX906-LABEL: load_flat_hi_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ushort v0, v[0:1]		; GFX906-NEXT: flat_load_ushort v0, v[0:1]
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg:		; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ushort v0, v[0:1]		; GFX803-NEXT: flat_load_ushort v0, v[0:1]
Show All 29 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_hi_v2f16_reglo_vreg:		; GFX906-LABEL: load_flat_hi_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ushort v0, v[0:1]		; GFX906-NEXT: flat_load_ushort v0, v[0:1]
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_hi_v2f16_reglo_vreg:		; GFX803-LABEL: load_flat_hi_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ushort v0, v[0:1]		; GFX803-NEXT: flat_load_ushort v0, v[0:1]
Show All 29 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_hi_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_flat_hi_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ubyte v0, v[0:1]		; GFX906-NEXT: flat_load_ubyte v0, v[0:1]
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ubyte v0, v[0:1]		; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
Show All 30 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_hi_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_flat_hi_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_sbyte v0, v[0:1]		; GFX906-NEXT: flat_load_sbyte v0, v[0:1]
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_sbyte v0, v[0:1]		; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
Show All 30 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_hi_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_flat_hi_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ubyte v0, v[0:1]		; GFX906-NEXT: flat_load_ubyte v0, v[0:1]
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_hi_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_flat_hi_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ubyte v0, v[0:1]		; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
Show All 31 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_hi_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_flat_hi_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_sbyte v0, v[0:1]		; GFX906-NEXT: flat_load_sbyte v0, v[0:1]
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_hi_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_flat_hi_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_sbyte v0, v[0:1]		; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
Show All 31 Lines
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
Show All 30 Lines
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg:		; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg:		; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
Show All 31 Lines
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], 0 offset:4094 glc
Show All 31 Lines
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_nooff:		; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_nooff:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_nooff:		; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_nooff:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
Show All 30 Lines
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095		; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095		; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
Show All 31 Lines
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095		; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095		; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095		; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095		; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095		; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095		; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
Show All 32 Lines
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_zexti8:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_zexti8:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
Show All 32 Lines
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_sexti8:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_sexti8:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc
Show All 32 Lines
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_nooff_zexti8:		; GFX906-LABEL: load_private_hi_v2f16_reglo_vreg_nooff_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_nooff_zexti8:		; GFX803-LABEL: load_private_hi_v2f16_reglo_vreg_nooff_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_hi_v2i16_reglo_vreg:		; GFX906-LABEL: load_constant_hi_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_hi_v2i16_reglo_vreg:		; GFX803-LABEL: load_constant_hi_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_hi_v2f16_reglo_vreg:		; GFX906-LABEL: load_constant_hi_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_hi_v2f16_reglo_vreg:		; GFX803-LABEL: load_constant_hi_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_hi_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_constant_hi_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_hi_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_constant_hi_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 34 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_hi_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_constant_hi_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_hi_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_constant_hi_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v2, 0x7b
; GFX906-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen		; GFX906-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4058		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4058
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8_to_offset:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8_to_offset:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v2, 0x7b
; GFX906-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen		; GFX906-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4059		; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4059
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8_to_offset:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_sexti8_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
;		;
; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8_to_offset:		; GFX906-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8_to_offset:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v2, 0x7b
; GFX906-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen		; GFX906-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4059		; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4059
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8_to_offset:		; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_zexti8_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
; GFX900-NEXT: v_mov_b32_e32 v0, v1		; GFX900-NEXT: v_mov_b32_e32 v0, v1
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_v2i16_split_multi_chain:		; GFX906-LABEL: load_local_v2i16_split_multi_chain:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v1, v0		; GFX906-NEXT: ds_read_u16 v1, v0
; GFX906-NEXT: ds_read_u16 v0, v0 offset:2		; GFX906-NEXT: ds_read_u16 v0, v0 offset:2
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_v2i16_split_multi_chain:		; GFX803-LABEL: load_local_v2i16_split_multi_chain:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v1, v0		; GFX803-NEXT: ds_read_u16 v1, v0
; GFX803-NEXT: ds_read_u16 v0, v0 offset:2		; GFX803-NEXT: ds_read_u16 v0, v0 offset:2
Show All 31 Lines
; GFX900-NEXT: v_mov_b32_e32 v0, v1		; GFX900-NEXT: v_mov_b32_e32 v0, v1
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_hi_v2i16_samechain:		; GFX906-LABEL: load_local_lo_hi_v2i16_samechain:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v1, v0		; GFX906-NEXT: ds_read_u16 v1, v0
; GFX906-NEXT: ds_read_u16 v0, v0 offset:16		; GFX906-NEXT: ds_read_u16 v0, v0 offset:16
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_hi_v2i16_samechain:		; GFX803-LABEL: load_local_lo_hi_v2i16_samechain:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v1, v0 offset:16		; GFX803-NEXT: ds_read_u16 v1, v0 offset:16
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
Show All 22 Lines
}		}

; FIXME: Remove and		; FIXME: Remove and
define <2 x i16> @load_local_v2i16_broadcast(i16 addrspace(3)* %in) #0 {		define <2 x i16> @load_local_v2i16_broadcast(i16 addrspace(3)* %in) #0 {
; GFX900-LABEL: load_local_v2i16_broadcast:		; GFX900-LABEL: load_local_v2i16_broadcast:
; GFX900: ; %bb.0: ; %entry		; GFX900: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v0, v0		; GFX900-NEXT: ds_read_u16 v0, v0
		; GFX900-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX900-NEXT: v_perm_b32 v0, v0, v0, s4
; GFX900-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_v2i16_broadcast:		; GFX906-LABEL: load_local_v2i16_broadcast:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v0, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_v2i16_broadcast:		; GFX803-LABEL: load_local_v2i16_broadcast:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v0		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v0
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX900-FLATSCR-LABEL: load_local_v2i16_broadcast:		; GFX900-FLATSCR-LABEL: load_local_v2i16_broadcast:
; GFX900-FLATSCR: ; %bb.0: ; %entry		; GFX900-FLATSCR: ; %bb.0: ; %entry
; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-FLATSCR-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v0, v0, s0
; GFX900-FLATSCR-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 1		%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 1
%load0 = load i16, i16 addrspace(3)* %in		%load0 = load i16, i16 addrspace(3)* %in
%build0 = insertelement <2 x i16> undef, i16 %load0, i32 0		%build0 = insertelement <2 x i16> undef, i16 %load0, i32 0
%build1 = insertelement <2 x i16> %build0, i16 %load0, i32 1		%build1 = insertelement <2 x i16> %build0, i16 %load0, i32 1
ret <2 x i16> %build1		ret <2 x i16> %build1
}		}
Show All 13 Lines
;		;
; GFX906-LABEL: load_local_lo_hi_v2i16_side_effect:		; GFX906-LABEL: load_local_lo_hi_v2i16_side_effect:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v3, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v3, 0x7b
; GFX906-NEXT: ds_read_u16 v2, v0		; GFX906-NEXT: ds_read_u16 v2, v0
; GFX906-NEXT: ds_write_b16 v1, v3		; GFX906-NEXT: ds_write_b16 v1, v3
; GFX906-NEXT: ds_read_u16 v0, v0 offset:16		; GFX906-NEXT: ds_read_u16 v0, v0 offset:16
; GFX906-NEXT: s_waitcnt lgkmcnt(2)		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v2, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_hi_v2i16_side_effect:		; GFX803-LABEL: load_local_lo_hi_v2i16_side_effect:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: v_mov_b32_e32 v3, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v3, 0x7b
; GFX803-NEXT: ds_read_u16 v2, v0		; GFX803-NEXT: ds_read_u16 v2, v0
Show All 39 Lines
;		;
; GFX906-LABEL: load_global_v2i16_split:		; GFX906-LABEL: load_global_v2i16_split:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v2, v[0:1], off glc		; GFX906-NEXT: global_load_ushort v2, v[0:1], off glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: global_load_ushort v3, v[0:1], off offset:2 glc		; GFX906-NEXT: global_load_ushort v3, v[0:1], off offset:2 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v3, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v3, v2, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_v2i16_split:		; GFX803-LABEL: load_global_v2i16_split:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v2, vcc, 2, v0		; GFX803-NEXT: v_add_u32_e32 v2, vcc, 2, v0
; GFX803-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; GFX803-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; GFX803-NEXT: flat_load_ushort v0, v[0:1] glc		; GFX803-NEXT: flat_load_ushort v0, v[0:1] glc
Show All 35 Lines
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_v2i16_split:		; GFX906-LABEL: load_flat_v2i16_split:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ushort v2, v[0:1] glc		; GFX906-NEXT: flat_load_ushort v2, v[0:1] glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: flat_load_ushort v3, v[0:1] offset:2 glc		; GFX906-NEXT: flat_load_ushort v3, v[0:1] offset:2 glc
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v2		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v3, 16, v0		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
		; GFX906-NEXT: v_perm_b32 v0, v3, v2, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_v2i16_split:		; GFX803-LABEL: load_flat_v2i16_split:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v2, vcc, 2, v0		; GFX803-NEXT: v_add_u32_e32 v2, vcc, 2, v0
; GFX803-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; GFX803-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; GFX803-NEXT: flat_load_ushort v0, v[0:1] glc		; GFX803-NEXT: flat_load_ushort v0, v[0:1] glc
Show All 34 Lines
; GFX900-NEXT: v_mov_b32_e32 v0, v2		; GFX900-NEXT: v_mov_b32_e32 v0, v2
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_v2i16_split:		; GFX906-LABEL: load_constant_v2i16_split:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v2, v[0:1], off glc		; GFX906-NEXT: global_load_ushort v2, v[0:1], off glc
; GFX906-NEXT: global_load_ushort v3, v[0:1], off offset:2 glc		; GFX906-NEXT: global_load_ushort v3, v[0:1], off offset:2 glc
; GFX906-NEXT: s_waitcnt vmcnt(1)		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshl_or_b32 v0, v3, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v3, v2, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_v2i16_split:		; GFX803-LABEL: load_constant_v2i16_split:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v2, vcc, 2, v0		; GFX803-NEXT: v_add_u32_e32 v2, vcc, 2, v0
; GFX803-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; GFX803-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; GFX803-NEXT: flat_load_ushort v0, v[0:1] glc		; GFX803-NEXT: flat_load_ushort v0, v[0:1] glc
Show All 35 Lines
;		;
; GFX906-LABEL: load_private_v2i16_split:		; GFX906-LABEL: load_private_v2i16_split:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], s32 glc		; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], s32 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:2 glc		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:2 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_v2i16_split:		; GFX803-LABEL: load_private_v2i16_split:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], s32 glc		; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], s32 glc
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:2 glc		; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:2 glc
Show All 33 Lines
; GFX900-NEXT: v_mov_b32_e32 v0, v2		; GFX900-NEXT: v_mov_b32_e32 v0, v2
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_hi_v2i16_store_local_lo:		; GFX906-LABEL: load_local_hi_v2i16_store_local_lo:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v2, v1		; GFX906-NEXT: ds_read_u16 v2, v1
; GFX906-NEXT: v_and_b32_e32 v3, 0xffff, v0		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: ds_write_b16 v1, v0		; GFX906-NEXT: ds_write_b16 v1, v0
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: v_lshl_or_b32 v2, v2, 16, v3		; GFX906-NEXT: v_perm_b32 v2, v2, v0, s4
; GFX906-NEXT: v_mov_b32_e32 v0, v2		; GFX906-NEXT: v_mov_b32_e32 v0, v2
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_hi_v2i16_store_local_lo:		; GFX803-LABEL: load_local_hi_v2i16_store_local_lo:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 20 Lines	entry:
%load = load i16, i16 addrspace(3)* %in		%load = load i16, i16 addrspace(3)* %in
%build0 = insertelement <2 x i16> undef, i16 %reg, i32 0		%build0 = insertelement <2 x i16> undef, i16 %reg, i32 0
%build1 = insertelement <2 x i16> %build0, i16 %load, i32 1		%build1 = insertelement <2 x i16> %build0, i16 %load, i32 1
store volatile i16 %reg, i16 addrspace(3)* %in		store volatile i16 %reg, i16 addrspace(3)* %in
ret <2 x i16> %build1		ret <2 x i16> %build1
}		}

attributes #0 = { nounwind }		attributes #0 = { nounwind }

llvm/test/CodeGen/AMDGPU/load-lo16.ll

Show All 27 Lines
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i16, i16 addrspace(3)* %in		%load = load i16, i16 addrspace(3)* %in
%build = insertelement <2 x i16> undef, i16 %load, i32 0		%build = insertelement <2 x i16> undef, i16 %load, i32 0
ret <2 x i16> %build		ret <2 x i16> %build
}		}

define <2 x i16> @load_local_lo_v2i16_reglo(i16 addrspace(3)* %in, i16 %reg) #0 {		define <2 x i16> @load_local_lo_v2i16_reglo(i16 addrspace(3)* %in, i16 %reg) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reglo:		; GFX900-MUBUF-LABEL: load_local_lo_v2i16_reglo:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v0, v0		; GFX900-MUBUF-NEXT: ds_read_u16 v0, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reglo:		; GFX906-LABEL: load_local_lo_v2i16_reglo:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reglo:		; GFX803-LABEL: load_local_lo_v2i16_reglo:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2i16_reglo:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i16, i16 addrspace(3)* %in		%load = load i16, i16 addrspace(3)* %in
%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1		%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0		%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0
ret <2 x i16> %build1		ret <2 x i16> %build1
}		}

; Show that we get reasonable regalloc without physreg constraints.		; Show that we get reasonable regalloc without physreg constraints.
define void @load_local_lo_v2i16_reglo_vreg(i16 addrspace(3)* %in, i16 %reg) #0 {		define void @load_local_lo_v2i16_reglo_vreg(i16 addrspace(3)* %in, i16 %reg) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reglo_vreg:		; GFX900-MUBUF-LABEL: load_local_lo_v2i16_reglo_vreg:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v0, v0		; GFX900-MUBUF-NEXT: ds_read_u16 v0, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reglo_vreg:		; GFX906-LABEL: load_local_lo_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reglo_vreg:		; GFX803-LABEL: load_local_lo_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2i16_reglo_vreg:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i16, i16 addrspace(3)* %in		%load = load i16, i16 addrspace(3)* %in
%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1		%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0		%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}

Show All 38 Lines
; GFX900-NEXT: v_mov_b32_e32 v0, v1		; GFX900-NEXT: v_mov_b32_e32 v0, v1
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2f16_fpimm:		; GFX906-LABEL: load_local_lo_v2f16_fpimm:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
; GFX906-NEXT: s_movk_i32 s4, 0x4000		; GFX906-NEXT: s_movk_i32 s4, 0x4000
		; GFX906-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, s4, v0, v1
; GFX906-NEXT: v_lshl_or_b32 v0, s4, 16, v0
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2f16_fpimm:		; GFX803-LABEL: load_local_lo_v2f16_fpimm:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
Show All 14 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2f16_reghi_vreg:		; GFX906-LABEL: load_local_lo_v2f16_reghi_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2f16_reghi_vreg:		; GFX803-LABEL: load_local_lo_v2f16_reghi_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1		; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%reg.bc = bitcast i32 %reg to <2 x half>		%reg.bc = bitcast i32 %reg to <2 x half>
%load = load half, half addrspace(3)* %in		%load = load half, half addrspace(3)* %in
%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0		%build1 = insertelement <2 x half> %reg.bc, half %load, i32 0
store <2 x half> %build1, <2 x half> addrspace(1)* undef		store <2 x half> %build1, <2 x half> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2f16_reglo_vreg(half addrspace(3)* %in, half %reg) #0 {		define void @load_local_lo_v2f16_reglo_vreg(half addrspace(3)* %in, half %reg) #0 {
; GFX900-LABEL: load_local_lo_v2f16_reglo_vreg:		; GFX900-MUBUF-LABEL: load_local_lo_v2f16_reglo_vreg:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v0, v0		; GFX900-MUBUF-NEXT: ds_read_u16 v0, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2f16_reglo_vreg:		; GFX906-LABEL: load_local_lo_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2f16_reglo_vreg:		; GFX803-LABEL: load_local_lo_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2f16_reglo_vreg:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load half, half addrspace(3)* %in		%load = load half, half addrspace(3)* %in
%build0 = insertelement <2 x half> undef, half %reg, i32 1		%build0 = insertelement <2 x half> undef, half %reg, i32 1
%build1 = insertelement <2 x half> %build0, half %load, i32 0		%build1 = insertelement <2 x half> %build0, half %load, i32 0
store <2 x half> %build1, <2 x half> addrspace(1)* undef		store <2 x half> %build1, <2 x half> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2i16_reghi_vreg_zexti8(i8 addrspace(3)* %in, i32 %reg) #0 {		define void @load_local_lo_v2i16_reghi_vreg_zexti8(i8 addrspace(3)* %in, i32 %reg) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reghi_vreg_zexti8:		; GFX900-LABEL: load_local_lo_v2i16_reghi_vreg_zexti8:
; GFX900: ; %bb.0: ; %entry		; GFX900: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u8_d16 v1, v0		; GFX900-NEXT: ds_read_u8_d16 v1, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_zexti8:		; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u8 v0, v0		; GFX906-NEXT: ds_read_u8 v0, v0
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_zexti8:		; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 9 Lines	entry:
%load = load i8, i8 addrspace(3)* %in		%load = load i8, i8 addrspace(3)* %in
%ext = zext i8 %load to i16		%ext = zext i8 %load to i16
%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0		%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2i16_reglo_vreg_zexti8(i8 addrspace(3)* %in, i16 %reg) #0 {		define void @load_local_lo_v2i16_reglo_vreg_zexti8(i8 addrspace(3)* %in, i16 %reg) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reglo_vreg_zexti8:		; GFX900-MUBUF-LABEL: load_local_lo_v2i16_reglo_vreg_zexti8:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u8 v0, v0		; GFX900-MUBUF-NEXT: ds_read_u8 v0, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_local_lo_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u8 v0, v0		; GFX906-NEXT: ds_read_u8 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_local_lo_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u8 v0, v0		; GFX803-NEXT: ds_read_u8 v0, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2i16_reglo_vreg_zexti8:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_u8 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i8, i8 addrspace(3)* %in		%load = load i8, i8 addrspace(3)* %in
%ext = zext i8 %load to i16		%ext = zext i8 %load to i16
%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1		%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0		%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2i16_reghi_vreg_sexti8(i8 addrspace(3)* %in, i32 %reg) #0 {		define void @load_local_lo_v2i16_reghi_vreg_sexti8(i8 addrspace(3)* %in, i32 %reg) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reghi_vreg_sexti8:		; GFX900-LABEL: load_local_lo_v2i16_reghi_vreg_sexti8:
; GFX900: ; %bb.0: ; %entry		; GFX900: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_i8_d16 v1, v0		; GFX900-NEXT: ds_read_i8_d16 v1, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_sexti8:		; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_i8 v0, v0		; GFX906-NEXT: ds_read_i8 v0, v0
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_sexti8:		; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 9 Lines	entry:
%load = load i8, i8 addrspace(3)* %in		%load = load i8, i8 addrspace(3)* %in
%ext = sext i8 %load to i16		%ext = sext i8 %load to i16
%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0		%build1 = insertelement <2 x i16> %reg.bc, i16 %ext, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2i16_reglo_vreg_sexti8(i8 addrspace(3)* %in, i16 %reg) #0 {		define void @load_local_lo_v2i16_reglo_vreg_sexti8(i8 addrspace(3)* %in, i16 %reg) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reglo_vreg_sexti8:		; GFX900-MUBUF-LABEL: load_local_lo_v2i16_reglo_vreg_sexti8:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_i8 v0, v0		; GFX900-MUBUF-NEXT: ds_read_i8 v0, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_local_lo_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_i8 v0, v0		; GFX906-NEXT: ds_read_i8 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_local_lo_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_i8 v0, v0		; GFX803-NEXT: ds_read_i8 v0, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2i16_reglo_vreg_sexti8:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_i8 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i8, i8 addrspace(3)* %in		%load = load i8, i8 addrspace(3)* %in
%ext = sext i8 %load to i16		%ext = sext i8 %load to i16
%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1		%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0		%build1 = insertelement <2 x i16> %build0, i16 %ext, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2f16_reglo_vreg_zexti8(i8 addrspace(3)* %in, half %reg) #0 {		define void @load_local_lo_v2f16_reglo_vreg_zexti8(i8 addrspace(3)* %in, half %reg) #0 {
; GFX900-LABEL: load_local_lo_v2f16_reglo_vreg_zexti8:		; GFX900-MUBUF-LABEL: load_local_lo_v2f16_reglo_vreg_zexti8:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u8 v0, v0		; GFX900-MUBUF-NEXT: ds_read_u8 v0, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_local_lo_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u8 v0, v0		; GFX906-NEXT: ds_read_u8 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_local_lo_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u8 v0, v0		; GFX803-NEXT: ds_read_u8 v0, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_e32 v0, v0, v1		; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2f16_reglo_vreg_zexti8:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_u8 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i8, i8 addrspace(3)* %in		%load = load i8, i8 addrspace(3)* %in
%ext = zext i8 %load to i16		%ext = zext i8 %load to i16
%bitcast = bitcast i16 %ext to half		%bitcast = bitcast i16 %ext to half
%build0 = insertelement <2 x half> undef, half %reg, i32 1		%build0 = insertelement <2 x half> undef, half %reg, i32 1
%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0		%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0
store <2 x half> %build1, <2 x half> addrspace(1)* undef		store <2 x half> %build1, <2 x half> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2f16_reglo_vreg_sexti8(i8 addrspace(3)* %in, half %reg) #0 {		define void @load_local_lo_v2f16_reglo_vreg_sexti8(i8 addrspace(3)* %in, half %reg) #0 {
; GFX900-LABEL: load_local_lo_v2f16_reglo_vreg_sexti8:		; GFX900-MUBUF-LABEL: load_local_lo_v2f16_reglo_vreg_sexti8:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_i8 v0, v0		; GFX900-MUBUF-NEXT: ds_read_i8 v0, v0
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_local_lo_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_i8 v0, v0		; GFX906-NEXT: ds_read_i8 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_local_lo_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_i8 v0, v0		; GFX803-NEXT: ds_read_i8 v0, v0
; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2f16_reglo_vreg_sexti8:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_i8 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v1, v0, s0
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i8, i8 addrspace(3)* %in		%load = load i8, i8 addrspace(3)* %in
%ext = sext i8 %load to i16		%ext = sext i8 %load to i16
%bitcast = bitcast i16 %ext to half		%bitcast = bitcast i16 %ext to half
%build0 = insertelement <2 x half> undef, half %reg, i32 1		%build0 = insertelement <2 x half> undef, half %reg, i32 1
%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0		%build1 = insertelement <2 x half> %build0, half %bitcast, i32 0
store <2 x half> %build1, <2 x half> addrspace(1)* undef		store <2 x half> %build1, <2 x half> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2i16_reghi_vreg_multi_use_lo(i16 addrspace(3)* %in, <2 x i16> %reg) #0 {		define void @load_local_lo_v2i16_reghi_vreg_multi_use_lo(i16 addrspace(3)* %in, <2 x i16> %reg) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lo:		; GFX900-MUBUF-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lo:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v0, v0		; GFX900-MUBUF-NEXT: ds_read_u16 v0, v0
; GFX900-NEXT: v_mov_b32_e32 v2, 0		; GFX900-MUBUF-NEXT: v_mov_b32_e32 v2, 0
; GFX900-NEXT: v_mov_b32_e32 v3, 0xffff		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0xffff
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: ds_write_b16 v2, v0		; GFX900-MUBUF-NEXT: ds_write_b16 v2, v0
; GFX900-NEXT: v_bfi_b32 v0, v3, v0, v1		; GFX900-MUBUF-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lo:		; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lo:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
; GFX906-NEXT: v_mov_b32_e32 v2, 0		; GFX906-NEXT: v_mov_b32_e32 v2, 0
; GFX906-NEXT: v_mov_b32_e32 v3, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: ds_write_b16 v2, v0		; GFX906-NEXT: ds_write_b16 v2, v0
; GFX906-NEXT: v_bfi_b32 v0, v3, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lo:		; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lo:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: v_mov_b32_e32 v2, 0		; GFX803-NEXT: v_mov_b32_e32 v2, 0
; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1		; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: ds_write_b16 v2, v0		; GFX803-NEXT: ds_write_b16 v2, v0
; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lo:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0
		; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v2, 0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0xffff
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_write_b16 v2, v0
		; GFX900-FLATSCR-NEXT: v_bfi_b32 v0, s0, v0, v1
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i16, i16 addrspace(3)* %in		%load = load i16, i16 addrspace(3)* %in
%elt1 = extractelement <2 x i16> %reg, i32 1		%elt1 = extractelement <2 x i16> %reg, i32 1
store i16 %load, i16 addrspace(3)* null		store i16 %load, i16 addrspace(3)* null
%build1 = insertelement <2 x i16> %reg, i16 %load, i32 0		%build1 = insertelement <2 x i16> %reg, i16 %load, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}
Show All 10 Lines
; GFX900-NEXT: global_store_dword v[0:1], v1, off		; GFX900-NEXT: global_store_dword v[0:1], v1, off
; GFX900-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_hi:		; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_hi:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_lshrrev_b32_e32 v2, 16, v1		; GFX906-NEXT: v_lshrrev_b32_e32 v2, 16, v1
; GFX906-NEXT: v_mov_b32_e32 v3, 0		; GFX906-NEXT: v_mov_b32_e32 v3, 0
; GFX906-NEXT: ds_write_b16 v3, v2		; GFX906-NEXT: ds_write_b16 v3, v2
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX906-NEXT: s_waitcnt lgkmcnt(1)		; GFX906-NEXT: s_waitcnt lgkmcnt(1)
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_hi:		; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_hi:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
Show All 12 Lines	entry:
%elt1 = extractelement <2 x i16> %reg, i32 1		%elt1 = extractelement <2 x i16> %reg, i32 1
store i16 %elt1, i16 addrspace(3)* null		store i16 %elt1, i16 addrspace(3)* null
%build1 = insertelement <2 x i16> %reg, i16 %load, i32 0		%build1 = insertelement <2 x i16> %reg, i16 %load, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}

define void @load_local_lo_v2i16_reghi_vreg_multi_use_lohi(i16 addrspace(3)* noalias %in, <2 x i16> %reg, i16 addrspace(3)* noalias %out0, i16 addrspace(3)* noalias %out1) #0 {		define void @load_local_lo_v2i16_reghi_vreg_multi_use_lohi(i16 addrspace(3)* noalias %in, <2 x i16> %reg, i16 addrspace(3)* noalias %out0, i16 addrspace(3)* noalias %out1) #0 {
; GFX900-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lohi:		; GFX900-MUBUF-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lohi:
; GFX900: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: ds_read_u16 v0, v0		; GFX900-MUBUF-NEXT: ds_read_u16 v0, v0
; GFX900-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0xffff
; GFX900-NEXT: s_waitcnt lgkmcnt(0)		; GFX900-MUBUF-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX900-NEXT: ds_write_b16 v2, v0		; GFX900-MUBUF-NEXT: s_waitcnt lgkmcnt(0)
; GFX900-NEXT: ds_write_b16 v3, v4		; GFX900-MUBUF-NEXT: ds_write_b16 v2, v0
; GFX900-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX900-MUBUF-NEXT: ds_write_b16 v3, v4
; GFX900-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX900-MUBUF-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX900-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lohi:		; GFX906-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lohi:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: ds_read_u16 v0, v0		; GFX906-NEXT: ds_read_u16 v0, v0
		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX906-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX906-NEXT: s_waitcnt lgkmcnt(0)		; GFX906-NEXT: s_waitcnt lgkmcnt(0)
; GFX906-NEXT: ds_write_b16 v2, v0		; GFX906-NEXT: ds_write_b16 v2, v0
; GFX906-NEXT: ds_write_b16 v3, v4		; GFX906-NEXT: ds_write_b16 v3, v4
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lohi:		; GFX803-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lohi:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_mov_b32 m0, -1		; GFX803-NEXT: s_mov_b32 m0, -1
; GFX803-NEXT: ds_read_u16 v0, v0		; GFX803-NEXT: ds_read_u16 v0, v0
; GFX803-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX803-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1		; GFX803-NEXT: v_and_b32_e32 v1, 0xffff0000, v1
; GFX803-NEXT: s_waitcnt lgkmcnt(0)		; GFX803-NEXT: s_waitcnt lgkmcnt(0)
; GFX803-NEXT: ds_write_b16 v2, v0		; GFX803-NEXT: ds_write_b16 v2, v0
; GFX803-NEXT: ds_write_b16 v3, v4		; GFX803-NEXT: ds_write_b16 v3, v4
; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-FLATSCR-LABEL: load_local_lo_v2i16_reghi_vreg_multi_use_lohi:
		; GFX900-FLATSCR: ; %bb.0: ; %entry
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_read_u16 v0, v0
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0xffff
		; GFX900-FLATSCR-NEXT: v_lshrrev_b32_e32 v4, 16, v1
		; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: ds_write_b16 v2, v0
		; GFX900-FLATSCR-NEXT: ds_write_b16 v3, v4
		; GFX900-FLATSCR-NEXT: v_bfi_b32 v0, s0, v0, v1
		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%load = load i16, i16 addrspace(3)* %in		%load = load i16, i16 addrspace(3)* %in
%elt1 = extractelement <2 x i16> %reg, i32 1		%elt1 = extractelement <2 x i16> %reg, i32 1
store i16 %load, i16 addrspace(3)* %out0		store i16 %load, i16 addrspace(3)* %out0
store i16 %elt1, i16 addrspace(3)* %out1		store i16 %elt1, i16 addrspace(3)* %out1
%build1 = insertelement <2 x i16> %reg, i16 %load, i32 0		%build1 = insertelement <2 x i16> %reg, i16 %load, i32 0
store <2 x i16> %build1, <2 x i16> addrspace(1)* undef		store <2 x i16> %build1, <2 x i16> addrspace(1)* undef
ret void		ret void
}		}

define void @load_global_lo_v2i16_reglo_vreg(i16 addrspace(1)* %in, i32 %reg) #0 {		define void @load_global_lo_v2i16_reglo_vreg(i16 addrspace(1)* %in, i32 %reg) #0 {
; GFX900-LABEL: load_global_lo_v2i16_reglo_vreg:		; GFX900-LABEL: load_global_lo_v2i16_reglo_vreg:
; GFX900: ; %bb.0: ; %entry		; GFX900: ; %bb.0: ; %entry
; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-NEXT: global_load_short_d16 v2, v[0:1], off offset:-4094		; GFX900-NEXT: global_load_short_d16 v2, v[0:1], off offset:-4094
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_lo_v2i16_reglo_vreg:		; GFX906-LABEL: load_global_lo_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v1, v0, v2		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg:		; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 23 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_lo_v2f16_reglo_vreg:		; GFX906-LABEL: load_global_lo_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg:		; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 23 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_lo_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_global_lo_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v1, v0, v2		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 24 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_lo_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_global_lo_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v1, v0, v2		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_global_lo_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 24 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_lo_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_global_lo_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 25 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_global_lo_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_global_lo_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_global_lo_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 25 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_lo_v2i16_reghi_vreg:		; GFX906-LABEL: load_flat_lo_v2i16_reghi_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ushort v0, v[0:1]		; GFX906-NEXT: flat_load_ushort v0, v[0:1]
; GFX906-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v1, v0, v2		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_lo_v2i16_reghi_vreg:		; GFX803-LABEL: load_flat_lo_v2i16_reghi_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ushort v0, v[0:1]		; GFX803-NEXT: flat_load_ushort v0, v[0:1]
Show All 20 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_lo_v2f16_reghi_vreg:		; GFX906-LABEL: load_flat_lo_v2f16_reghi_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ushort v0, v[0:1]		; GFX906-NEXT: flat_load_ushort v0, v[0:1]
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_lo_v2f16_reghi_vreg:		; GFX803-LABEL: load_flat_lo_v2f16_reghi_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ushort v0, v[0:1]		; GFX803-NEXT: flat_load_ushort v0, v[0:1]
Show All 22 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_lo_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_flat_lo_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ubyte v0, v[0:1]		; GFX906-NEXT: flat_load_ubyte v0, v[0:1]
; GFX906-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v1, v0, v2		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_lo_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_flat_lo_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ubyte v0, v[0:1]		; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
Show All 21 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_lo_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_flat_lo_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_sbyte v0, v[0:1]		; GFX906-NEXT: flat_load_sbyte v0, v[0:1]
; GFX906-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v1, v0, v2		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_lo_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_flat_lo_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_sbyte v0, v[0:1]		; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
Show All 21 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_lo_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_flat_lo_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_ubyte v0, v[0:1]		; GFX906-NEXT: flat_load_ubyte v0, v[0:1]
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_lo_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_flat_lo_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_ubyte v0, v[0:1]		; GFX803-NEXT: flat_load_ubyte v0, v[0:1]
Show All 22 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_flat_lo_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_flat_lo_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: flat_load_sbyte v0, v[0:1]		; GFX906-NEXT: flat_load_sbyte v0, v[0:1]
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_flat_lo_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_flat_lo_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: flat_load_sbyte v0, v[0:1]		; GFX803-NEXT: flat_load_sbyte v0, v[0:1]
Show All 22 Lines
; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v2, v1, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
Show All 21 Lines	entry:
ret void		ret void
}		}

define void @load_private_lo_v2i16_reghi_vreg(i16 addrspace(5)* byval(i16) %in, i16 %reg) #0 {		define void @load_private_lo_v2i16_reghi_vreg(i16 addrspace(5)* byval(i16) %in, i16 %reg) #0 {
; GFX900-MUBUF-LABEL: load_private_lo_v2i16_reghi_vreg:		; GFX900-MUBUF-LABEL: load_private_lo_v2i16_reghi_vreg:
; GFX900-MUBUF: ; %bb.0: ; %entry		; GFX900-MUBUF: ; %bb.0: ; %entry
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-MUBUF-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX900-MUBUF-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
		; GFX900-MUBUF-NEXT: s_mov_b32 s4, 0x5040100
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX900-MUBUF-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX900-MUBUF-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reghi_vreg:		; GFX906-LABEL: load_private_lo_v2i16_reghi_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
		; GFX906-NEXT: s_mov_b32 s4, 0x5040100
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg:		; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: v_or_b32_e32 v0, v1, v0		; GFX803-NEXT: v_or_b32_e32 v0, v1, v0
; GFX803-NEXT: flat_store_dword v[0:1], v0		; GFX803-NEXT: flat_store_dword v[0:1], v0
; GFX803-NEXT: s_waitcnt vmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0)
; GFX803-NEXT: s_setpc_b64 s[30:31]		; GFX803-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX900-FLATSCR-LABEL: load_private_lo_v2i16_reghi_vreg:		; GFX900-FLATSCR-LABEL: load_private_lo_v2i16_reghi_vreg:
; GFX900-FLATSCR: ; %bb.0: ; %entry		; GFX900-FLATSCR: ; %bb.0: ; %entry
; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX900-FLATSCR-NEXT: scratch_load_ushort v1, off, s32 offset:4094		; GFX900-FLATSCR-NEXT: scratch_load_ushort v1, off, s32 offset:4094
		; GFX900-FLATSCR-NEXT: s_mov_b32 s0, 0x5040100
; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
; GFX900-FLATSCR-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX900-FLATSCR-NEXT: v_perm_b32 v0, v0, v1, s0
; GFX900-FLATSCR-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off		; GFX900-FLATSCR-NEXT: global_store_dword v[0:1], v0, off
; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)		; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]		; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%gep = getelementptr inbounds i16, i16 addrspace(5)* %in, i64 2047		%gep = getelementptr inbounds i16, i16 addrspace(5)* %in, i64 2047
%load = load i16, i16 addrspace(5)* %gep		%load = load i16, i16 addrspace(5)* %gep
%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1		%build0 = insertelement <2 x i16> undef, i16 %reg, i32 1
%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0		%build1 = insertelement <2 x i16> %build0, i16 %load, i32 0
Show All 10 Lines
; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2f16_reglo_vreg:		; GFX906-LABEL: load_private_lo_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX906-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
; GFX906-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg:		; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094		; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
Show All 31 Lines
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_nooff:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_nooff:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
Show All 31 Lines
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reghi_vreg_nooff:		; GFX906-LABEL: load_private_lo_v2i16_reghi_vreg_nooff:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg_nooff:		; GFX803-LABEL: load_private_lo_v2i16_reghi_vreg_nooff:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
Show All 31 Lines
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2f16_reglo_vreg_nooff:		; GFX906-LABEL: load_private_lo_v2f16_reglo_vreg_nooff:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_nooff:		; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_nooff:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:4094 glc
Show All 30 Lines
; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095		; GFX906-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v2, v1, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095		; GFX803-NEXT: buffer_load_ubyte v1, off, s[0:3], s32 offset:4095
Show All 31 Lines
; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off		; GFX900-MUBUF-NEXT: global_store_dword v[0:1], v0, off
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095		; GFX906-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v2, v1, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095		; GFX803-NEXT: buffer_load_sbyte v1, off, s[0:3], s32 offset:4095
Show All 32 Lines
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_zexti8:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_zexti8:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
Show All 32 Lines
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_sexti8:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_bfi_b32 v0, v2, v0, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_sexti8:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_nooff_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_sbyte v0, off, s[0:3], 0 offset:4094 glc
Show All 32 Lines
; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)		; GFX900-MUBUF-NEXT: s_waitcnt vmcnt(0)
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2f16_reglo_vreg_nooff_zexti8:		; GFX906-LABEL: load_private_lo_v2f16_reglo_vreg_nooff_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX906-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v1
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_nooff_zexti8:		; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_nooff_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc		; GFX803-NEXT: buffer_load_ubyte v0, off, s[0:3], 0 offset:4094 glc
Show All 32 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_lo_v2i16_reglo_vreg:		; GFX906-LABEL: load_constant_lo_v2i16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_bfi_b32 v0, v1, v0, v2		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_lo_v2i16_reglo_vreg:		; GFX803-LABEL: load_constant_lo_v2i16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 23 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_lo_v2f16_reglo_vreg:		; GFX906-LABEL: load_constant_lo_v2f16_reglo_vreg:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094		; GFX906-NEXT: global_load_ushort v0, v[0:1], off offset:-4094
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg:		; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
Show All 23 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_lo_v2f16_reglo_vreg_zexti8:		; GFX906-LABEL: load_constant_lo_v2f16_reglo_vreg_zexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_ubyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_zexti8:		; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_zexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 25 Lines
; GFX900-NEXT: global_store_dword v[0:1], v2, off		; GFX900-NEXT: global_store_dword v[0:1], v2, off
; GFX900-NEXT: s_waitcnt vmcnt(0)		; GFX900-NEXT: s_waitcnt vmcnt(0)
; GFX900-NEXT: s_setpc_b64 s[30:31]		; GFX900-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_constant_lo_v2f16_reglo_vreg_sexti8:		; GFX906-LABEL: load_constant_lo_v2f16_reglo_vreg_sexti8:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095		; GFX906-NEXT: global_load_sbyte v0, v[0:1], off offset:-4095
; GFX906-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v0, v2
; GFX906-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_sexti8:		; GFX803-LABEL: load_constant_lo_v2f16_reglo_vreg_sexti8:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0		; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff001, v0
Show All 31 Lines
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_to_offset:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_to_offset:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b
; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4		; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v3, 44		; GFX906-NEXT: v_mov_b32_e32 v2, 44
; GFX906-NEXT: buffer_load_ushort v1, v3, s[0:3], s32 offen offset:4054 glc		; GFX906-NEXT: buffer_load_ushort v1, v2, s[0:3], s32 offen offset:4054 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_bfi_b32 v0, v2, v1, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_to_offset:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8_to_offset:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8_to_offset:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b
; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4		; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v3, 44		; GFX906-NEXT: v_mov_b32_e32 v2, 44
; GFX906-NEXT: buffer_load_sbyte v1, v3, s[0:3], s32 offen offset:4055 glc		; GFX906-NEXT: buffer_load_sbyte v1, v2, s[0:3], s32 offen offset:4055 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_bfi_b32 v0, v2, v1, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8_to_offset:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_sexti8_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]		; GFX900-MUBUF-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8_to_offset:		; GFX906-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8_to_offset:
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b
; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4		; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v3, 44		; GFX906-NEXT: v_mov_b32_e32 v2, 44
; GFX906-NEXT: buffer_load_ubyte v1, v3, s[0:3], s32 offen offset:4055 glc		; GFX906-NEXT: buffer_load_ubyte v1, v2, s[0:3], s32 offen offset:4055 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_bfi_b32 v0, v2, v1, v0		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8_to_offset:		; GFX803-LABEL: load_private_lo_v2i16_reglo_vreg_zexti8_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b
; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4		; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 44		; GFX906-NEXT: v_mov_b32_e32 v2, 44
; GFX906-NEXT: buffer_load_sbyte v1, v2, s[0:3], s32 offen offset:4055 glc		; GFX906-NEXT: buffer_load_sbyte v1, v2, s[0:3], s32 offen offset:4055 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_sexti8_to_offset:		; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_sexti8_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; GFX906: ; %bb.0: ; %entry		; GFX906: ; %bb.0: ; %entry
; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX906-NEXT: v_mov_b32_e32 v1, 0x7b
; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4		; GFX906-NEXT: buffer_store_dword v1, off, s[0:3], s32 offset:4
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_mov_b32_e32 v2, 44		; GFX906-NEXT: v_mov_b32_e32 v2, 44
; GFX906-NEXT: buffer_load_ubyte v1, v2, s[0:3], s32 offen offset:4055 glc		; GFX906-NEXT: buffer_load_ubyte v1, v2, s[0:3], s32 offen offset:4055 glc
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX906-NEXT: s_mov_b32 s4, 0xffff
; GFX906-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX906-NEXT: v_bfi_b32 v0, s4, v1, v0
; GFX906-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX906-NEXT: global_store_dword v[0:1], v0, off		; GFX906-NEXT: global_store_dword v[0:1], v0, off
; GFX906-NEXT: s_waitcnt vmcnt(0)		; GFX906-NEXT: s_waitcnt vmcnt(0)
; GFX906-NEXT: s_setpc_b64 s[30:31]		; GFX906-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_zexti8_to_offset:		; GFX803-LABEL: load_private_lo_v2f16_reglo_vreg_zexti8_to_offset:
; GFX803: ; %bb.0: ; %entry		; GFX803: ; %bb.0: ; %entry
; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX803-NEXT: v_mov_b32_e32 v1, 0x7b
Show All 39 Lines

llvm/test/CodeGen/AMDGPU/pack.v2f16.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
		arsenmUnsubmitted Done Reply Inline Actions Switching to generated checks should be a separate pre-commit arsenm: Switching to generated checks should be a separate pre-commit
		rampitecUnsubmitted Done Reply Inline Actions GCN is misleading here. Use something like GFX7_8 rampitec: GCN is misleading here. Use something like GFX7_8
; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=gfx900 -mattr=-flat-for-global -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck --check-prefixes=GFX9 %s		; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=gfx900 -mattr=-flat-for-global -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck --check-prefixes=GFX9 %s
; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX8 %s		; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX8 %s
; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=kaveri -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX7 %s		; RUN: llc -mtriple=amdgcn--amdhsa -mcpu=kaveri -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX7 %s


define amdgpu_kernel void @s_pack_v2f16(i32 addrspace(4)* %in0, i32 addrspace(4)* %in1) #0 {		define amdgpu_kernel void @s_pack_v2f16(i32 addrspace(4)* %in0, i32 addrspace(4)* %in1) #0 {
; GFX9-LABEL: s_pack_v2f16:		; GFX9-LABEL: s_pack_v2f16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc		; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s0, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v2, v1, s0
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: v_pack_v2f16:		; GFX8-LABEL: v_pack_v2f16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc		; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_mov_b32 s0, 0x5040100
; GFX9-NEXT: s_mov_b32 s3, 0xf000		; GFX9-NEXT: s_mov_b32 s3, 0xf000
; GFX9-NEXT: s_mov_b32 s2, -1		; GFX9-NEXT: s_mov_b32 s2, -1
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v0, v2, v1, s0
; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX9-NEXT: v_add_u32_e32 v0, 9, v0		; GFX9-NEXT: v_add_u32_e32 v0, 9, v0
; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0		; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: v_pack_v2f16_user:		; GFX8-LABEL: v_pack_v2f16_user:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2f16_imm_lo(i32 addrspace(1)* %in1) #0 {		define amdgpu_kernel void @v_pack_v2f16_imm_lo(i32 addrspace(1)* %in1) #0 {
; GFX9-LABEL: v_pack_v2f16_imm_lo:		; GFX9-LABEL: v_pack_v2f16_imm_lo:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0x1234		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX9-NEXT: s_movk_i32 s0, 0x1234
		; GFX9-NEXT: v_perm_b32 v0, v0, s0, v1
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: v_pack_v2f16_imm_lo:		; GFX8-LABEL: v_pack_v2f16_imm_lo:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 40 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2f16_inline_imm_lo(i32 addrspace(1)* %in1) #0 {		define amdgpu_kernel void @v_pack_v2f16_inline_imm_lo(i32 addrspace(1)* %in1) #0 {
; GFX9-LABEL: v_pack_v2f16_inline_imm_lo:		; GFX9-LABEL: v_pack_v2f16_inline_imm_lo:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0x4400		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX9-NEXT: s_movk_i32 s0, 0x4400
		; GFX9-NEXT: v_perm_b32 v0, v0, s0, v1
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: v_pack_v2f16_inline_imm_lo:		; GFX8-LABEL: v_pack_v2f16_inline_imm_lo:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 40 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2f16_imm_hi(i32 addrspace(1)* %in0) #0 {		define amdgpu_kernel void @v_pack_v2f16_imm_hi(i32 addrspace(1)* %in0) #0 {
; GFX9-LABEL: v_pack_v2f16_imm_hi:		; GFX9-LABEL: v_pack_v2f16_imm_hi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_movk_i32 s0, 0x1234		; GFX9-NEXT: s_movk_i32 s0, 0x1234
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, s0, v0, v1
; GFX9-NEXT: v_lshl_or_b32 v0, s0, 16, v0
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: v_pack_v2f16_imm_hi:		; GFX8-LABEL: v_pack_v2f16_imm_hi:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 40 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2f16_inline_f16imm_hi(i32 addrspace(1)* %in0) #0 {		define amdgpu_kernel void @v_pack_v2f16_inline_f16imm_hi(i32 addrspace(1)* %in0) #0 {
; GFX9-LABEL: v_pack_v2f16_inline_f16imm_hi:		; GFX9-LABEL: v_pack_v2f16_inline_f16imm_hi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_movk_i32 s0, 0x3c00		; GFX9-NEXT: s_movk_i32 s0, 0x3c00
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, s0, v0, v1
; GFX9-NEXT: v_lshl_or_b32 v0, s0, 16, v0
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: v_pack_v2f16_inline_f16imm_hi:		; GFX8-LABEL: v_pack_v2f16_inline_f16imm_hi:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 40 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2f16_inline_imm_hi(i32 addrspace(1)* %in0) #0 {		define amdgpu_kernel void @v_pack_v2f16_inline_imm_hi(i32 addrspace(1)* %in0) #0 {
; GFX9-LABEL: v_pack_v2f16_inline_imm_hi:		; GFX9-LABEL: v_pack_v2f16_inline_imm_hi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, 64, v0, v1
; GFX9-NEXT: v_lshl_or_b32 v0, 64, 16, v0
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: v_pack_v2f16_inline_imm_hi:		; GFX8-LABEL: v_pack_v2f16_inline_imm_hi:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/pack.v2i16.ll

Show First 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc		; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX9-NEXT: s_mov_b32 s0, 0x5040100
; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0		; GFX9-NEXT: v_perm_b32 v0, v2, v1, s0
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX803-LABEL: v_pack_v2i16:		; GFX803-LABEL: v_pack_v2i16:
; GFX803: ; %bb.0:		; GFX803: ; %bb.0:
; GFX803-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX803-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v1, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc		; GFX9-NEXT: global_load_dword v2, v0, s[2:3] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_mov_b32 s0, 0x5040100
; GFX9-NEXT: s_mov_b32 s3, 0xf000		; GFX9-NEXT: s_mov_b32 s3, 0xf000
; GFX9-NEXT: s_mov_b32 s2, -1		; GFX9-NEXT: s_mov_b32 s2, -1
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v0, v2, v1, s0
; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX9-NEXT: v_add_u32_e32 v0, 9, v0		; GFX9-NEXT: v_add_u32_e32 v0, 9, v0
; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0		; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX803-LABEL: v_pack_v2i16_user:		; GFX803-LABEL: v_pack_v2i16_user:
; GFX803: ; %bb.0:		; GFX803: ; %bb.0:
; GFX803-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX803-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2i16_imm_lo(i32 addrspace(1)* %in1) #0 {		define amdgpu_kernel void @v_pack_v2i16_imm_lo(i32 addrspace(1)* %in1) #0 {
; GFX9-LABEL: v_pack_v2i16_imm_lo:		; GFX9-LABEL: v_pack_v2i16_imm_lo:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0x7b		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1		; GFX9-NEXT: s_movk_i32 s0, 0x7b
		; GFX9-NEXT: v_perm_b32 v0, v0, s0, v1
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX803-LABEL: v_pack_v2i16_imm_lo:		; GFX803-LABEL: v_pack_v2i16_imm_lo:
; GFX803: ; %bb.0:		; GFX803: ; %bb.0:
; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 39 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2i16_inline_imm_lo(i32 addrspace(1)* %in1) #0 {		define amdgpu_kernel void @v_pack_v2i16_inline_imm_lo(i32 addrspace(1)* %in1) #0 {
; GFX9-LABEL: v_pack_v2i16_inline_imm_lo:		; GFX9-LABEL: v_pack_v2i16_inline_imm_lo:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, 64		; GFX9-NEXT: v_perm_b32 v0, v0, 64, v1
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX803-LABEL: v_pack_v2i16_inline_imm_lo:		; GFX803-LABEL: v_pack_v2i16_inline_imm_lo:
; GFX803: ; %bb.0:		; GFX803: ; %bb.0:
; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 39 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2i16_imm_hi(i32 addrspace(1)* %in0) #0 {		define amdgpu_kernel void @v_pack_v2i16_imm_hi(i32 addrspace(1)* %in0) #0 {
; GFX9-LABEL: v_pack_v2i16_imm_hi:		; GFX9-LABEL: v_pack_v2i16_imm_hi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_movk_i32 s0, 0x7b		; GFX9-NEXT: s_movk_i32 s0, 0x7b
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, s0, v0, v1
; GFX9-NEXT: v_lshl_or_b32 v0, s0, 16, v0
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX803-LABEL: v_pack_v2i16_imm_hi:		; GFX803-LABEL: v_pack_v2i16_imm_hi:
; GFX803: ; %bb.0:		; GFX803: ; %bb.0:
; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 39 Lines	; GFX7-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_pack_v2i16_inline_imm_hi(i32 addrspace(1)* %in0) #0 {		define amdgpu_kernel void @v_pack_v2i16_inline_imm_hi(i32 addrspace(1)* %in0) #0 {
; GFX9-LABEL: v_pack_v2i16_inline_imm_hi:		; GFX9-LABEL: v_pack_v2i16_inline_imm_hi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: v_mov_b32_e32 v1, 0x5040100
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc		; GFX9-NEXT: global_load_dword v0, v0, s[0:1] glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, 7, v0, v1
; GFX9-NEXT: v_lshl_or_b32 v0, 7, 16, v0
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use v0		; GFX9-NEXT: ; use v0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX803-LABEL: v_pack_v2i16_inline_imm_hi:		; GFX803-LABEL: v_pack_v2i16_inline_imm_hi:
; GFX803: ; %bb.0:		; GFX803: ; %bb.0:
; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX803-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
Show All 38 Lines	; GFX7-NEXT: s_endpgm
call void asm sideeffect "; use $0", "v"(i32 %vec.i32) #0		call void asm sideeffect "; use $0", "v"(i32 %vec.i32) #0
ret void		ret void
}		}

declare i32 @llvm.amdgcn.workitem.id.x() #1		declare i32 @llvm.amdgcn.workitem.id.x() #1

attributes #0 = { nounwind }		attributes #0 = { nounwind }
attributes #1 = { nounwind readnone }		attributes #1 = { nounwind readnone }

llvm/test/CodeGen/AMDGPU/partial-shift-shrink.ll

Show First 20 Lines • Show All 80 Lines • ▼ Show 20 Lines	; GCN-NEXT: s_setpc_b64 s[30:31]
%trunc = trunc i64 %shift to i16		%trunc = trunc i64 %shift to i16
ret i16 %trunc		ret i16 %trunc
}		}

define <2 x i16> @trunc_srl_v2i64_16_to_v2i16(<2 x i64> %x) {		define <2 x i16> @trunc_srl_v2i64_16_to_v2i16(<2 x i64> %x) {
; GCN-LABEL: trunc_srl_v2i64_16_to_v2i16:		; GCN-LABEL: trunc_srl_v2i64_16_to_v2i16:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GCN-NEXT: s_mov_b32 s4, 0x7060302
; GCN-NEXT: v_mov_b32_e32 v1, 0xffff0000		; GCN-NEXT: v_perm_b32 v0, v2, v0, s4
; GCN-NEXT: v_and_or_b32 v0, v2, v1, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%shift = lshr <2 x i64> %x, <i64 16, i64 16>		%shift = lshr <2 x i64> %x, <i64 16, i64 16>
%trunc = trunc <2 x i64> %shift to <2 x i16>		%trunc = trunc <2 x i64> %shift to <2 x i16>
ret <2 x i16> %trunc		ret <2 x i16> %trunc
}		}

define amdgpu_kernel void @s_trunc_srl_i64_16_to_i16(i64 %x) {		define amdgpu_kernel void @s_trunc_srl_i64_16_to_i16(i64 %x) {
; GCN-LABEL: s_trunc_srl_i64_16_to_i16:		; GCN-LABEL: s_trunc_srl_i64_16_to_i16:
▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/strict_fadd.f16.ll

	Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	define <4 x half> @v_constained_fadd_v4f16_fpexcept_strict(<4 x half> %x, <4 x half> %y) #0 {			define <4 x half> @v_constained_fadd_v4f16_fpexcept_strict(<4 x half> %x, <4 x half> %y) #0 {
	; GFX9-LABEL: v_constained_fadd_v4f16_fpexcept_strict:			; GFX9-LABEL: v_constained_fadd_v4f16_fpexcept_strict:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_add_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_add_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_add_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_add_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_add_f16_e32 v1, v1, v3			; GFX9-NEXT: v_add_f16_e32 v1, v1, v3
	; GFX9-NEXT: v_add_f16_e32 v0, v0, v2			; GFX9-NEXT: v_add_f16_e32 v0, v0, v2
	; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v4, 16, v1			; GFX9-NEXT: v_perm_b32 v0, v5, v0, s4
				; GFX9-NEXT: v_perm_b32 v1, v4, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fadd_v4f16_fpexcept_strict:			; GFX8-LABEL: v_constained_fadd_v4f16_fpexcept_strict:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_f16_sdwa v4, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_add_f16_sdwa v4, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_add_f16_sdwa v5, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_add_f16_sdwa v5, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_add_f16_e32 v1, v1, v3			; GFX8-NEXT: v_add_f16_e32 v1, v1, v3
	; GFX8-NEXT: v_add_f16_e32 v0, v0, v2			; GFX8-NEXT: v_add_f16_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_constained_fadd_v4f16_fpexcept_strict:			; GFX10-LABEL: v_constained_fadd_v4f16_fpexcept_strict:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_add_f16_e32 v4, v0, v2			; GFX10-NEXT: v_add_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_add_f16_e32 v5, v1, v3			; GFX10-NEXT: v_add_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_add_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_add_f16_e32 v0, v0, v2
	; GFX10-NEXT: v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_add_f16_e32 v1, v1, v3
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v0, v5, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v5			; GFX10-NEXT: v_perm_b32 v1, v4, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v3
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fadd_v4f16_fpexcept_strict:			; GFX11-LABEL: v_constained_fadd_v4f16_fpexcept_strict:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v3			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v3
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; GFX11-NEXT: v_add_f16_e32 v0, v0, v2
	; GFX11-NEXT: v_add_f16_e32 v1, v1, v3			; GFX11-NEXT: v_add_f16_e32 v1, v1, v3
	; GFX11-NEXT: v_add_f16_e32 v2, v5, v4			; GFX11-NEXT: v_add_f16_e32 v0, v0, v2
	; GFX11-NEXT: v_add_f16_e32 v3, v7, v6			; GFX11-NEXT: v_add_f16_e32 v2, v6, v5
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_add_f16_e32 v3, v7, v4
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX11-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <4 x half> @llvm.experimental.constrained.fadd.v4f16(<4 x half> %x, <4 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")			%val = call <4 x half> @llvm.experimental.constrained.fadd.v4f16(<4 x half> %x, <4 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
	ret <4 x half> %val			ret <4 x half> %val
	}			}

	define amdgpu_ps half @s_constained_fadd_f16_fpexcept_strict(half inreg %x, half inreg %y) #0 {			define amdgpu_ps half @s_constained_fadd_f16_fpexcept_strict(half inreg %x, half inreg %y) #0 {
	; GCN-LABEL: s_constained_fadd_f16_fpexcept_strict:			; GCN-LABEL: s_constained_fadd_f16_fpexcept_strict:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/strict_fma.f16.ll

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX9-NEXT: v_fma_f16 v6, v8, v7, v6			; GFX9-NEXT: v_fma_f16 v6, v8, v7, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v0
				; GFX9-NEXT: v_fma_f16 v7, v9, v8, v7
	; GFX9-NEXT: v_fma_f16 v1, v1, v3, v5			; GFX9-NEXT: v_fma_f16 v1, v1, v3, v5
	; GFX9-NEXT: v_fma_f16 v0, v0, v2, v4			; GFX9-NEXT: v_fma_f16 v0, v0, v2, v4
	; GFX9-NEXT: v_fma_f16 v7, v9, v8, v7			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: v_perm_b32 v0, v7, v0, s4
	; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX9-NEXT: v_perm_b32 v1, v6, v1, s4
	; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fma_v4f16_fpexcept_strict:			; GFX8-LABEL: v_constained_fma_v4f16_fpexcept_strict:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	Show All 16 Lines
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 16, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v11, 16, v0
	; GFX10-NEXT: v_fmac_f16_e32 v4, v0, v2			; GFX10-NEXT: v_fmac_f16_e32 v4, v0, v2
	; GFX10-NEXT: v_fmac_f16_e32 v5, v1, v3
	; GFX10-NEXT: v_fmac_f16_e32 v6, v8, v7			; GFX10-NEXT: v_fmac_f16_e32 v6, v8, v7
				; GFX10-NEXT: v_fmac_f16_e32 v5, v1, v3
	; GFX10-NEXT: v_fmac_f16_e32 v9, v11, v10			; GFX10-NEXT: v_fmac_f16_e32 v9, v11, v10
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v1, v6, v5, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v5			; GFX10-NEXT: v_perm_b32 v0, v9, v4, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v9, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fma_v4f16_fpexcept_strict:			; GFX11-LABEL: v_constained_fma_v4f16_fpexcept_strict:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; GFX11-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX11-NEXT: v_lshrrev_b32_e32 v9, 16, v4
	; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v2			; GFX11-NEXT: v_lshrrev_b32_e32 v10, 16, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v11, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v11, 16, v0
	; GFX11-NEXT: v_fmac_f16_e32 v4, v0, v2			; GFX11-NEXT: v_fmac_f16_e32 v4, v0, v2
	; GFX11-NEXT: v_fmac_f16_e32 v5, v1, v3
	; GFX11-NEXT: v_fmac_f16_e32 v6, v8, v7			; GFX11-NEXT: v_fmac_f16_e32 v6, v8, v7
				; GFX11-NEXT: v_fmac_f16_e32 v5, v1, v3
	; GFX11-NEXT: v_fmac_f16_e32 v9, v11, v10			; GFX11-NEXT: v_fmac_f16_e32 v9, v11, v10
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v4			; GFX11-NEXT: v_perm_b32 v1, v6, v5, 0x5040100
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v5			; GFX11-NEXT: v_perm_b32 v0, v9, v4, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v9, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <4 x half> @llvm.experimental.constrained.fma.v4f16(<4 x half> %x, <4 x half> %y, <4 x half> %z, metadata !"round.tonearest", metadata !"fpexcept.strict")			%val = call <4 x half> @llvm.experimental.constrained.fma.v4f16(<4 x half> %x, <4 x half> %y, <4 x half> %z, metadata !"round.tonearest", metadata !"fpexcept.strict")
	ret <4 x half> %val			ret <4 x half> %val
	}			}

	define half @v_constained_fma_f16_fpexcept_strict_fneg(half %x, half %y, half %z) #0 {			define half @v_constained_fma_f16_fpexcept_strict_fneg(half %x, half %y, half %z) #0 {
	; GCN-LABEL: v_constained_fma_f16_fpexcept_strict_fneg:			; GCN-LABEL: v_constained_fma_f16_fpexcept_strict_fneg:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	▲ Show 20 Lines • Show All 120 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/strict_fmul.f16.ll

	Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	define <4 x half> @v_constained_fmul_v4f16_fpexcept_strict(<4 x half> %x, <4 x half> %y) #0 {			define <4 x half> @v_constained_fmul_v4f16_fpexcept_strict(<4 x half> %x, <4 x half> %y) #0 {
	; GFX9-LABEL: v_constained_fmul_v4f16_fpexcept_strict:			; GFX9-LABEL: v_constained_fmul_v4f16_fpexcept_strict:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_mul_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_mul_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_mul_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_mul_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_mul_f16_e32 v1, v1, v3			; GFX9-NEXT: v_mul_f16_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_f16_e32 v0, v0, v2			; GFX9-NEXT: v_mul_f16_e32 v0, v0, v2
	; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v4, 16, v1			; GFX9-NEXT: v_perm_b32 v0, v5, v0, s4
				; GFX9-NEXT: v_perm_b32 v1, v4, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fmul_v4f16_fpexcept_strict:			; GFX8-LABEL: v_constained_fmul_v4f16_fpexcept_strict:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_mul_f16_sdwa v4, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v4, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_sdwa v5, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v5, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v1, v1, v3			; GFX8-NEXT: v_mul_f16_e32 v1, v1, v3
	; GFX8-NEXT: v_mul_f16_e32 v0, v0, v2			; GFX8-NEXT: v_mul_f16_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_constained_fmul_v4f16_fpexcept_strict:			; GFX10-LABEL: v_constained_fmul_v4f16_fpexcept_strict:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mul_f16_e32 v4, v0, v2			; GFX10-NEXT: v_mul_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_mul_f16_e32 v5, v1, v3			; GFX10-NEXT: v_mul_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_mul_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_mul_f16_e32 v0, v0, v2
	; GFX10-NEXT: v_mul_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_mul_f16_e32 v1, v1, v3
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v0, v5, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v5			; GFX10-NEXT: v_perm_b32 v1, v4, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v3
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fmul_v4f16_fpexcept_strict:			; GFX11-LABEL: v_constained_fmul_v4f16_fpexcept_strict:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v3			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v3
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; GFX11-NEXT: v_mul_f16_e32 v0, v0, v2
	; GFX11-NEXT: v_mul_f16_e32 v1, v1, v3			; GFX11-NEXT: v_mul_f16_e32 v1, v1, v3
	; GFX11-NEXT: v_mul_f16_e32 v2, v5, v4			; GFX11-NEXT: v_mul_f16_e32 v0, v0, v2
	; GFX11-NEXT: v_mul_f16_e32 v3, v7, v6			; GFX11-NEXT: v_mul_f16_e32 v2, v6, v5
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_mul_f16_e32 v3, v7, v4
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX11-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <4 x half> @llvm.experimental.constrained.fmul.v4f16(<4 x half> %x, <4 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")			%val = call <4 x half> @llvm.experimental.constrained.fmul.v4f16(<4 x half> %x, <4 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
	ret <4 x half> %val			ret <4 x half> %val
	}			}

	define amdgpu_ps half @s_constained_fmul_f16_fpexcept_strict(half inreg %x, half inreg %y) #0 {			define amdgpu_ps half @s_constained_fmul_f16_fpexcept_strict(half inreg %x, half inreg %y) #0 {
	; GCN-LABEL: s_constained_fmul_f16_fpexcept_strict:			; GCN-LABEL: s_constained_fmul_f16_fpexcept_strict:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/strict_fsub.f16.ll

	Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	}			}

	define <2 x half> @v_constained_fsub_v2f16_fpexcept_strict(<2 x half> %x, <2 x half> %y) #0 {			define <2 x half> @v_constained_fsub_v2f16_fpexcept_strict(<2 x half> %x, <2 x half> %y) #0 {
	; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_strict:			; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_strict:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
				; GFX9-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_strict:			; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_strict:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_constained_fsub_v2f16_fpexcept_strict:			; GFX10-LABEL: v_constained_fsub_v2f16_fpexcept_strict:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_sub_f16_e32 v2, v0, v1			; GFX10-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_sub_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fsub_v2f16_fpexcept_strict:			; GFX11-LABEL: v_constained_fsub_v2f16_fpexcept_strict:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX11-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX11-NEXT: v_sub_f16_e32 v1, v3, v2			; GFX11-NEXT: v_sub_f16_e32 v2, v3, v2
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")			%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
	ret <2 x half> %val			ret <2 x half> %val
	}			}

	define <2 x half> @v_constained_fsub_v2f16_fpexcept_ignore(<2 x half> %x, <2 x half> %y) #0 {			define <2 x half> @v_constained_fsub_v2f16_fpexcept_ignore(<2 x half> %x, <2 x half> %y) #0 {
	; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:			; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
				; GFX9-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:			; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:			; GFX10-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_sub_f16_e32 v2, v0, v1			; GFX10-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_sub_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:			; GFX11-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX11-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX11-NEXT: v_sub_f16_e32 v1, v3, v2			; GFX11-NEXT: v_sub_f16_e32 v2, v3, v2
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")			%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")
	ret <2 x half> %val			ret <2 x half> %val
	}			}

	define <2 x half> @v_constained_fsub_v2f16_fpexcept_maytrap(<2 x half> %x, <2 x half> %y) #0 {			define <2 x half> @v_constained_fsub_v2f16_fpexcept_maytrap(<2 x half> %x, <2 x half> %y) #0 {
	; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:			; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
				; GFX9-NEXT: v_perm_b32 v0, v2, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:			; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:			; GFX10-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_sub_f16_e32 v2, v0, v1			; GFX10-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_sub_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v2			; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:			; GFX11-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-NEXT: v_sub_f16_e32 v0, v0, v1			; GFX11-NEXT: v_sub_f16_e32 v0, v0, v1
	; GFX11-NEXT: v_sub_f16_e32 v1, v3, v2			; GFX11-NEXT: v_sub_f16_e32 v2, v3, v2
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")			%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")
	ret <2 x half> %val			ret <2 x half> %val
	}			}

	define <3 x half> @v_constained_fsub_v3f16_fpexcept_strict(<3 x half> %x, <3 x half> %y) #0 {			define <3 x half> @v_constained_fsub_v3f16_fpexcept_strict(<3 x half> %x, <3 x half> %y) #0 {
	; GFX9-LABEL: v_constained_fsub_v3f16_fpexcept_strict:			; GFX9-LABEL: v_constained_fsub_v3f16_fpexcept_strict:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_f16_sdwa v4, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_sub_f16_sdwa v4, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_sub_f16_e32 v0, v0, v2			; GFX9-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX9-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
				; GFX9-NEXT: v_perm_b32 v0, v4, v0, s4
	; GFX9-NEXT: v_sub_f16_e32 v1, v1, v3			; GFX9-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fsub_v3f16_fpexcept_strict:			; GFX8-LABEL: v_constained_fsub_v3f16_fpexcept_strict:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_f16_sdwa v4, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_f16_sdwa v4, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_f16_e32 v0, v0, v2			; GFX8-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_sub_f16_e32 v1, v1, v3			; GFX8-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_constained_fsub_v3f16_fpexcept_strict:			; GFX10-LABEL: v_constained_fsub_v3f16_fpexcept_strict:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_sub_f16_e32 v4, v0, v2			; GFX10-NEXT: v_sub_f16_sdwa v4, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX10-NEXT: v_sub_f16_e32 v1, v1, v3			; GFX10-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v0, v4, v0, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fsub_v3f16_fpexcept_strict:			; GFX11-LABEL: v_constained_fsub_v3f16_fpexcept_strict:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX11-NEXT: v_sub_f16_e32 v0, v0, v2			; GFX11-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX11-NEXT: v_sub_f16_e32 v1, v1, v3			; GFX11-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX11-NEXT: v_sub_f16_e32 v2, v5, v4			; GFX11-NEXT: v_sub_f16_e32 v2, v5, v4
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <3 x half> @llvm.experimental.constrained.fsub.v3f16(<3 x half> %x, <3 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")			%val = call <3 x half> @llvm.experimental.constrained.fsub.v3f16(<3 x half> %x, <3 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
	ret <3 x half> %val			ret <3 x half> %val
	}			}

	; FIXME: Scalarized			; FIXME: Scalarized
	define <4 x half> @v_constained_fsub_v4f16_fpexcept_strict(<4 x half> %x, <4 x half> %y) #0 {			define <4 x half> @v_constained_fsub_v4f16_fpexcept_strict(<4 x half> %x, <4 x half> %y) #0 {
	; GFX9-LABEL: v_constained_fsub_v4f16_fpexcept_strict:			; GFX9-LABEL: v_constained_fsub_v4f16_fpexcept_strict:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_sub_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_sub_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NEXT: v_sub_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NEXT: v_sub_f16_e32 v1, v1, v3			; GFX9-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX9-NEXT: v_sub_f16_e32 v0, v0, v2			; GFX9-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v0			; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_lshl_or_b32 v1, v4, 16, v1			; GFX9-NEXT: v_perm_b32 v0, v5, v0, s4
				; GFX9-NEXT: v_perm_b32 v1, v4, v1, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fsub_v4f16_fpexcept_strict:			; GFX8-LABEL: v_constained_fsub_v4f16_fpexcept_strict:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_f16_sdwa v4, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_f16_sdwa v4, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_f16_sdwa v5, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_f16_sdwa v5, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_f16_e32 v1, v1, v3			; GFX8-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX8-NEXT: v_sub_f16_e32 v0, v0, v2			; GFX8-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_constained_fsub_v4f16_fpexcept_strict:			; GFX10-LABEL: v_constained_fsub_v4f16_fpexcept_strict:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_sub_f16_e32 v4, v0, v2			; GFX10-NEXT: v_sub_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_sub_f16_e32 v5, v1, v3			; GFX10-NEXT: v_sub_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-NEXT: v_sub_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX10-NEXT: v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v4			; GFX10-NEXT: v_perm_b32 v0, v5, v0, 0x5040100
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v5			; GFX10-NEXT: v_perm_b32 v1, v4, v1, 0x5040100
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v3
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_constained_fsub_v4f16_fpexcept_strict:			; GFX11-LABEL: v_constained_fsub_v4f16_fpexcept_strict:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v3			; GFX11-NEXT: v_lshrrev_b32_e32 v4, 16, v3
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; GFX11-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; GFX11-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX11-NEXT: v_sub_f16_e32 v1, v1, v3			; GFX11-NEXT: v_sub_f16_e32 v1, v1, v3
	; GFX11-NEXT: v_sub_f16_e32 v2, v5, v4			; GFX11-NEXT: v_sub_f16_e32 v0, v0, v2
	; GFX11-NEXT: v_sub_f16_e32 v3, v7, v6			; GFX11-NEXT: v_sub_f16_e32 v2, v6, v5
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_sub_f16_e32 v3, v7, v4
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX11-NEXT: v_perm_b32 v1, v3, v1, 0x5040100
	; GFX11-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%val = call <4 x half> @llvm.experimental.constrained.fsub.v4f16(<4 x half> %x, <4 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")			%val = call <4 x half> @llvm.experimental.constrained.fsub.v4f16(<4 x half> %x, <4 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
	ret <4 x half> %val			ret <4 x half> %val
	}			}

	define amdgpu_ps half @s_constained_fsub_f16_fpexcept_strict(half inreg %x, half inreg %y) #0 {			define amdgpu_ps half @s_constained_fsub_f16_fpexcept_strict(half inreg %x, half inreg %y) #0 {
	; GCN-LABEL: s_constained_fsub_f16_fpexcept_strict:			; GCN-LABEL: s_constained_fsub_f16_fpexcept_strict:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

	Show First 20 Lines • Show All 714 Lines • ▼ Show 20 Lines

	; FIXME: Need to handle non-uniform case for function below (load without gep).			; FIXME: Need to handle non-uniform case for function below (load without gep).
	define amdgpu_kernel void @v_test_sub_v2i16_zext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {			define amdgpu_kernel void @v_test_sub_v2i16_zext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
	; GFX9-LABEL: v_test_sub_v2i16_zext_to_v2i64:			; GFX9-LABEL: v_test_sub_v2i16_zext_to_v2i64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7] glc			; GFX9-NEXT: global_load_dword v2, v0, s[6:7] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v3, v0, s[2:3] glc			; GFX9-NEXT: global_load_dword v3, v0, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_pk_sub_i16 v2, v2, v3			; GFX9-NEXT: v_pk_sub_i16 v0, v2, v3
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2			; GFX9-NEXT: v_alignbit_b32 v2, 0, v0, 16
	; GFX9-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:			; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	Show All 19 Lines
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_test_sub_v2i16_zext_to_v2i64:			; GFX10-LABEL: v_test_sub_v2i16_zext_to_v2i64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dword v1, v0, s[6:7] glc dlc			; GFX10-NEXT: global_load_dword v1, v0, s[6:7] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_dword v2, v0, s[2:3] glc dlc			; GFX10-NEXT: global_load_dword v2, v0, s[2:3] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_waitcnt_depctr 0xffe3			; GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; GFX10-NEXT: s_mov_b32 s7, 0x31016000			; GFX10-NEXT: s_mov_b32 s7, 0x31016000
	; GFX10-NEXT: s_mov_b32 s6, -1			; GFX10-NEXT: s_mov_b32 s6, -1
	; GFX10-NEXT: v_pk_sub_i16 v2, v1, v2			; GFX10-NEXT: v_pk_sub_i16 v0, v1, v2
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v2			; GFX10-NEXT: v_alignbit_b32 v2, 0, v0, 16
	; GFX10-NEXT: v_and_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX10-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: v_test_sub_v2i16_zext_to_v2i64:			; GFX11-LABEL: v_test_sub_v2i16_zext_to_v2i64:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_load_b32 v1, v0, s[6:7] glc dlc			; GFX11-NEXT: global_load_b32 v1, v0, s[6:7] glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: global_load_b32 v0, v0, s[0:1] glc dlc			; GFX11-NEXT: global_load_b32 v0, v0, s[0:1] glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_mov_b32 s7, 0x31016000			; GFX11-NEXT: s_mov_b32 s7, 0x31016000
	; GFX11-NEXT: s_mov_b32 s6, -1			; GFX11-NEXT: s_mov_b32 s6, -1
	; GFX11-NEXT: v_pk_sub_i16 v0, v1, v0			; GFX11-NEXT: v_pk_sub_i16 v0, v1, v0
	; GFX11-NEXT: v_mov_b32_e32 v1, 0			; GFX11-NEXT: v_mov_b32_e32 v1, 0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX11-NEXT: v_alignbit_b32 v2, 0, v0, 16
	; GFX11-NEXT: v_dual_mov_b32 v3, v1 :: v_dual_and_b32 v0, 0xffff, v0			; GFX11-NEXT: v_dual_mov_b32 v3, v1 :: v_dual_and_b32 v0, 0xffff, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2)
	; GFX11-NEXT: v_lshl_or_b32 v2, 0, 16, v2
	; GFX11-NEXT: buffer_store_b128 v[0:3], off, s[4:7], 0			; GFX11-NEXT: buffer_store_b128 v[0:3], off, s[4:7], 0
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid			%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	▲ Show 20 Lines • Show All 215 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll

Show First 20 Lines • Show All 161 Lines • ▼ Show 20 Lines

define <4 x half> @shuffle_v4f16_3u6u(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_3u6u(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_3u6u:		; GFX9-LABEL: shuffle_v4f16_3u6u:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v5, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v5, v[0:1], off offset:4
; GFX9-NEXT: global_load_dword v4, v[2:3], off offset:4		; GFX9-NEXT: global_load_dword v4, v[2:3], off offset:4
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v5		; GFX9-NEXT: v_alignbit_b32 v0, s4, v5, 16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, v4		; GFX9-NEXT: v_mov_b32_e32 v1, v4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_3u6u:		; GFX10-LABEL: shuffle_v4f16_3u6u:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v5, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v5, v[0:1], off offset:4
; GFX10-NEXT: global_load_dword v4, v[2:3], off offset:4		; GFX10-NEXT: global_load_dword v4, v[2:3], off offset:4
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v5		; GFX10-NEXT: v_alignbit_b32 v0, s4, v5, 16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_mov_b32_e32 v1, v4		; GFX10-NEXT: v_mov_b32_e32 v1, v4
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_3u6u:		; GFX11-LABEL: shuffle_v4f16_3u6u:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: global_load_b32 v1, v[2:3], off offset:4		; GFX11-NEXT: global_load_b32 v1, v[2:3], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX11-NEXT: v_alignbit_b32 v0, s0, v0, 16
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 undef, i32 6, i32 undef>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 undef, i32 6, i32 undef>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_3uu7(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_3uu7(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_3uu7:		; GFX9-LABEL: shuffle_v4f16_3uu7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v5, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v5, v[0:1], off offset:4
; GFX9-NEXT: global_load_dword v4, v[2:3], off offset:4		; GFX9-NEXT: global_load_dword v4, v[2:3], off offset:4
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v5		; GFX9-NEXT: v_alignbit_b32 v0, s4, v5, 16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, v4		; GFX9-NEXT: v_mov_b32_e32 v1, v4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_3uu7:		; GFX10-LABEL: shuffle_v4f16_3uu7:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v5, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v5, v[0:1], off offset:4
; GFX10-NEXT: global_load_dword v4, v[2:3], off offset:4		; GFX10-NEXT: global_load_dword v4, v[2:3], off offset:4
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v5		; GFX10-NEXT: v_alignbit_b32 v0, s4, v5, 16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_mov_b32_e32 v1, v4		; GFX10-NEXT: v_mov_b32_e32 v1, v4
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_3uu7:		; GFX11-LABEL: shuffle_v4f16_3uu7:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: global_load_b32 v1, v[2:3], off offset:4		; GFX11-NEXT: global_load_b32 v1, v[2:3], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX11-NEXT: v_alignbit_b32 v0, s0, v0, 16
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 undef, i32 undef, i32 7>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 undef, i32 undef, i32 7>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_35u5(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_35u5(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_35u5:		; GFX9-LABEL: shuffle_v4f16_35u5:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v5, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v5, v[0:1], off offset:4
; GFX9-NEXT: global_load_dword v4, v[2:3], off		; GFX9-NEXT: global_load_dword v4, v[2:3], off
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GFX9-NEXT: v_perm_b32 v0, v4, v5, s4
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX9-NEXT: v_mov_b32_e32 v1, v4		; GFX9-NEXT: v_mov_b32_e32 v1, v4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_35u5:		; GFX10-LABEL: shuffle_v4f16_35u5:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v5, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v5, v[0:1], off offset:4
; GFX10-NEXT: global_load_dword v4, v[2:3], off		; GFX10-NEXT: global_load_dword v4, v[2:3], off
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GFX10-NEXT: v_perm_b32 v0, v4, v5, 0x7060302
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: v_mov_b32_e32 v1, v4		; GFX10-NEXT: v_mov_b32_e32 v1, v4
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_35u5:		; GFX11-LABEL: shuffle_v4f16_35u5:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: global_load_b32 v1, v[2:3], off		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x7060302
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 5, i32 undef, i32 5>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 5, i32 undef, i32 5>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_357u(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_357u(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_357u:		; GFX9-LABEL: shuffle_v4f16_357u:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v1, s4, v5, 16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v4		; GFX9-NEXT: v_perm_b32 v0, v4, v6, s4
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v5
; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_357u:		; GFX10-LABEL: shuffle_v4f16_357u:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v1, s4, v5, 16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GFX10-NEXT: v_perm_b32 v0, v4, v6, 0x7060302
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v5
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_357u:		; GFX11-LABEL: shuffle_v4f16_357u:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v4, v[0:1], off offset:4		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b64 v[0:1], v[2:3], off		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v4		; GFX11-NEXT: v_alignbit_b32 v1, s0, v3, 16
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX11-NEXT: v_perm_b32 v0, v2, v0, 0x7060302
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v2
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 5, i32 7, i32 undef>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 5, i32 7, i32 undef>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_0101(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_0101(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
▲ Show 20 Lines • Show All 559 Lines • ▼ Show 20 Lines
}		}

define <4 x half> @shuffle_v4f16_2356(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_2356(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_2356:		; GFX9-LABEL: shuffle_v4f16_2356:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v1, v6, v5, 16
; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, v4		; GFX9-NEXT: v_mov_b32_e32 v0, v4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_2356:		; GFX10-LABEL: shuffle_v4f16_2356:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v1, v6, v5, 16
; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v0
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_mov_b32_e32 v0, v4		; GFX10-NEXT: v_mov_b32_e32 v0, v4
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_2356:		; GFX11-LABEL: shuffle_v4f16_2356:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX11-NEXT: v_alignbit_b32 v1, v3, v2, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 2, i32 3, i32 5, i32 6>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 2, i32 3, i32 5, i32 6>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_5623(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_5623(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_5623:		; GFX9-LABEL: shuffle_v4f16_5623:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v0, v6, v5, 16
; GFX9-NEXT: v_lshl_or_b32 v0, v6, 16, v0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, v4		; GFX9-NEXT: v_mov_b32_e32 v1, v4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_5623:		; GFX10-LABEL: shuffle_v4f16_5623:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v0, v6, v5, 16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_mov_b32_e32 v1, v4		; GFX10-NEXT: v_mov_b32_e32 v1, v4
; GFX10-NEXT: v_lshl_or_b32 v0, v6, 16, v0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_5623:		; GFX11-LABEL: shuffle_v4f16_5623:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b32 v1, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v1, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v2		; GFX11-NEXT: v_alignbit_b32 v0, v3, v2, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v0
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 5, i32 6, i32 2, i32 3>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 5, i32 6, i32 2, i32 3>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_3456(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_3456(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_3456:		; GFX9-LABEL: shuffle_v4f16_3456:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v1, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v1, v5, v4, 16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_sdwa v2, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v0, v4, v6, 16
; GFX9-NEXT: v_lshl_or_b32 v0, v4, 16, v1
; GFX9-NEXT: v_lshl_or_b32 v1, v5, 16, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_3456:		; GFX10-LABEL: shuffle_v4f16_3456:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v1, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v1, v5, v4, 16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_sdwa v2, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v0, v4, v6, 16
; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v1
; GFX10-NEXT: v_lshl_or_b32 v1, v5, 16, v2
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_3456:		; GFX11-LABEL: shuffle_v4f16_3456:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v4, v[0:1], off offset:4		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b64 v[0:1], v[2:3], off		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v4		; GFX11-NEXT: v_alignbit_b32 v1, v3, v2, 16
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX11-NEXT: v_alignbit_b32 v0, v2, v0, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v2
; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v3
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 4, i32 5, i32 6>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 3, i32 4, i32 5, i32 6>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_5634(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_5634(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_5634:		; GFX9-LABEL: shuffle_v4f16_5634:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v1, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v0, v5, v4, 16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v1, v4, v6, 16
; GFX9-NEXT: v_lshl_or_b32 v1, v4, 16, v1
; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_5634:		; GFX10-LABEL: shuffle_v4f16_5634:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v1, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v0, v5, v4, 16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_sdwa v2, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v1, v4, v6, 16
; GFX10-NEXT: v_lshl_or_b32 v0, v5, 16, v1
; GFX10-NEXT: v_lshl_or_b32 v1, v4, 16, v2
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_5634:		; GFX11-LABEL: shuffle_v4f16_5634:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v1, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX11-NEXT: v_alignbit_b32 v0, v3, v2, 16
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX11-NEXT: v_alignbit_b32 v1, v2, v1, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX11-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v1
; GFX11-NEXT: v_lshl_or_b32 v1, v2, 16, v4
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 5, i32 6, i32 3, i32 4>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 5, i32 6, i32 3, i32 4>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_5734(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_5734(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_5734:		; GFX9-LABEL: shuffle_v4f16_5734:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v1, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_perm_b32 v0, v5, v4, s4
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v1, v4, v6, 16
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v5
; GFX9-NEXT: v_lshl_or_b32 v1, v4, 16, v1
; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_5734:		; GFX10-LABEL: shuffle_v4f16_5734:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v1, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_perm_b32 v0, v5, v4, 0x7060302
; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v5
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_sdwa v3, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v1, v4, v6, 16
; GFX10-NEXT: v_lshl_or_b32 v0, v2, 16, v1
; GFX10-NEXT: v_lshl_or_b32 v1, v4, 16, v3
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_5734:		; GFX11-LABEL: shuffle_v4f16_5734:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v1, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX11-NEXT: v_perm_b32 v0, v3, v2, 0x7060302
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX11-NEXT: v_alignbit_b32 v1, v2, v1, 16
; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX11-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v1
; GFX11-NEXT: v_lshl_or_b32 v1, v2, 16, v4
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 5, i32 7, i32 3, i32 4>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 5, i32 7, i32 3, i32 4>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x i16> @shuffle_v4i16_2356(<4 x i16> addrspace(1)* %arg0, <4 x i16> addrspace(1)* %arg1) {		define <4 x i16> @shuffle_v4i16_2356(<4 x i16> addrspace(1)* %arg0, <4 x i16> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4i16_2356:		; GFX9-LABEL: shuffle_v4i16_2356:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v1, v6, v5, 16
; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, v4		; GFX9-NEXT: v_mov_b32_e32 v0, v4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4i16_2356:		; GFX10-LABEL: shuffle_v4i16_2356:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v1, v6, v5, 16
; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v0
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_mov_b32_e32 v0, v4		; GFX10-NEXT: v_mov_b32_e32 v0, v4
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4i16_2356:		; GFX11-LABEL: shuffle_v4i16_2356:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX11-NEXT: v_alignbit_b32 v1, v3, v2, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x i16>, <4 x i16> addrspace(1)* %arg0		%val0 = load <4 x i16>, <4 x i16> addrspace(1)* %arg0
%val1 = load <4 x i16>, <4 x i16> addrspace(1)* %arg1		%val1 = load <4 x i16>, <4 x i16> addrspace(1)* %arg1
%shuffle = shufflevector <4 x i16> %val0, <4 x i16> %val1, <4 x i32> <i32 2, i32 3, i32 5, i32 6>		%shuffle = shufflevector <4 x i16> %val0, <4 x i16> %val1, <4 x i32> <i32 2, i32 3, i32 5, i32 6>
ret <4 x i16> %shuffle		ret <4 x i16> %shuffle
}		}

Show All 35 Lines	; GFX11-NEXT: s_setpc_b64 s[30:31]
ret <4 x i16> %shuffle		ret <4 x i16> %shuffle
}		}

define <4 x half> @shuffle_v4f16_0000(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_0000(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_0000:		; GFX9-LABEL: shuffle_v4f16_0000:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
		; GFX9-NEXT: s_mov_b32 s4, 0x5040100
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, v0, v0, s4
; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX9-NEXT: v_mov_b32_e32 v1, v0		; GFX9-NEXT: v_mov_b32_e32 v1, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_0000:		; GFX10-LABEL: shuffle_v4f16_0000:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX10-NEXT: v_perm_b32 v0, v0, v0, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX10-NEXT: v_mov_b32_e32 v1, v0		; GFX10-NEXT: v_mov_b32_e32 v1, v0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_0000:		; GFX11-LABEL: shuffle_v4f16_0000:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off		; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX11-NEXT: v_perm_b32 v0, v0, v0, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX11-NEXT: v_mov_b32_e32 v1, v0		; GFX11-NEXT: v_mov_b32_e32 v1, v0
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> zeroinitializer		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> zeroinitializer
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_1010(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_1010(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_1010:		; GFX9-LABEL: shuffle_v4f16_1010:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX9-NEXT: v_alignbit_b32 v0, v0, v0, 16
; GFX9-NEXT: v_and_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX9-NEXT: v_mov_b32_e32 v1, v0		; GFX9-NEXT: v_mov_b32_e32 v1, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_1010:		; GFX10-LABEL: shuffle_v4f16_1010:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_mov_b32_e32 v1, 0xffff		; GFX10-NEXT: v_alignbit_b32 v0, v0, v0, 16
; GFX10-NEXT: v_and_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX10-NEXT: v_mov_b32_e32 v1, v0		; GFX10-NEXT: v_mov_b32_e32 v1, v0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_1010:		; GFX11-LABEL: shuffle_v4f16_1010:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off		; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX11-NEXT: v_alignbit_b32 v0, v0, v0, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_mov_b32_e32 v1, v0		; GFX11-NEXT: v_mov_b32_e32 v1, v0
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 1, i32 0, i32 1, i32 0>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 1, i32 0, i32 1, i32 0>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_1100(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_1100(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_1100:		; GFX9-LABEL: shuffle_v4f16_1100:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[1:2], v[0:1], off
		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
		; GFX9-NEXT: s_mov_b32 s5, 0x5040100
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v0		; GFX9-NEXT: v_perm_b32 v0, v1, v1, s4
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v1, v1, s5
; GFX9-NEXT: v_lshl_or_b32 v1, v0, 16, v1
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_1100:		; GFX10-LABEL: shuffle_v4f16_1100:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[1:2], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[1:2], v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v1		; GFX10-NEXT: v_perm_b32 v0, v1, v1, 0x7060302
; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v1, v1, 0x5040100
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v0
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v3
; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v2
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_1100:		; GFX11-LABEL: shuffle_v4f16_1100:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[1:2], v[0:1], off		; GFX11-NEXT: global_load_b64 v[1:2], v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v1		; GFX11-NEXT: v_perm_b32 v0, v1, v1, 0x7060302
; GFX11-NEXT: v_and_b32_e32 v3, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, v1, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v0
; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v3
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2)
; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v2
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 1, i32 1, i32 0, i32 0>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 1, i32 1, i32 0, i32 0>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_6161(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_6161(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_6161:		; GFX9-LABEL: shuffle_v4f16_6161:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v4, v[2:3], off offset:4		; GFX9-NEXT: global_load_dword v4, v[0:1], off
; GFX9-NEXT: global_load_dword v5, v[0:1], off		; GFX9-NEXT: global_load_dword v5, v[2:3], off offset:4
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_mov_b32 s4, 0xffff
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v5		; GFX9-NEXT: v_bfi_b32 v0, s4, v5, v4
; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX9-NEXT: v_mov_b32_e32 v1, v0		; GFX9-NEXT: v_mov_b32_e32 v1, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_6161:		; GFX10-LABEL: shuffle_v4f16_6161:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v4, v[2:3], off offset:4		; GFX10-NEXT: global_load_dword v4, v[0:1], off
; GFX10-NEXT: global_load_dword v5, v[0:1], off		; GFX10-NEXT: global_load_dword v5, v[2:3], off offset:4
; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v5		; GFX10-NEXT: v_bfi_b32 v0, 0xffff, v5, v4
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
; GFX10-NEXT: v_mov_b32_e32 v1, v0		; GFX10-NEXT: v_mov_b32_e32 v1, v0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_6161:		; GFX11-LABEL: shuffle_v4f16_6161:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v2, v[2:3], off offset:4
; GFX11-NEXT: global_load_b32 v0, v[0:1], off		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: global_load_b32 v1, v[2:3], off offset:4
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GFX11-NEXT: v_bfi_b32 v0, 0xffff, v1, v0
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)		; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
; GFX11-NEXT: v_mov_b32_e32 v1, v0		; GFX11-NEXT: v_mov_b32_e32 v1, v0
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 6, i32 1, i32 6, i32 1>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 6, i32 1, i32 6, i32 1>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_2333(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_2333(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_2333:		; GFX9-LABEL: shuffle_v4f16_2333:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v0, v[0:1], off offset:4
		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v0, v0, s4
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_2333:		; GFX10-LABEL: shuffle_v4f16_2333:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v0, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v0, v[0:1], off offset:4
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX10-NEXT: v_perm_b32 v1, v0, v0, 0x7060302
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_2333:		; GFX11-LABEL: shuffle_v4f16_2333:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX11-NEXT: v_perm_b32 v1, v0, v0, 0x7060302
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 2, i32 3, i32 3, i32 3>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 2, i32 3, i32 3, i32 3>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_6667(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_6667(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_6667:		; GFX9-LABEL: shuffle_v4f16_6667:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v0, v[0:1], off offset:4
		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX9-NEXT: v_perm_b32 v1, v0, v0, s4
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_6667:		; GFX10-LABEL: shuffle_v4f16_6667:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v0, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v0, v[0:1], off offset:4
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX10-NEXT: v_perm_b32 v1, v0, v0, 0x7060302
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_6667:		; GFX11-LABEL: shuffle_v4f16_6667:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v0, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX11-NEXT: v_perm_b32 v1, v0, v0, 0x7060302
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 2, i32 3, i32 3, i32 3>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 2, i32 3, i32 3, i32 3>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v8f16_0101(<8 x half> addrspace(1)* %arg0, <8 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v8f16_0101(<8 x half> addrspace(1)* %arg0, <8 x half> addrspace(1)* %arg1) {
▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
}		}

define <4 x half> @shuffle_v8f16_13_14_2_3(<8 x half> addrspace(1)* %arg0, <8 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v8f16_13_14_2_3(<8 x half> addrspace(1)* %arg0, <8 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v8f16_13_14_2_3:		; GFX9-LABEL: shuffle_v8f16_13_14_2_3:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off offset:8		; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off offset:8
; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX9-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v0, v6, v5, 16
; GFX9-NEXT: v_lshl_or_b32 v0, v6, 16, v0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, v4		; GFX9-NEXT: v_mov_b32_e32 v1, v4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v8f16_13_14_2_3:		; GFX10-LABEL: shuffle_v8f16_13_14_2_3:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off offset:8		; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off offset:8
; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4		; GFX10-NEXT: global_load_dword v4, v[0:1], off offset:4
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v0, v6, v5, 16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_mov_b32_e32 v1, v4		; GFX10-NEXT: v_mov_b32_e32 v1, v4
; GFX10-NEXT: v_lshl_or_b32 v0, v6, 16, v0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v8f16_13_14_2_3:		; GFX11-LABEL: shuffle_v8f16_13_14_2_3:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off offset:8		; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off offset:8
; GFX11-NEXT: global_load_b32 v1, v[0:1], off offset:4		; GFX11-NEXT: global_load_b32 v1, v[0:1], off offset:4
; GFX11-NEXT: s_waitcnt vmcnt(1)		; GFX11-NEXT: s_waitcnt vmcnt(1)
; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v2		; GFX11-NEXT: v_alignbit_b32 v0, v3, v2, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX11-NEXT: v_lshl_or_b32 v0, v3, 16, v0
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <8 x half>, <8 x half> addrspace(1)* %arg0		%val0 = load <8 x half>, <8 x half> addrspace(1)* %arg0
%val1 = load <8 x half>, <8 x half> addrspace(1)* %arg1		%val1 = load <8 x half>, <8 x half> addrspace(1)* %arg1
%shuffle = shufflevector <8 x half> %val0, <8 x half> %val1, <4 x i32> <i32 13, i32 14, i32 2, i32 3>		%shuffle = shufflevector <8 x half> %val0, <8 x half> %val1, <4 x i32> <i32 13, i32 14, i32 2, i32 3>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v3f16_0122(<3 x half> addrspace(1)* %arg0, <3 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v3f16_0122(<3 x half> addrspace(1)* %arg0, <3 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v3f16_0122:		; GFX9-LABEL: shuffle_v3f16_0122:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
		; GFX9-NEXT: s_mov_b32 s4, 0x5040100
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v1		; GFX9-NEXT: v_perm_b32 v1, v1, v1, s4
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v3f16_0122:		; GFX10-LABEL: shuffle_v3f16_0122:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v1		; GFX10-NEXT: v_perm_b32 v1, v1, v1, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v3f16_0122:		; GFX11-LABEL: shuffle_v3f16_0122:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off		; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_and_b32_e32 v2, 0xffff, v1		; GFX11-NEXT: v_perm_b32 v1, v1, v1, 0x5040100
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_lshl_or_b32 v1, v1, 16, v2
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <3 x half>, <3 x half> addrspace(1)* %arg0		%val0 = load <3 x half>, <3 x half> addrspace(1)* %arg0
%val1 = load <3 x half>, <3 x half> addrspace(1)* %arg1		%val1 = load <3 x half>, <3 x half> addrspace(1)* %arg1
%shuffle = shufflevector <3 x half> %val0, <3 x half> %val1, <4 x i32> <i32 0, i32 1, i32 2, i32 2>		%shuffle = shufflevector <3 x half> %val0, <3 x half> %val1, <4 x i32> <i32 0, i32 1, i32 2, i32 2>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v2f16_0122(<2 x half> addrspace(1)* %arg0, <2 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v2f16_0122(<2 x half> addrspace(1)* %arg0, <2 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v2f16_0122:		; GFX9-LABEL: shuffle_v2f16_0122:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: v_mov_b32_e32 v1, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_alignbit_b32 v1, v0, v0, 16
; GFX9-NEXT: v_lshl_or_b32 v1, v0, 16, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v2f16_0122:		; GFX10-LABEL: shuffle_v2f16_0122:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dword v0, v[0:1], off		; GFX10-NEXT: global_load_dword v0, v[0:1], off
; GFX10-NEXT: v_mov_b32_e32 v1, 0xffff
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_alignbit_b32 v1, v0, v0, 16
; GFX10-NEXT: v_lshl_or_b32 v1, v0, 16, v1
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v2f16_0122:		; GFX11-LABEL: shuffle_v2f16_0122:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b32 v0, v[0:1], off		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX11-NEXT: v_alignbit_b32 v1, v0, v0, 16
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX11-NEXT: v_lshl_or_b32 v1, v0, 16, v1
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <2 x half>, <2 x half> addrspace(1)* %arg0		%val0 = load <2 x half>, <2 x half> addrspace(1)* %arg0
%val1 = load <2 x half>, <2 x half> addrspace(1)* %arg1		%val1 = load <2 x half>, <2 x half> addrspace(1)* %arg1
%shuffle = shufflevector <2 x half> %val0, <2 x half> %val1, <4 x i32> <i32 0, i32 1, i32 1, i32 0>		%shuffle = shufflevector <2 x half> %val0, <2 x half> %val1, <4 x i32> <i32 0, i32 1, i32 1, i32 0>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <6 x half> @shuffle_v6f16_452367(<6 x half> addrspace(1)* %arg0, <6 x half> addrspace(1)* %arg1) {		define <6 x half> @shuffle_v6f16_452367(<6 x half> addrspace(1)* %arg0, <6 x half> addrspace(1)* %arg1) {
▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines

define <4 x half> @shuffle_v4f16_0456(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_0456(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_0456:		; GFX9-LABEL: shuffle_v4f16_0456:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[4:5], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[4:5], v[0:1], off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0x5040100
; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1		; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX9-NEXT: ; kill: killed $vgpr2 killed $vgpr3		; GFX9-NEXT: ; kill: killed $vgpr2 killed $vgpr3
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v4
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_sdwa v2, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_perm_b32 v0, v5, v4, s4
; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v1		; GFX9-NEXT: v_alignbit_b32 v1, v6, v5, 16
; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_0456:		; GFX10-LABEL: shuffle_v4f16_0456:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[4:5], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[4:5], v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX10-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX10-NEXT: ; kill: killed $vgpr0 killed $vgpr1		; GFX10-NEXT: ; kill: killed $vgpr0 killed $vgpr1
; GFX10-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX10-NEXT: ; kill: killed $vgpr2 killed $vgpr3		; GFX10-NEXT: ; kill: killed $vgpr2 killed $vgpr3
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v4
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_sdwa v2, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX10-NEXT: v_perm_b32 v0, v5, v4, 0x5040100
; GFX10-NEXT: v_lshl_or_b32 v0, v5, 16, v1		; GFX10-NEXT: v_alignbit_b32 v1, v6, v5, 16
; GFX10-NEXT: v_lshl_or_b32 v1, v6, 16, v2
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4f16_0456:		; GFX11-LABEL: shuffle_v4f16_0456:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_b64 v[2:3], v[2:3], off
; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off		; GFX11-NEXT: global_load_b64 v[0:1], v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX11-NEXT: global_load_b64 v[1:2], v[2:3], off
; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX11-NEXT: v_alignbit_b32 v1, v2, v1, 16
; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2)
; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0		%val0 = load <4 x half>, <4 x half> addrspace(1)* %arg0
%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1		%val1 = load <4 x half>, <4 x half> addrspace(1)* %arg1
%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 0, i32 4, i32 5, i32 6>		%shuffle = shufflevector <4 x half> %val0, <4 x half> %val1, <4 x i32> <i32 0, i32 4, i32 5, i32 6>
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define amdgpu_kernel void @shuffle_scalar_load_v8i32_0123(<8 x i32> addrspace(4)* %in, <4 x i32> addrspace(1)* %out) {		define amdgpu_kernel void @shuffle_scalar_load_v8i32_0123(<8 x i32> addrspace(4)* %in, <4 x i32> addrspace(1)* %out) {
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_endpgm
store <4 x i32> %id, <4 x i32> addrspace(1)* %out, align 8		store <4 x i32> %id, <4 x i32> addrspace(1)* %out, align 8
ret void		ret void
}		}

declare <2 x half> @llvm.fma.v2f16(<2 x half>, <2 x half>, <2 x half>) #0		declare <2 x half> @llvm.fma.v2f16(<2 x half>, <2 x half>, <2 x half>) #0
declare i32 @llvm.amdgcn.workitem.id.x() #0		declare i32 @llvm.amdgcn.workitem.id.x() #0

attributes #0 = { nounwind readnone speculatable }		attributes #0 = { nounwind readnone speculatable }
		define <2 x half> @low16bits(<2 x half> addrspace(1)* %x0, <2 x half> addrspace(1)* %x1) {
		; GFX9-LABEL: low16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0x5040100
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v5, v4, s4
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: low16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v5, v4, 0x5040100
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: low16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x half>, <2 x half> addrspace(1)* %x0, align 4
		%1 = load <2 x half>, <2 x half> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x half> %0, <2 x half> poison, <2 x i32> <i32 0, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x half> %vy1.0.vec.insert, <2 x half> %1, <2 x i32> <i32 0, i32 2>
		ret <2 x half> %vy1.2.vec.insert
		}

		define <2 x half> @hi16bits(<2 x half> addrspace(1)* %x0, <2 x half> addrspace(1)* %x1) {
		; GFX9-LABEL: hi16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v5, v4, s4
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: hi16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v5, v4, 0x7060302
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: hi16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x7060302
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x half>, <2 x half> addrspace(1)* %x0, align 4
		%1 = load <2 x half>, <2 x half> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x half> %0, <2 x half> poison, <2 x i32> <i32 1, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x half> %vy1.0.vec.insert, <2 x half> %1, <2 x i32> <i32 0, i32 3>
		ret <2 x half> %vy1.2.vec.insert
		}

		define <2 x half> @low16hi16bits(<2 x half> addrspace(1)* %x0, <2 x half> addrspace(1)* %x1) {
		; GFX9-LABEL: low16hi16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0xffff
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_bfi_b32 v0, s4, v4, v5
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: low16hi16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_bfi_b32 v0, 0xffff, v4, v5
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: low16hi16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_bfi_b32 v0, 0xffff, v0, v1
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x half>, <2 x half> addrspace(1)* %x0, align 4
		%1 = load <2 x half>, <2 x half> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x half> %0, <2 x half> poison, <2 x i32> <i32 0, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x half> %vy1.0.vec.insert, <2 x half> %1, <2 x i32> <i32 0, i32 3>
		ret <2 x half> %vy1.2.vec.insert
		}

		define <2 x half> @hi16low16bits(<2 x half> addrspace(1)* %x0, <2 x half> addrspace(1)* %x1) {
		; GFX9-LABEL: hi16low16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_alignbit_b32 v0, v5, v4, 16
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: hi16low16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_alignbit_b32 v0, v5, v4, 16
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: hi16low16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_alignbit_b32 v0, v1, v0, 16
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x half>, <2 x half> addrspace(1)* %x0, align 4
		%1 = load <2 x half>, <2 x half> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x half> %0, <2 x half> poison, <2 x i32> <i32 1, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x half> %vy1.0.vec.insert, <2 x half> %1, <2 x i32> <i32 0, i32 2>
		ret <2 x half> %vy1.2.vec.insert
		}

		define <2 x i16> @i16_low16bits(<2 x i16> addrspace(1)* %x0, <2 x i16> addrspace(1)* %x1) {
		; GFX9-LABEL: i16_low16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0x5040100
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v5, v4, s4
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: i16_low16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v5, v4, 0x5040100
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: i16_low16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x i16>, <2 x i16> addrspace(1)* %x0, align 4
		%1 = load <2 x i16>, <2 x i16> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x i16> %0, <2 x i16> poison, <2 x i32> <i32 0, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x i16> %vy1.0.vec.insert, <2 x i16> %1, <2 x i32> <i32 0, i32 2>
		ret <2 x i16> %vy1.2.vec.insert
		}

		define <2 x i16> @i16_low16hi16bits(<2 x i16> addrspace(1)* %x0, <2 x i16> addrspace(1)* %x1) {
		; GFX9-LABEL: i16_low16hi16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0xffff
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_bfi_b32 v0, s4, v4, v5
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: i16_low16hi16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_bfi_b32 v0, 0xffff, v4, v5
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: i16_low16hi16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_bfi_b32 v0, 0xffff, v0, v1
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x i16>, <2 x i16> addrspace(1)* %x0, align 4
		%1 = load <2 x i16>, <2 x i16> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x i16> %0, <2 x i16> poison, <2 x i32> <i32 0, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x i16> %vy1.0.vec.insert, <2 x i16> %1, <2 x i32> <i32 0, i32 3>
		ret <2 x i16> %vy1.2.vec.insert
		}

		define <2 x i16> @i16_hi16low16bits(<2 x i16> addrspace(1)* %x0, <2 x i16> addrspace(1)* %x1) {
		; GFX9-LABEL: i16_hi16low16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_alignbit_b32 v0, v5, v4, 16
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: i16_hi16low16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_alignbit_b32 v0, v5, v4, 16
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: i16_hi16low16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_alignbit_b32 v0, v1, v0, 16
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x i16>, <2 x i16> addrspace(1)* %x0, align 4
		%1 = load <2 x i16>, <2 x i16> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x i16> %0, <2 x i16> poison, <2 x i32> <i32 1, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x i16> %vy1.0.vec.insert, <2 x i16> %1, <2 x i32> <i32 0, i32 2>
		ret <2 x i16> %vy1.2.vec.insert
		}

		define <2 x i16> @i16_hi16bits(<2 x i16> addrspace(1)* %x0, <2 x i16> addrspace(1)* %x1) {
		; GFX9-LABEL: i16_hi16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v5, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v5, v4, s4
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: i16_hi16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v4, v[0:1], off
		; GFX10-NEXT: global_load_dword v5, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v5, v4, 0x7060302
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: i16_hi16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: global_load_b32 v1, v[2:3], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x7060302
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%0 = load <2 x i16>, <2 x i16> addrspace(1)* %x0, align 4
		%1 = load <2 x i16>, <2 x i16> addrspace(1)* %x1, align 4
		%vy1.0.vec.insert = shufflevector <2 x i16> %0, <2 x i16> poison, <2 x i32> <i32 1, i32 undef>
		%vy1.2.vec.insert = shufflevector <2 x i16> %vy1.0.vec.insert, <2 x i16> %1, <2 x i32> <i32 0, i32 3>
		ret <2 x i16> %vy1.2.vec.insert
		}

		define <2 x i16> @v2i16_hi16bits(<2 x i16> addrspace(1)* %x0) {
		; GFX9-LABEL: v2i16_hi16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v0, v[0:1], off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: v2i16_hi16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v0, v[0:1], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: v2i16_hi16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%load0 = load <2 x i16>, <2 x i16> addrspace(1)* %x0, align 4
		%insert1 = insertelement <2 x i16> undef, i16 0, i32 0
		%insert2 = insertelement <2 x i16> %insert1, i16 0, i32 1
		%vec.ret = shufflevector <2 x i16> %insert2, <2 x i16> %load0, <2 x i32> <i32 0, i32 3>
		ret <2 x i16> %vec.ret
		}

		define <2 x half> @v2half_hi16bits(<2 x half> addrspace(1)* %x0) {
		; GFX9-LABEL: v2half_hi16bits:
		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v0, v[0:1], off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX10-LABEL: v2half_hi16bits:
		; GFX10: ; %bb.0: ; %entry
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX10-NEXT: global_load_dword v0, v[0:1], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX11-LABEL: v2half_hi16bits:
		; GFX11: ; %bb.0: ; %entry
		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
		; GFX11-NEXT: global_load_b32 v0, v[0:1], off
		; GFX11-NEXT: s_waitcnt vmcnt(0)
		; GFX11-NEXT: v_and_b32_e32 v0, 0xffff0000, v0
		; GFX11-NEXT: s_setpc_b64 s[30:31]
		entry:
		%load0 = load <2 x half>, <2 x half> addrspace(1)* %x0, align 4
		%insert1 = insertelement <2 x half> undef, half 0.0, i32 0
		%insert2 = insertelement <2 x half> %insert1, half 0.0, i32 1
		%vec.ret = shufflevector <2 x half> %insert2, <2 x half> %load0, <2 x i32> <i32 0, i32 3>
		ret <2 x half> %vec.ret
		}

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Use V_PERM to match buildvectors when inputs are not canonicalized (i.e. can't use V_PACK)ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 464779

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/lib/Target/AMDGPU/SOPInstructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.2darraymsaa.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.cd.g16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.intersect_ray.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

llvm/test/CodeGen/AMDGPU/add.v2i16.ll

llvm/test/CodeGen/AMDGPU/build-vector-packed-partial-undef.ll

llvm/test/CodeGen/AMDGPU/chain-hi-to-lo.ll

llvm/test/CodeGen/AMDGPU/combine-vload-extract.ll

llvm/test/CodeGen/AMDGPU/divergence-driven-buildvector.ll

llvm/test/CodeGen/AMDGPU/extract-subvector-16bit.ll

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.global.ll

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll

llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll

llvm/test/CodeGen/AMDGPU/fmax_legacy.f16.ll

llvm/test/CodeGen/AMDGPU/fmin_legacy.f16.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

llvm/test/CodeGen/AMDGPU/idot8s.ll

llvm/test/CodeGen/AMDGPU/idot8u.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.a16.dim.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.cd.a16.dim.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.cd.g16.encode.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.cd.g16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.encode.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.ll

llvm/test/CodeGen/AMDGPU/load-hi16.ll

llvm/test/CodeGen/AMDGPU/load-lo16.ll

llvm/test/CodeGen/AMDGPU/pack.v2f16.ll

llvm/test/CodeGen/AMDGPU/pack.v2i16.ll

llvm/test/CodeGen/AMDGPU/partial-shift-shrink.ll

llvm/test/CodeGen/AMDGPU/strict_fadd.f16.ll

llvm/test/CodeGen/AMDGPU/strict_fma.f16.ll

llvm/test/CodeGen/AMDGPU/strict_fmul.f16.ll

llvm/test/CodeGen/AMDGPU/strict_fsub.f16.ll

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll

[AMDGPU] Use V_PERM to match buildvectors when inputs are not canonicalized (i.e. can't use V_PACK)
ClosedPublic