This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
-
SelectionDAG.cpp
-
TargetLowering.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/
-
parity.ll
-
shift-accumulate.ll
-
AMDGPU/
-
bswap.ll
-
ds-alignment.ll
-
extract-subvector-16bit.ll
-
fshr.ll
-
idot4s.ll
-
idot4u.ll
-
idot8s.ll
-
idot8u.ll
-
saddsat.ll
-
scalar_to_vector.ll
-
shift-i128.ll
-
ssubsat.ll
6
trunc-combine.ll
-
uaddsat.ll
-
usubsat.ll
-
ARM/
-
illegal-bitfield-loadstore.ll
-
parity.ll
6
uxtb.ll
-
PowerPC/
-
fp-to-int-to-fp.ll
-
RISCV/
-
bswap-bitreverse.ll
-
ctlz-cttz-ctpop.ll
-
rv64zbb-zbp-zbkb.ll
-
rv64zbb.ll
-
rv64zbp.ll
-
sextw-removal.ll
-
SystemZ/
2
store_nonbytesized_vecs.ll
-
Thumb2/
1
thumb2-uxtb.ll
-
X86/
-
ctpop-combine.ll
-
illegal-bitfield-loadstore.ll
1
ins_subreg_coalesce-1.ll
-
load-local-v4i5.ll
-
masked_compressstore.ll
-
shift-mask.ll
-
vector-mulfix-legalize.ll

Differential D77804

[DAG] Enable ISD::SRL SimplifyMultipleUseDemandedBits handling inside SimplifyDemandedBits
ClosedPublic

Authored by RKSimon on Apr 9 2020, 7:20 AM.

Download Raw Diff

Details

Reviewers

arsenm
jonpa
efriedma
spatel
john.brawn
greened
craig.topper
dmgreen
deadalnix

Commits

rG69d5a038b90d: [DAG] Enable ISD::SRL SimplifyMultipleUseDemandedBits handling inside…

Summary

This patch allows SimplifyDemandedBits to call SimplifyMultipleUseDemandedBits in cases where the ISD::SRL source operand has other uses, enabling us to peek through the shifted value if we don't demand all the bits/elts.

This is another step towards removing SelectionDAG::GetDemandedBits and just using TargetLowering::SimplifyMultipleUseDemandedBits.

There a few cases where we end up with extra register moves which I think we can accept in exchange for the increased ILP.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	60,140 ms	x64 debian > LLVM.CodeGen/NVPTX::wmma.py

Event Timeline

RKSimon created this revision.Apr 9 2020, 7:20 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 9 2020, 7:20 AM

Herald added subscribers: danielkiss, kerbowa, dmgreen and 5 others. · View Herald Transcript

Harbormaster completed remote builds in B52513: Diff 256296.Apr 9 2020, 8:07 AM

RKSimon added a subscriber: foad.Apr 9 2020, 8:20 AM

RKSimon added inline comments.

llvm/test/CodeGen/AMDGPU/trunc-combine.ll
148	@arsenm @foad Not sure if pulling out the immediate is a good idea or not - shouldn't a u16 immediate be cheap?

arsenm added inline comments.Apr 9 2020, 9:26 AM

llvm/test/CodeGen/AMDGPU/trunc-combine.ll
148	This is worse. Integer constants -16 to 64 and a handful of FP values are free, but 0xffff is not so it requires materialization.

RKSimon planned changes to this revision.Jun 22 2020, 12:15 PM

Herald added a subscriber: steven.zhang. · View Herald TranscriptJun 22 2020, 12:15 PM

RKSimon mentioned this in rGe7a8ee00e6c3: [AMDGPU] Regenerate tests to fix whitespace indentations.Aug 2 2020, 10:11 AM

rebase

Herald added subscribers: luismarques, apazos, sameer.abuasal and 20 others. · View Herald TranscriptAug 2 2020, 10:22 AM

still looking at the remaining regressions

Harbormaster completed remote builds in B66693: Diff 282461.Aug 2 2020, 10:52 AM

RKSimon mentioned this in D85463: [GlobalISel] Add combine for (x & mask) -> x when (x & mask) == x.Aug 7 2020, 2:05 AM

RKSimon mentioned this in rG66a163f32817: [DAG] GetDemandedBits - remove custom AND handling..Aug 7 2020, 4:56 AM

rebase

RKSimon planned changes to this revision.Sep 9 2020, 8:57 AM

Harbormaster completed remote builds in B71100: Diff 290750.Sep 9 2020, 9:58 AM

rebase

Herald added subscribers: frasercrmck, pengfei, atanasyan and 2 others. · View Herald TranscriptDec 4 2020, 7:57 AM

Harbormaster completed remote builds in B81101: Diff 309539.Dec 4 2020, 8:39 AM

yubing added a subscriber: yubing.Dec 7 2020, 5:04 AM

rebase

RKSimon added inline comments.Jan 26 2021, 4:25 AM

llvm/test/CodeGen/RISCV/rv64Zbp.ll
1433 ↗	(On Diff #319268)	Looks like we've defeated the RISCVISD::GORCI matching code

Harbormaster completed remote builds in B86697: Diff 319268.Jan 26 2021, 5:14 AM

craig.topper added inline comments.Jan 26 2021, 12:43 PM

llvm/test/CodeGen/RISCV/rv64Zbp.ll
1433 ↗	(On Diff #319268)	Running the tests through instcombine also breaks GORCI matching.

craig.topper added inline comments.Jan 26 2021, 12:47 PM

llvm/test/CodeGen/RISCV/rv64Zbp.ll
1433 ↗	(On Diff #319268)	It's also worth noting, the tests that are failing are repeating the same pattern gorc pattern twice, which is redundant. The test was trying to test that we could detect the redundancy. I guess this patch may have seen some of the redundancy?

RKSimon planned changes to this revision.Jun 3 2021, 4:29 AM

rebase (still needs work)

RKSimon planned changes to this revision.Jul 25 2021, 8:29 AM

I've raised https://bugs.llvm.org/show_bug.cgi?id=51209 about the poor quality of the gorc2 pattern matching and the gorc2, gorc2 -> gorc2 tests.

Harbormaster completed remote builds in B116075: Diff 361510.Jul 25 2021, 9:07 AM

@RKSimon are the other problems with this patch than just the GORCI matching?

In D77804#3073304, @craig.topper wrote:

@RKSimon are the other problems with this patch than just the GORCI matching?

The GORCI matching is the main one.

There is also some minor issues with MatchRotate - we should be allowed to match rotate/funnel by constant pre-legalization (see ARM/ror.ll) as that can be re-expanded later without any harm done, before we see through the pattern and lose it, although now that we match this quite well in InstCombine I'm not sure is this is as likely to happen.

RKSimon mentioned this in D108058: [SelectionDAG] Optimize expansion for rotates/funnel shifts..Oct 19 2021, 11:54 AM

rebase

Harbormaster completed remote builds in B129602: Diff 380767.Oct 19 2021, 1:51 PM

RKSimon mentioned this in rG37e17f278fb5: [DAG] MatchRotate - remove (redundant) legal type check..Nov 2 2021, 4:39 AM

rebase

lenary removed a subscriber: lenary.Nov 2 2021, 6:05 AM

Harbormaster completed remote builds in B131945: Diff 384052.Nov 2 2021, 6:09 AM

RKSimon mentioned this in D113192: [DAG] MatchRotate - support rotate-by-constant of illegal types.Nov 4 2021, 8:09 AM

RKSimon mentioned this in rG812e64ef0c93: [DAG] MatchRotate - support rotate-by-constant of illegal types.Nov 19 2021, 3:15 AM

rebase

Harbormaster completed remote builds in B135098: Diff 388463.Nov 19 2021, 5:20 AM

rebase - squashed a few more regressions...

Harbormaster completed remote builds in B137110: Diff 391281.Dec 2 2021, 6:02 AM

RKSimon planned changes to this revision.Dec 10 2021, 2:19 AM

rebase

RKSimon planned changes to this revision.Jan 23 2022, 11:39 AM

Harbormaster completed remote builds in B145128: Diff 402360.Jan 23 2022, 3:12 PM

rebase

Herald added a project: Restricted Project. · View Herald TranscriptApr 6 2022, 2:53 AM

Herald added subscribers: • pcwang-thead, StephenFan. · View Herald Transcript

RKSimon planned changes to this revision.Apr 6 2022, 2:53 AM

Harbormaster completed remote builds in B158158: Diff 420761.Apr 6 2022, 3:32 AM

RKSimon mentioned this in D123523: [DAG] Add non-uniform vector support to (shl (srl x, c1), c2) -> (and (shift x, c3)).Apr 11 2022, 10:38 AM

RKSimon mentioned this in rGcfb3ee21857d: [DAG] Add non-uniform vector support to (shl (srl x, c1), c2) -> (and (shift x….Apr 13 2022, 3:37 AM

rebase

Harbormaster completed remote builds in B161391: Diff 425206.Apr 26 2022, 7:58 AM

RKSimon mentioned this in D124839: [DAG] Enable ISD::SHL SimplifyMultipleUseDemandedBits handling inside SimplifyDemandedBits.May 3 2022, 4:19 AM

Waiting for D124839 to land

RKSimon mentioned this in rG1ecc3d86ae3e: [DAG] Enable ISD::SHL SimplifyMultipleUseDemandedBits handling inside….May 14 2022, 1:50 AM

Rebased after D124839 to just handle ISD::SRL shifts

Herald added subscribers: kosarev, tpr. · View Herald TranscriptMay 14 2022, 2:16 AM

RKSimon added inline comments.May 14 2022, 2:22 AM

llvm/test/CodeGen/AMDGPU/trunc-combine.ll
148	@arsenm @foad At EuroLLVM Matt suggested that maybe we should increase the tolerance to 2 uses of the large immediates before pulling out the constant?
llvm/test/CodeGen/ARM/uxtb.ll
112	I'm going to take a look at this, but I'm really not familiar with the UXTB matching code, so any pointers would be appreciated.

Harbormaster completed remote builds in B164439: Diff 429424.May 14 2022, 3:31 AM

RKSimon mentioned this in D125607: [DAG] Fold (shl (srl x, c), c) -> and(x, m) even if srl has other uses.May 14 2022, 6:12 AM

arsenm added inline comments.May 16 2022, 6:17 AM

llvm/test/CodeGen/AMDGPU/trunc-combine.ll
148	s_mov_b32 K + 2 * v_and_b32_32 = 16 bytes, 12 cycles 2 * (v_and_b32_e32 K) = 16 bytes, 8 cycles which is clearly better. 3 * (v_and_b32_e32 K) = 24 bytes, 12 cycles So 2 uses of a constant seems plainly better for VOP1/VOP2 ops. Abbe that it becomes a code size vs. latency tradeoff

arsenm added inline comments.May 16 2022, 6:23 AM

llvm/test/CodeGen/AMDGPU/trunc-combine.ll
148	This decision is also generally made by SIFoldOperands. Probably need to fix it there and not in the DAG

foad added inline comments.May 16 2022, 6:35 AM

llvm/test/CodeGen/AMDGPU/trunc-combine.ll
148	I'm strongly in favour of never pulling out the constant (or rather, always folding into the instruction) and I have patches to that effect starting with D114643, which I'm hoping to get back to pretty soon.

RKSimon mentioned this in rGd40b7f0d5aec: [DAG] Fold (shl (srl x, c), c) -> and(x, m) even if srl has other uses.May 17 2022, 5:40 AM

RKSimon mentioned this in D125836: [DAG] Fold (srl (shl x, c1), c2) -> and(shl/srl(x, c3), m).May 17 2022, 2:18 PM

RKSimon mentioned this in D126117: [DAG] SimplifyDemandedBits - ISD::OR - attempt to simplify Op1 again once we have KnownBits from Op0.May 21 2022, 5:49 AM

rebase

AMDGPU changes LGTM.

Harbormaster completed remote builds in B165820: Diff 431345.May 23 2022, 6:13 AM

RKSimon added a reviewer: dmgreen.May 26 2022, 10:35 AM

RKSimon added inline comments.

llvm/test/CodeGen/ARM/uxtb.ll

112

instcombine optimises this as well:

define i32 @test10(i32 %p0) {
  %tmp1 = lshr i32 %p0, 7
  %tmp2 = and i32 %tmp1, 16253176
  %tmp4 = lshr i32 %p0, 12
  %tmp5 = and i32 %tmp4, 458759
  %tmp7 = or i32 %tmp5, %tmp2
  ret i32 %tmp7
}

which has the same problem:

_test10:
@ %bb.0:
        mov     r1, #248
        mov     r2, #7
        orr     r1, r1, #16252928
        orr     r2, r2, #458752
        and     r1, r1, r0, lsr #7
        and     r0, r2, r0, lsr #12
        orr     r0, r0, r1
        bx      lr

RKSimon added inline comments.May 26 2022, 10:38 AM

llvm/test/CodeGen/Thumb2/thumb2-uxtb.ll
185	same problem - instcombine will have already optimized this to: define i32 @test10(i32 %p0) { %tmp1 = lshr i32 %p0, 7 %tmp2 = and i32 %tmp1, 16253176 %tmp4 = lshr i32 %p0, 12 %tmp5 = and i32 %tmp4, 458759 %tmp7 = or i32 %tmp5, %tmp2 ret i32 %tmp7 } It feels like I'm avoiding the issue - but should I update the arm/thumb2 UXTB16 tests to match what the middle-end will have generated?

dmgreen added inline comments.May 27 2022, 6:37 AM

llvm/test/CodeGen/ARM/uxtb.ll
112	I was taking a look. The test is super old now, so old that it had signed types when it was originally added. I was surprised to see that `and 0x70007` is being recognised via an `and 0xff00ff` tablegen pattern - it goes into SelectionDAGISel::CheckAndMask which checks that the other mask bits are already 0. I think that is what this is trying to test - that a smaller and mask still matches the UXTB16. Is it possible to change it to something that still captures that, without relying on the multi-use fold of the %tmp2 not happening? Maybe something like this? %p = and i32 %p0, 3 %a = shl i32 65537, %p %b = lshr i32 %a, 1 %tmp7 = and i32 %b, 458759

RKSimon added inline comments.May 30 2022, 1:59 PM

llvm/test/CodeGen/ARM/uxtb.ll
112	Thanks for the hint - I'll give it a try

Herald added a subscriber: jsji. · View Herald TranscriptMay 30 2022, 1:59 PM

rebase with alternative uxtb16 tests

RKSimon added inline comments.Jun 1 2022, 3:25 AM

llvm/test/CodeGen/ARM/uxtb.ll
112	Thanks @dmgreen - those still match fine. Should I pre-commit these new tests and possibly alter the existing test10 variants with the -instcombine optimized IR to show they already fail to match?

Harbormaster completed remote builds in B167224: Diff 433345.Jun 1 2022, 4:07 AM

dmgreen added inline comments.Jun 1 2022, 7:03 AM

llvm/test/CodeGen/ARM/uxtb.ll
112	That sounds good to me.

RKSimon mentioned this in rGe1d02f6c37f7: [ARM][Thumb2] Refresh UXTB16 tests to match optimized IR from instcombine.Jun 1 2022, 7:30 AM

rebase

RKSimon added a subscriber: uweigand.Jun 1 2022, 7:58 AM

RKSimon added inline comments.

llvm/test/CodeGen/SystemZ/store_nonbytesized_vecs.ll
129–139	@jonpa @uweigand These tests are proving very fragile depending on the order of and/shifts - should SystemZ be preferring masking leading/trailing bits with shift-pairs over shift+and / and+shift do you think? We have TLI::shouldFoldConstantShiftPairToMask to hand that.

Harbormaster completed remote builds in B167262: Diff 433398.Jun 1 2022, 8:30 AM

uweigand added inline comments.Jun 10 2022, 5:23 AM

llvm/test/CodeGen/SystemZ/store_nonbytesized_vecs.ll
129–139	Well, this specific test only loads and then saves unmodified a 3xi31 vector, so ideally however the masking is done, it should be optimized away as unnecessary in either case. That's what currently happens, not sure why this is changing with this PR. In general, I think using an and-mask would be preferable over a shift pair on SystemZ.

Thanks @uweigand I'll take another look at this soon

RKSimon mentioned this in rGe4a124dda593: [DAG] Fold (srl (shl x, c1), c2) -> and(shl/srl(x, c3), m).Jun 20 2022, 12:37 AM

rebase after D125836

RKSimon planned changes to this revision.Jun 20 2022, 1:36 AM

Harbormaster completed remote builds in B170788: Diff 438291.Jun 20 2022, 1:37 AM

rebase

Harbormaster completed remote builds in B173767: Diff 442391.Jul 5 2022, 2:48 PM

rebase and prefer SimplifyDemandedBits over GetDemandedBits for trunc stores

Herald added a subscriber: ecnelises. · View Herald TranscriptJul 12 2022, 5:36 AM

Harbormaster completed remote builds in B174863: Diff 443924.Jul 12 2022, 6:16 AM

RKSimon mentioned this in rGded62411f730: [DAG] SimplifyDemandedBits - AND/OR/XOR - attempt basic knownbits….Jul 12 2022, 6:17 AM

Added (or (and X, C1), (and (or X, Y), C2)) -> (or (and X, C1|C2), (and Y, C2)) fold to try to reduce the SystemZ regression

Harbormaster completed remote builds in B174923: Diff 444009.Jul 12 2022, 12:04 PM

spatel added inline comments.Jul 12 2022, 1:25 PM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
6871 ↗	(On Diff #444009)	This could be a preliminary patch. I don't think we'd get that in IR either (even without extra uses): https://alive2.llvm.org/ce/z/g61VRe

spatel added inline comments.Jul 12 2022, 1:50 PM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
6871 ↗	(On Diff #444009)	If I'm reading the SystemZ debug spew correctly, we should have gotten this transform to fire twice, so it would do this: https://alive2.llvm.org/ce/z/tUsepa ...but we miss it because we don't revisit the last 'or' node? Is that what D127115 would solve?

RKSimon mentioned this in rG0c7380ebbd65: [DAG] Add or(and(x,c1),and(or(x,y),c2)) tests.Jul 17 2022, 10:52 AM

RKSimon mentioned this in rG53b90dd372c4: [DAG] Fold (or (and X, C1), (and (or X, Y), C2)) -> (or (and X, C1|C2), (and Y….

RKSimon added inline comments.Jul 17 2022, 11:21 AM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
6871 ↗	(On Diff #444009)	I've confirmed that D127115 solves the SystemZ fun3 regression but not fun2

IMO the fun2 regression probably shouldn't block the patch from being merged. I've looked into the sequences, and actually neither of them is even close to optimal.

Looking at the semantics, we have 8 x i32 inputs, which need to be truncated to i31, concatenated, and then stored, occupying 31 bytes of memory. Memory is written via three 8-byte stores, followed by a 4-byte, a 2-byte, and a 1-byte store, which does look optimal to me. However, the computation of the 64-bit values to be stored is not.

The first of these should be the value

(A << 33) | ((B << 2) & 0x1fffffffc) | ((C >> 29) & 3)

where A, B, and C are the first three i32 inputs.

However, the computation being performed is more like

((A << 25) | ((B >> 6) & 0x01ffffff)) << 8
| ((B << 58) | ((C & 0x7fffffff) << 27)) >> 56

which gets the correct result, but in about double the number of instructions or cycles that should be required.

While the variant with this PR is even slightly worse than the variant before, that's probably not really relevant given the fact both sequences are rather inefficient. Ideally, we could fix this to get (close to) an optimal sequence, but that would be a different issue. (I'm not even sure yet whether the current inefficiency is due to the middle end or the back end.)

Thanks - I have a lot of individual DAG / SimplifyDemanded patches in progress atm, plus we're now getting closer to completing D127115.

A few patches still have minor regressions that I'm addressing, but this one in particular I've been wondering how much of a real world issue illegal type copies like this actually are? If we were further away from 15.x branch I'd ask to get this in and we ensure we address it once all the patches are in, but given how close we are I'm going to wait for now.

RKSimon added a reviewer: deadalnix.Jul 22 2022, 7:19 AM

RKSimon mentioned this in rG5f89d2bae964: [DAG] Move OR(AND(X,C1),AND(OR(X,Y),C2)) -> OR(AND(X,OR(C1,C2)),AND(Y,C2)) fold….Jul 23 2022, 5:17 AM

I think I've covered all the remaining regressions now - D129765 has cleaned up a number of annoying cases - including the SystemZ v3i31 copy test!

Harbormaster completed remote builds in B177822: Diff 447979.Jul 27 2022, 4:17 AM

In D77804#3681806, @RKSimon wrote:

I think I've covered all the remaining regressions now - D129765 has cleaned up a number of annoying cases - including the SystemZ v3i31 copy test!

Thanks! SystemZ changes LGTM now as discussed above.

I think this is patch is good to go now - any more comments?

AMDGPU changes still LGTM.

x86 diffs LGTM

llvm/test/CodeGen/X86/ins_subreg_coalesce-1.ll
8–10	Not sure if this test still models some situation that we care about, but you could put a TODO note on it (don't need to copy to %ecx?).

This revision is now accepted and ready to land.Jul 28 2022, 5:56 AM

This revision was landed with ongoing or failed builds.Jul 28 2022, 6:11 AM

Closed by commit rG69d5a038b90d: [DAG] Enable ISD::SRL SimplifyMultipleUseDemandedBits handling inside… (authored by RKSimon). · Explain Why

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rG69d5a038b90d: [DAG] Enable ISD::SRL SimplifyMultipleUseDemandedBits handling inside….

Hi, we found a regression with some bpf code with this patch. The following shows the problem:

[$ ~/tmp] cat run.sh
/home/yhs/work/llvm-project/llvm/build.cur/install/bin/clang -target bpf -O2 -g -c t.c
[$ ~/tmp] cat t.c
typedef unsigned char u8;
struct event {
  u8 tag;
  u8 hostname[84];
};

void *g;
void bar(void *);

int foo() {
  struct event event = {};

  event.tag = 1;
  __builtin_memcpy(&event.hostname, g, 84);
  bar(&event);
  return 0;
}
[$ ~/tmp] ./run.sh
t.c:14:3: error: Looks like the BPF stack limit of 512 bytes is exceeded. Please move large on stack variables into BPF per-cpu array map.

  __builtin_memcpy(&event.hostname, g, 84);
  ^
t.c:14:3: error: Looks like the BPF stack limit of 512 bytes is exceeded. Please move large on stack variables into BPF per-cpu array map.

2 errors generated.
[$ ~/tmp]

The BPF program enforces the stack size <= 512 bytes. For the above program, with this patch, the code after dag insn selection is worse and eventually in register allocation stage, the stack size is more than 512 and caused the above issue.

To illustrate the problem in more details, without this patch, the lowered machine code looks like

  STB killed %7:gpr, %stack.1.event.i, 0, debug-location !21355 :: (store (s8) into %ir.event.i, align 8, !tbaa !21356); tracecon/src/bpf/tracecon.bpf.c:78:12 @[ tracecon/src/b
pf/tracecon.bpf.c:68:5 ]
  %8:gpr = LDB %6:gpr, 7, debug-location !21358 :: (load (s8) from %ir.call1.i + 7); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %8:gpr, %stack.1.event.i, 12, debug-location !21358 :: (store (s8) into %ir.hostname.i + 7); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.
c:68:5 ]
  %9:gpr = LDB %6:gpr, 6, debug-location !21358 :: (load (s8) from %ir.call1.i + 6); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %9:gpr, %stack.1.event.i, 11, debug-location !21358 :: (store (s8) into %ir.hostname.i + 6); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.
c:68:5 ]
  %10:gpr = LDB %6:gpr, 5, debug-location !21358 :: (load (s8) from %ir.call1.i + 5); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %10:gpr, %stack.1.event.i, 10, debug-location !21358 :: (store (s8) into %ir.hostname.i + 5); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf
.c:68:5 ]
  %11:gpr = LDB %6:gpr, 4, debug-location !21358 :: (load (s8) from %ir.call1.i + 4); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %11:gpr, %stack.1.event.i, 9, debug-location !21358 :: (store (s8) into %ir.hostname.i + 4); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.
c:68:5 ]
  %12:gpr = LDB %6:gpr, 3, debug-location !21358 :: (load (s8) from %ir.call1.i + 3); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %12:gpr, %stack.1.event.i, 8, debug-location !21358 :: (store (s8) into %ir.hostname.i + 3); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.
c:68:5 ]
  %13:gpr = LDB %6:gpr, 2, debug-location !21358 :: (load (s8) from %ir.call1.i + 2); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %13:gpr, %stack.1.event.i, 7, debug-location !21358 :: (store (s8) into %ir.hostname.i + 2); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.
c:68:5 ]
  %14:gpr = LDB %6:gpr, 1, debug-location !21358 :: (load (s8) from %ir.call1.i + 1); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %14:gpr, %stack.1.event.i, 6, debug-location !21358 :: (store (s8) into %ir.hostname.i + 1); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.
c:68:5 ]
  %15:gpr = LDB %6:gpr, 0, debug-location !21358 :: (load (s8) from %ir.call1.i); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %15:gpr, %stack.1.event.i, 5, debug-location !21358 :: (store (s8) into %ir.hostname.i); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68
:5 ]
  %16:gpr = LDB %6:gpr, 15, debug-location !21358 :: (load (s8) from %ir.call1.i + 15); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %16:gpr, %stack.1.event.i, 20, debug-location !21358 :: (store (s8) into %ir.hostname.i + 15); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bp
f.c:68:5 ]
  %17:gpr = LDB %6:gpr, 14, debug-location !21358 :: (load (s8) from %ir.call1.i + 14); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %17:gpr, %stack.1.event.i, 19, debug-location !21358 :: (store (s8) into %ir.hostname.i + 14); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bp
f.c:68:5 ]
...
  %88:gpr = LDB %6:gpr, 83, debug-location !21358 :: (load (s8) from %ir.call1.i + 83); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %88:gpr, %stack.1.event.i, 88, debug-location !21358 :: (store (s8) into %ir.hostname.i + 83); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %89:gpr = LDB %6:gpr, 82, debug-location !21358 :: (load (s8) from %ir.call1.i + 82); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %89:gpr, %stack.1.event.i, 87, debug-location !21358 :: (store (s8) into %ir.hostname.i + 82); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %90:gpr = LDB %6:gpr, 81, debug-location !21358 :: (load (s8) from %ir.call1.i + 81); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %90:gpr, %stack.1.event.i, 86, debug-location !21358 :: (store (s8) into %ir.hostname.i + 81); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %91:gpr = LDB %6:gpr, 80, debug-location !21358 :: (load (s8) from %ir.call1.i + 80); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB killed %91:gpr, %stack.1.event.i, 85, debug-location !21358 :: (store (s8) into %ir.hostname.i + 80); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]

Pretty straightforward byte load and stores and the corresponding stack after register allocation,

# *** IR Dump After Greedy Register Allocator (greedy) ***:
# Machine code for function tcp_v4_connect_exit: NoPHIs, TracksLiveness, TiedOpsRewritten, TracksDebugUserValues
Frame Objects:
  fi#0: size=4, align=4, at location [SP]
  fi#1: size=89, align=8, at location [SP]
  fi#2: size=4, align=4, at location [SP]
Function Live Ins: $r1 in %0

But this patch, the code becomes very complex,

  %8:gpr = LDB %6:gpr, 71, debug-location !21358 :: (load (s8) from %ir.call1.i + 71); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %9:gpr = SLL_ri %8:gpr(tied-def 0), 8, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %10:gpr = LDB %6:gpr, 70, debug-location !21358 :: (load (s8) from %ir.call1.i + 70); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %11:gpr = OR_rr %9:gpr(tied-def 0), killed %10:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %12:gpr = LDB %6:gpr, 15, debug-location !21358 :: (load (s8) from %ir.call1.i + 15); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %13:gpr = SLL_ri %12:gpr(tied-def 0), 8, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %14:gpr = LDB %6:gpr, 14, debug-location !21358 :: (load (s8) from %ir.call1.i + 14); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %15:gpr = OR_rr %13:gpr(tied-def 0), killed %14:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
...
  %71:gpr = OR_rr %69:gpr(tied-def 0), killed %70:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %72:gpr = LDB %6:gpr, 77, debug-location !21358 :: (load (s8) from %ir.call1.i + 77); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %73:gpr = SLL_ri %72:gpr(tied-def 0), 8, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %74:gpr = LDB %6:gpr, 76, debug-location !21358 :: (load (s8) from %ir.call1.i + 76); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %75:gpr = OR_rr %73:gpr(tied-def 0), killed %74:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %76:gpr = LDB %6:gpr, 79, debug-location !21358 :: (load (s8) from %ir.call1.i + 79); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %77:gpr = SLL_ri %76:gpr(tied-def 0), 8, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %78:gpr = LDB %6:gpr, 78, debug-location !21358 :: (load (s8) from %ir.call1.i + 78); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %79:gpr = OR_rr %77:gpr(tied-def 0), killed %78:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %80:gpr = SLL_ri %27:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %81:gpr = OR_rr %80:gpr(tied-def 0), killed %23:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %82:gpr = SLL_ri %19:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %83:gpr = OR_rr %82:gpr(tied-def 0), killed %71:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %84:gpr = SLL_ri %15:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %85:gpr = OR_rr %84:gpr(tied-def 0), killed %67:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %86:gpr = SLL_ri %11:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %87:gpr = OR_rr %86:gpr(tied-def 0), killed %63:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %88:gpr = SLL_ri %43:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
...
  %100:gpr = LDB %6:gpr, 74, debug-location !21358 :: (load (s8) from %ir.call1.i + 74); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %101:gpr = LDB %6:gpr, 75, debug-location !21358 :: (load (s8) from %ir.call1.i + 75); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %102:gpr = SLL_ri %101:gpr(tied-def 0), 8, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %103:gpr = OR_rr %102:gpr(tied-def 0), %100:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %104:gpr = SLL_ri %103:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %105:gpr = OR_rr %104:gpr(tied-def 0), killed %99:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %106:gpr = SLL_ri %79:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %107:gpr = OR_rr %106:gpr(tied-def 0), killed %75:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %108:gpr = LDB %6:gpr, 64, debug-location !21358 :: (load (s8) from %ir.call1.i + 64); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %109:gpr = LDB %6:gpr, 65, debug-location !21358 :: (load (s8) from %ir.call1.i + 65); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %110:gpr = SLL_ri %109:gpr(tied-def 0), 8, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %111:gpr = OR_rr %110:gpr(tied-def 0), %108:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %112:gpr = LDB %6:gpr, 66, debug-location !21358 :: (load (s8) from %ir.call1.i + 66); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %113:gpr = LDB %6:gpr, 67, debug-location !21358 :: (load (s8) from %ir.call1.i + 67); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %114:gpr = SLL_ri %113:gpr(tied-def 0), 8, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %115:gpr = OR_rr %114:gpr(tied-def 0), %112:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %116:gpr = SLL_ri %115:gpr(tied-def 0), 16, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %117:gpr = OR_rr %116:gpr(tied-def 0), killed %111:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
...
  %225:gpr = OR_rr %224:gpr(tied-def 0), killed %117:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %226:gpr = SLL_ri %107:gpr(tied-def 0), 32, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  %227:gpr = OR_rr %226:gpr(tied-def 0), killed %105:gpr, debug-location !21358; tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB %193:gpr, %stack.1.event.i, 8, debug-location !21358 :: (store (s8) into %ir.hostname.i + 3); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5
 ]
  STB %192:gpr, %stack.1.event.i, 7, debug-location !21358 :: (store (s8) into %ir.hostname.i + 2); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB %189:gpr, %stack.1.event.i, 6, debug-location !21358 :: (store (s8) into %ir.hostname.i + 1); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB %188:gpr, %stack.1.event.i, 5, debug-location !21358 :: (store (s8) into %ir.hostname.i); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68:5 ]
  STB %183:gpr, %stack.1.event.i, 16, debug-location !21358 :: (store (s8) into %ir.hostname.i + 11); tracecon/src/bpf/tracecon.bpf.c:79:2 @[ tracecon/src/bpf/tracecon.bpf.c:68
:5 ]
...

And the code becomes very complex and inefficient and this caused later larger stack size,

# *** IR Dump After Greedy Register Allocator (greedy) ***:
# Machine code for function tcp_v4_connect_exit: NoPHIs, TracksLiveness, TiedOpsRewritten, TracksDebugUserValues
Frame Objects:
  fi#0: size=4, align=4, at location [SP]
  fi#1: size=89, align=8, at location [SP]
  fi#2: size=4, align=4, at location [SP]
  fi#3: size=8, align=8, at location [SP]
...
  fi#57: size=8, align=8, at location [SP]
  fi#58: size=8, align=8, at location [SP]
  fi#59: size=8, align=8, at location [SP]
  fi#60: size=8, align=8, at location [SP]
Function Live Ins: $r1 in %0

Could you help take a look at this problem and suggest how to fix it?

@yonghong-song Please can you raise this as an issue and include the IR as well? AFAICT this is a perf regression, and not an actual bug

In D77804#3804930, @RKSimon wrote:

@yonghong-song Please can you raise this as an issue and include the IR as well? AFAICT this is a perf regression, and not an actual bug

Thanks @RKSimon, just created an llvm-project issue https://github.com/llvm/llvm-project/issues/57872 thanks for taking care of this!

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

SelectionDAG.cpp

18 lines

TargetLowering.cpp

10 lines

test/

CodeGen/

AArch64/

parity.ll

4 lines

shift-accumulate.ll

4 lines

AMDGPU/

bswap.ll

12 lines

ds-alignment.ll

54 lines

extract-subvector-16bit.ll

95 lines

27 lines

40 lines

81 lines

425 lines

289 lines

9 lines

33 lines

16 lines

9 lines

5 lines

5 lines

10 lines

ARM/

illegal-bitfield-loadstore.ll

55 lines

parity.ll

4 lines

uxtb.ll

9 lines

PowerPC/

fp-to-int-to-fp.ll

38 lines

RISCV/

4 lines

8 lines

10 lines

26 lines

12 lines

2 lines

SystemZ/

store_nonbytesized_vecs.ll

35 lines

Thumb2/

thumb2-uxtb.ll

12 lines

X86/

ctpop-combine.ll

16 lines

illegal-bitfield-loadstore.ll

22 lines

ins_subreg_coalesce-1.ll

5 lines

load-local-v4i5.ll

19 lines

masked_compressstore.ll

50 lines

shift-mask.ll

7 lines

vector-mulfix-legalize.ll

12 lines

Diff 429424

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,487 Lines • ▼ Show 20 Lines	return TLI->SimplifyMultipleUseDemandedBits(V, DemandedBits, DemandedElts,
*this);		*this);
case ISD::Constant: {		case ISD::Constant: {
const APInt &CVal = cast<ConstantSDNode>(V)->getAPIntValue();		const APInt &CVal = cast<ConstantSDNode>(V)->getAPIntValue();
APInt NewVal = CVal & DemandedBits;		APInt NewVal = CVal & DemandedBits;
if (NewVal != CVal)		if (NewVal != CVal)
return getConstant(NewVal, SDLoc(V), V.getValueType());		return getConstant(NewVal, SDLoc(V), V.getValueType());
break;		break;
}		}
case ISD::SRL:
// Only look at single-use SRLs.
if (!V.getNode()->hasOneUse())
break;
if (auto *RHSC = dyn_cast<ConstantSDNode>(V.getOperand(1))) {
// See if we can recursively simplify the LHS.
unsigned Amt = RHSC->getZExtValue();

// Watch out for shift count overflow though.
if (Amt >= DemandedBits.getBitWidth())
break;
APInt SrcDemandedBits = DemandedBits << Amt;
if (SDValue SimplifyLHS =
GetDemandedBits(V.getOperand(0), SrcDemandedBits))
return getNode(ISD::SRL, SDLoc(V), V.getValueType(), SimplifyLHS,
V.getOperand(1));
}
break;
}		}
return SDValue();		return SDValue();
}		}

/// SignBitIsZero - Return true if the sign bit of Op is known to be zero. We		/// SignBitIsZero - Return true if the sign bit of Op is known to be zero. We
/// use this predicate to simplify operations downstream.		/// use this predicate to simplify operations downstream.
bool SelectionDAG::SignBitIsZero(SDValue Op, unsigned Depth) const {		bool SelectionDAG::SignBitIsZero(SDValue Op, unsigned Depth) const {
unsigned BitWidth = Op.getScalarValueSizeInBits();		unsigned BitWidth = Op.getScalarValueSizeInBits();
▲ Show 20 Lines • Show All 9,172 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,749 Lines • ▼ Show 20 Lines	if (const APInt *SA =
if (SimplifyDemandedBits(Op0, InDemandedMask, DemandedElts, Known, TLO,		if (SimplifyDemandedBits(Op0, InDemandedMask, DemandedElts, Known, TLO,
Depth + 1))		Depth + 1))
return true;		return true;
assert(!Known.hasConflict() && "Bits known to be one AND zero?");		assert(!Known.hasConflict() && "Bits known to be one AND zero?");
Known.Zero.lshrInPlace(ShAmt);		Known.Zero.lshrInPlace(ShAmt);
Known.One.lshrInPlace(ShAmt);		Known.One.lshrInPlace(ShAmt);
// High bits known zero.		// High bits known zero.
Known.Zero.setHighBits(ShAmt);		Known.Zero.setHighBits(ShAmt);

		// Attempt to avoid multi-use ops if we don't need anything from them.
		if (!InDemandedMask.isAllOnesValue() \|\| !DemandedElts.isAllOnesValue()) {
		SDValue DemandedOp0 = SimplifyMultipleUseDemandedBits(
		Op0, InDemandedMask, DemandedElts, TLO.DAG, Depth + 1);
		if (DemandedOp0) {
		SDValue NewOp = TLO.DAG.getNode(ISD::SRL, dl, VT, DemandedOp0, Op1);
		return TLO.CombineTo(Op, NewOp);
		}
		}
}		}
break;		break;
}		}
case ISD::SRA: {		case ISD::SRA: {
SDValue Op0 = Op.getOperand(0);		SDValue Op0 = Op.getOperand(0);
SDValue Op1 = Op.getOperand(1);		SDValue Op1 = Op.getOperand(1);
EVT ShiftVT = Op1.getValueType();		EVT ShiftVT = Op1.getValueType();

▲ Show 20 Lines • Show All 7,903 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/parity.ll

Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%2 = and i16 %1, 1		%2 = and i16 %1, 1
ret i16 %2		ret i16 %2
}		}

define i17 @parity_17(i17 %x) {		define i17 @parity_17(i17 %x) {
; CHECK-LABEL: parity_17:		; CHECK-LABEL: parity_17:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: and w8, w0, #0x1ffff		; CHECK-NEXT: and w8, w0, #0x1ffff
; CHECK-NEXT: eor w8, w8, w8, lsr #16		; CHECK-NEXT: eor w9, w8, w8, lsr #16
; CHECK-NEXT: eor w8, w8, w8, lsr #8		; CHECK-NEXT: eor w8, w9, w8, lsr #8
; CHECK-NEXT: eor w8, w8, w8, lsr #4		; CHECK-NEXT: eor w8, w8, w8, lsr #4
; CHECK-NEXT: eor w8, w8, w8, lsr #2		; CHECK-NEXT: eor w8, w8, w8, lsr #2
; CHECK-NEXT: eor w8, w8, w8, lsr #1		; CHECK-NEXT: eor w8, w8, w8, lsr #1
; CHECK-NEXT: and w0, w8, #0x1		; CHECK-NEXT: and w0, w8, #0x1
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%1 = tail call i17 @llvm.ctpop.i17(i17 %x)		%1 = tail call i17 @llvm.ctpop.i17(i17 %x)
%2 = and i17 %1, 1		%2 = and i17 %1, 1
ret i17 %2		ret i17 %2
▲ Show 20 Lines • Show All 102 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/shift-accumulate.ll

Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%4 = ashr <4 x i32> %2, <i32 30, i32 30, i32 30, i32 30>		%4 = ashr <4 x i32> %2, <i32 30, i32 30, i32 30, i32 30>
%5 = or <4 x i32> %3, %4		%5 = or <4 x i32> %3, %4
ret <4 x i32> %5		ret <4 x i32> %5
}		}

define <1 x i64> @ssra_v1i64(<2 x i32> %0) {		define <1 x i64> @ssra_v1i64(<2 x i32> %0) {
; CHECK-LABEL: ssra_v1i64:		; CHECK-LABEL: ssra_v1i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: bic v0.2s, #64, lsl #24
; CHECK-NEXT: ushr d1, d0, #63		; CHECK-NEXT: ushr d1, d0, #63
		; CHECK-NEXT: bic v0.2s, #64, lsl #24
; CHECK-NEXT: ssra d1, d0, #62		; CHECK-NEXT: ssra d1, d0, #62
; CHECK-NEXT: fmov d0, d1		; CHECK-NEXT: fmov d0, d1
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%2 = and <2 x i32> %0, <i32 3221225471, i32 3221225471>		%2 = and <2 x i32> %0, <i32 3221225471, i32 3221225471>
%3 = bitcast <2 x i32> %2 to <1 x i64>		%3 = bitcast <2 x i32> %2 to <1 x i64>
%4 = lshr <1 x i64> %3, <i64 63>		%4 = lshr <1 x i64> %3, <i64 63>
%5 = ashr <1 x i64> %3, <i64 62>		%5 = ashr <1 x i64> %3, <i64 62>
%6 = or <1 x i64> %4, %5		%6 = or <1 x i64> %4, %5
ret <1 x i64> %6		ret <1 x i64> %6
}		}

define <2 x i64> @ssra_v2i64(<4 x i32> %0) {		define <2 x i64> @ssra_v2i64(<4 x i32> %0) {
; CHECK-LABEL: ssra_v2i64:		; CHECK-LABEL: ssra_v2i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: bic v0.4s, #64, lsl #24
; CHECK-NEXT: ushr v1.2d, v0.2d, #63		; CHECK-NEXT: ushr v1.2d, v0.2d, #63
		; CHECK-NEXT: bic v0.4s, #64, lsl #24
; CHECK-NEXT: ssra v1.2d, v0.2d, #62		; CHECK-NEXT: ssra v1.2d, v0.2d, #62
; CHECK-NEXT: mov v0.16b, v1.16b		; CHECK-NEXT: mov v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%2 = and <4 x i32> %0, <i32 3221225471, i32 3221225471,i32 3221225471,i32 3221225471>		%2 = and <4 x i32> %0, <i32 3221225471, i32 3221225471,i32 3221225471,i32 3221225471>
%3 = bitcast <4 x i32> %2 to <2 x i64>		%3 = bitcast <4 x i32> %2 to <2 x i64>
%4 = lshr <2 x i64> %3, <i64 63, i64 63>		%4 = lshr <2 x i64> %3, <i64 63, i64 63>
%5 = ashr <2 x i64> %3, <i64 62, i64 62>		%5 = ashr <2 x i64> %3, <i64 62, i64 62>
%6 = or <2 x i64> %4, %5		%6 = or <2 x i64> %4, %5
ret <2 x i64> %6		ret <2 x i64> %6
}		}

llvm/test/CodeGen/AMDGPU/bswap.ll

	Show First 20 Lines • Show All 457 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_alignbit_b32 v2, v1, v1, 8			; SI-NEXT: v_alignbit_b32 v2, v1, v1, 8
	; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24			; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
	; SI-NEXT: s_mov_b32 s4, 0xff00ff			; SI-NEXT: s_mov_b32 s4, 0xff00ff
	; SI-NEXT: v_alignbit_b32 v3, v0, v0, 8			; SI-NEXT: v_alignbit_b32 v3, v0, v0, 8
	; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24			; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24
	; SI-NEXT: v_bfi_b32 v1, s4, v1, v2			; SI-NEXT: v_bfi_b32 v1, s4, v1, v2
	; SI-NEXT: v_bfi_b32 v0, s4, v0, v3			; SI-NEXT: v_bfi_b32 v0, s4, v0, v3
	; SI-NEXT: v_and_b32_e32 v1, 0xffff0000, v1			; SI-NEXT: v_and_b32_e32 v2, 0xffff0000, v1
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v2
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_bswap_v2i16:			; VI-LABEL: v_bswap_v2i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s4, 0x2030001			; VI-NEXT: s_mov_b32 s4, 0x2030001
	; VI-NEXT: v_perm_b32 v0, 0, v0, s4			; VI-NEXT: v_perm_b32 v0, 0, v0, s4
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_alignbit_b32 v7, v2, v2, 8			; SI-NEXT: v_alignbit_b32 v7, v2, v2, 8
	; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24			; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24
	; SI-NEXT: v_bfi_b32 v1, s4, v1, v4			; SI-NEXT: v_bfi_b32 v1, s4, v1, v4
	; SI-NEXT: v_bfi_b32 v0, s4, v0, v5			; SI-NEXT: v_bfi_b32 v0, s4, v0, v5
	; SI-NEXT: v_bfi_b32 v3, s4, v3, v6			; SI-NEXT: v_bfi_b32 v3, s4, v3, v6
	; SI-NEXT: v_bfi_b32 v2, s4, v2, v7			; SI-NEXT: v_bfi_b32 v2, s4, v2, v7
	; SI-NEXT: v_and_b32_e32 v4, s5, v1			; SI-NEXT: v_and_b32_e32 v4, s5, v1
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v3, s5, v3			; SI-NEXT: v_and_b32_e32 v5, s5, v3
	; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_or_b32_e32 v0, v0, v4			; SI-NEXT: v_or_b32_e32 v0, v0, v4
	; SI-NEXT: v_or_b32_e32 v2, v2, v3			; SI-NEXT: v_or_b32_e32 v2, v2, v5
	; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16			; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_bswap_v4i16:			; VI-LABEL: v_bswap_v4i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s4, 0x2030001			; VI-NEXT: s_mov_b32 s4, 0x2030001
	; VI-NEXT: v_perm_b32 v0, 0, v0, s4			; VI-NEXT: v_perm_b32 v0, 0, v0, s4
	; VI-NEXT: v_perm_b32 v1, 0, v1, s4			; VI-NEXT: v_perm_b32 v1, 0, v1, s4
	Show All 34 Lines

llvm/test/CodeGen/AMDGPU/ds-alignment.ll

	Show First 20 Lines • Show All 203 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_kernel void @ds8align1(<2 x i32> addrspace(3)* %in, <2 x i32> addrspace(3)* %out) {			define amdgpu_kernel void @ds8align1(<2 x i32> addrspace(3)* %in, <2 x i32> addrspace(3)* %out) {
	; ALIGNED-SDAG-LABEL: ds8align1:			; ALIGNED-SDAG-LABEL: ds8align1:
	; ALIGNED-SDAG: ; %bb.0:			; ALIGNED-SDAG: ; %bb.0:
	; ALIGNED-SDAG-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; ALIGNED-SDAG-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(0)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(0)
	; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v0, s0			; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v0, s0
	; ALIGNED-SDAG-NEXT: ds_read_u8 v2, v0			; ALIGNED-SDAG-NEXT: ds_read_u8 v1, v0
	; ALIGNED-SDAG-NEXT: ds_read_u8 v3, v0 offset:1			; ALIGNED-SDAG-NEXT: ds_read_u8 v2, v0 offset:1
	; ALIGNED-SDAG-NEXT: ds_read_u8 v4, v0 offset:2			; ALIGNED-SDAG-NEXT: ds_read_u8 v3, v0 offset:2
	; ALIGNED-SDAG-NEXT: ds_read_u8 v5, v0 offset:3			; ALIGNED-SDAG-NEXT: ds_read_u8 v4, v0 offset:3
	; ALIGNED-SDAG-NEXT: ds_read_u8 v6, v0 offset:4			; ALIGNED-SDAG-NEXT: ds_read_u8 v5, v0 offset:4
	; ALIGNED-SDAG-NEXT: ds_read_u8 v7, v0 offset:5			; ALIGNED-SDAG-NEXT: ds_read_u8 v6, v0 offset:5
	; ALIGNED-SDAG-NEXT: ds_read_u8 v8, v0 offset:6			; ALIGNED-SDAG-NEXT: ds_read_u8 v8, v0 offset:6
	; ALIGNED-SDAG-NEXT: ds_read_u8 v0, v0 offset:7			; ALIGNED-SDAG-NEXT: ds_read_u8 v0, v0 offset:7
	; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v1, s1			; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v7, s1
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(5)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v4 offset:2			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v5 offset:4
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(5)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v5 offset:3			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v6 offset:5
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v2			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v3 offset:2
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v3 offset:1			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v4 offset:3
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(5)			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v1
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v8 offset:6			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v2 offset:1
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(5)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(7)
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v0 offset:7			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v8 offset:6
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v6 offset:4			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(7)
	; ALIGNED-SDAG-NEXT: ds_write_b8 v1, v7 offset:5			; ALIGNED-SDAG-NEXT: ds_write_b8 v7, v0 offset:7
	; ALIGNED-SDAG-NEXT: s_endpgm			; ALIGNED-SDAG-NEXT: s_endpgm
	;			;
	; ALIGNED-GISEL-LABEL: ds8align1:			; ALIGNED-GISEL-LABEL: ds8align1:
	; ALIGNED-GISEL: ; %bb.0:			; ALIGNED-GISEL: ; %bb.0:
	; ALIGNED-GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; ALIGNED-GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; ALIGNED-GISEL-NEXT: s_mov_b32 s2, 8			; ALIGNED-GISEL-NEXT: s_mov_b32 s2, 8
	; ALIGNED-GISEL-NEXT: s_waitcnt lgkmcnt(0)			; ALIGNED-GISEL-NEXT: s_waitcnt lgkmcnt(0)
	; ALIGNED-GISEL-NEXT: v_mov_b32_e32 v0, s0			; ALIGNED-GISEL-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_kernel void @ds8align2(<2 x i32> addrspace(3)* %in, <2 x i32> addrspace(3)* %out) {			define amdgpu_kernel void @ds8align2(<2 x i32> addrspace(3)* %in, <2 x i32> addrspace(3)* %out) {
	; ALIGNED-SDAG-LABEL: ds8align2:			; ALIGNED-SDAG-LABEL: ds8align2:
	; ALIGNED-SDAG: ; %bb.0:			; ALIGNED-SDAG: ; %bb.0:
	; ALIGNED-SDAG-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; ALIGNED-SDAG-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(0)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(0)
	; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v0, s0			; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v0, s0
	; ALIGNED-SDAG-NEXT: ds_read_u16 v1, v0 offset:2			; ALIGNED-SDAG-NEXT: ds_read_u16 v1, v0 offset:4
	; ALIGNED-SDAG-NEXT: ds_read_u16 v2, v0			; ALIGNED-SDAG-NEXT: ds_read_u16 v2, v0 offset:2
	; ALIGNED-SDAG-NEXT: ds_read_u16 v3, v0 offset:6			; ALIGNED-SDAG-NEXT: ds_read_u16 v3, v0
	; ALIGNED-SDAG-NEXT: ds_read_u16 v0, v0 offset:4			; ALIGNED-SDAG-NEXT: ds_read_u16 v0, v0 offset:6
	; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v4, s1			; ALIGNED-SDAG-NEXT: v_mov_b32_e32 v4, s1
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)
	; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v1 offset:2			; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v1 offset:4
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)
	; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v2			; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v2 offset:2
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)
	; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v3 offset:6			; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v3
	; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)			; ALIGNED-SDAG-NEXT: s_waitcnt lgkmcnt(3)
	; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v0 offset:4			; ALIGNED-SDAG-NEXT: ds_write_b16 v4, v0 offset:6
	; ALIGNED-SDAG-NEXT: s_endpgm			; ALIGNED-SDAG-NEXT: s_endpgm
	;			;
	; ALIGNED-GISEL-LABEL: ds8align2:			; ALIGNED-GISEL-LABEL: ds8align2:
	; ALIGNED-GISEL: ; %bb.0:			; ALIGNED-GISEL: ; %bb.0:
	; ALIGNED-GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; ALIGNED-GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; ALIGNED-GISEL-NEXT: s_waitcnt lgkmcnt(0)			; ALIGNED-GISEL-NEXT: s_waitcnt lgkmcnt(0)
	; ALIGNED-GISEL-NEXT: v_mov_b32_e32 v0, s0			; ALIGNED-GISEL-NEXT: v_mov_b32_e32 v0, s0
	; ALIGNED-GISEL-NEXT: ds_read_u16 v1, v0			; ALIGNED-GISEL-NEXT: ds_read_u16 v1, v0
	▲ Show 20 Lines • Show All 644 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/extract-subvector-16bit.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs -o - %s \| FileCheck -check-prefix=SI %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs -o - %s \| FileCheck -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -verify-machineinstrs -o - %s \| FileCheck -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -verify-machineinstrs -o - %s \| FileCheck -check-prefix=GFX9 %s

	define <4 x i16> @extract_4xi16(<8 x i16> addrspace(1) * %p0, <8 x i16> addrspace(1) * %p1) {			define <4 x i16> @extract_4xi16(<8 x i16> addrspace(1) * %p0, <8 x i16> addrspace(1) * %p1) {
	; SI-LABEL: extract_4xi16:			; SI-LABEL: extract_4xi16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: s_cbranch_scc0 .LBB0_2			; SI-NEXT: s_cbranch_scc0 .LBB0_2
	; SI-NEXT: ; %bb.1: ; %F			; SI-NEXT: ; %bb.1: ; %F
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s4, s6			; SI-NEXT: s_mov_b32 s4, s6
	; SI-NEXT: s_mov_b32 s5, s6			; SI-NEXT: s_mov_b32 s5, s6
	; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 glc			; SI-NEXT: buffer_load_ushort v5, v[2:3], s[4:7], 0 addr64 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v5, v[2:3], s[4:7], 0 addr64 offset:2 glc			; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:2 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v6, v[2:3], s[4:7], 0 addr64 offset:4 glc			; SI-NEXT: buffer_load_ushort v6, v[2:3], s[4:7], 0 addr64 offset:4 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v7, v[2:3], s[4:7], 0 addr64 offset:6 glc			; SI-NEXT: buffer_load_ushort v7, v[2:3], s[4:7], 0 addr64 offset:6 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:8 glc			; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:8 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:10 glc			; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:10 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:12 glc			; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:12 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[2:3], s[4:7], 0 addr64 offset:14 glc			; SI-NEXT: buffer_load_ushort v2, v[2:3], s[4:7], 0 addr64 offset:14 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v7			; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v7
	; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v5			; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v4
	; SI-NEXT: v_or_b32_e32 v2, v6, v2			; SI-NEXT: v_or_b32_e32 v2, v6, v2
	; SI-NEXT: v_or_b32_e32 v3, v4, v3			; SI-NEXT: v_or_b32_e32 v3, v5, v3
	; SI-NEXT: v_lshrrev_b32_e32 v4, 16, v3
	; SI-NEXT: s_mov_b64 vcc, exec			; SI-NEXT: s_mov_b64 vcc, exec
	; SI-NEXT: s_cbranch_execz .LBB0_3			; SI-NEXT: s_cbranch_execz .LBB0_3
	; SI-NEXT: s_branch .LBB0_4			; SI-NEXT: s_branch .LBB0_4
	; SI-NEXT: .LBB0_2:			; SI-NEXT: .LBB0_2:
	; SI-NEXT: ; implicit-def: $vgpr3			; SI-NEXT: ; implicit-def: $vgpr3
	; SI-NEXT: ; implicit-def: $vgpr4			; SI-NEXT: ; implicit-def: $vgpr4
	; SI-NEXT: ; implicit-def: $vgpr2			; SI-NEXT: ; implicit-def: $vgpr2
	; SI-NEXT: s_mov_b64 vcc, 0			; SI-NEXT: s_mov_b64 vcc, 0
	; SI-NEXT: .LBB0_3: ; %T			; SI-NEXT: .LBB0_3: ; %T
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s4, s6			; SI-NEXT: s_mov_b32 s4, s6
	; SI-NEXT: s_mov_b32 s5, s6			; SI-NEXT: s_mov_b32 s5, s6
	; SI-NEXT: buffer_load_ushort v3, v[0:1], s[4:7], 0 addr64 glc			; SI-NEXT: buffer_load_ushort v3, v[0:1], s[4:7], 0 addr64 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:2 glc			; SI-NEXT: buffer_load_ushort v4, v[0:1], s[4:7], 0 addr64 offset:2 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v4, v[0:1], s[4:7], 0 addr64 offset:4 glc			; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:4 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v5, v[0:1], s[4:7], 0 addr64 offset:6 glc			; SI-NEXT: buffer_load_ushort v5, v[0:1], s[4:7], 0 addr64 offset:6 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v6, v[0:1], s[4:7], 0 addr64 offset:8 glc			; SI-NEXT: buffer_load_ushort v6, v[0:1], s[4:7], 0 addr64 offset:8 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v6, v[0:1], s[4:7], 0 addr64 offset:10 glc			; SI-NEXT: buffer_load_ushort v6, v[0:1], s[4:7], 0 addr64 offset:10 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v6, v[0:1], s[4:7], 0 addr64 offset:12 glc			; SI-NEXT: buffer_load_ushort v6, v[0:1], s[4:7], 0 addr64 offset:12 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64 offset:14 glc			; SI-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64 offset:14 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v5			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v5
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v4
	; SI-NEXT: v_or_b32_e32 v2, v4, v0			; SI-NEXT: v_or_b32_e32 v2, v2, v0
	; SI-NEXT: v_or_b32_e32 v3, v3, v1			; SI-NEXT: v_or_b32_e32 v3, v3, v1
	; SI-NEXT: v_lshrrev_b32_e32 v4, 16, v3
	; SI-NEXT: .LBB0_4: ; %exit			; SI-NEXT: .LBB0_4: ; %exit
	; SI-NEXT: v_bfe_i32 v0, v3, 0, 16			; SI-NEXT: v_bfe_i32 v0, v3, 0, 16
	; SI-NEXT: v_bfe_i32 v1, v4, 0, 16			; SI-NEXT: v_bfe_i32 v1, v4, 0, 16
	; SI-NEXT: v_bfe_i32 v2, v2, 0, 16			; SI-NEXT: v_bfe_i32 v2, v2, 0, 16
	; SI-NEXT: s_mov_b32 s4, 0xffff			; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: v_mov_b32_e32 v3, 0x8000			; SI-NEXT: v_mov_b32_e32 v3, 0x8000
	; SI-NEXT: v_mov_b32_e32 v4, 0xffff0000			; SI-NEXT: v_mov_b32_e32 v4, 0xffff0000
	; SI-NEXT: v_bfrev_b32_e32 v5, 1			; SI-NEXT: v_bfrev_b32_e32 v5, 1
	; SI-NEXT: v_mov_b32_e32 v6, 0xffff8000			; SI-NEXT: v_mov_b32_e32 v6, 0xffff8000
	; SI-NEXT: v_mov_b32_e32 v7, s4			; SI-NEXT: v_mov_b32_e32 v7, s4
	; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v0			; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v0
	; SI-NEXT: v_cndmask_b32_e32 v0, v7, v3, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v7, v3, vcc
	; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v1			; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v1
	; SI-NEXT: v_cndmask_b32_e32 v1, v4, v5, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, v4, v5, vcc
	; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v2			; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v2
	; SI-NEXT: v_cndmask_b32_e32 v2, -1, v6, vcc			; SI-NEXT: v_cndmask_b32_e32 v2, -1, v6, vcc
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v2			; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v2
	; SI-NEXT: v_and_b32_e32 v2, s4, v2			; SI-NEXT: v_and_b32_e32 v3, s4, v2
	; SI-NEXT: v_or_b32_e32 v2, v2, v3			; SI-NEXT: v_or_b32_e32 v2, v3, v4
	; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16			; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: extract_4xi16:			; GFX9-LABEL: extract_4xi16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cbranch_scc0 .LBB0_2			; GFX9-NEXT: s_cbranch_scc0 .LBB0_2
	; GFX9-NEXT: ; %bb.1: ; %F			; GFX9-NEXT: ; %bb.1: ; %F
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[2:3], off glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[2:3], off glc
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 glc			; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:2 glc			; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:2 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:4 glc			; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:4 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:6 glc			; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:6 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:8 glc			; SI-NEXT: buffer_load_ushort v5, v[2:3], s[4:7], 0 addr64 offset:8 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v5, v[2:3], s[4:7], 0 addr64 offset:10 glc			; SI-NEXT: buffer_load_ushort v4, v[2:3], s[4:7], 0 addr64 offset:10 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v6, v[2:3], s[4:7], 0 addr64 offset:12 glc			; SI-NEXT: buffer_load_ushort v6, v[2:3], s[4:7], 0 addr64 offset:12 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[2:3], s[4:7], 0 addr64 offset:14 glc			; SI-NEXT: buffer_load_ushort v2, v[2:3], s[4:7], 0 addr64 offset:14 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v2
	; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v5			; SI-NEXT: v_lshlrev_b32_e32 v7, 16, v4
	; SI-NEXT: v_or_b32_e32 v2, v6, v2			; SI-NEXT: v_or_b32_e32 v3, v6, v3
	; SI-NEXT: v_or_b32_e32 v3, v4, v3			; SI-NEXT: v_or_b32_e32 v5, v5, v7
	; SI-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v3
	; SI-NEXT: s_mov_b64 vcc, exec			; SI-NEXT: s_mov_b64 vcc, exec
	; SI-NEXT: s_cbranch_execz .LBB1_3			; SI-NEXT: s_cbranch_execz .LBB1_3
	; SI-NEXT: s_branch .LBB1_4			; SI-NEXT: s_branch .LBB1_4
	; SI-NEXT: .LBB1_2:			; SI-NEXT: .LBB1_2:
	; SI-NEXT: ; implicit-def: $vgpr3
	; SI-NEXT: ; implicit-def: $vgpr5			; SI-NEXT: ; implicit-def: $vgpr5
	; SI-NEXT: ; implicit-def: $vgpr2
	; SI-NEXT: ; implicit-def: $vgpr4			; SI-NEXT: ; implicit-def: $vgpr4
				; SI-NEXT: ; implicit-def: $vgpr3
				; SI-NEXT: ; implicit-def: $vgpr2
	; SI-NEXT: s_mov_b64 vcc, 0			; SI-NEXT: s_mov_b64 vcc, 0
	; SI-NEXT: .LBB1_3: ; %T			; SI-NEXT: .LBB1_3: ; %T
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s4, s6			; SI-NEXT: s_mov_b32 s4, s6
	; SI-NEXT: s_mov_b32 s5, s6			; SI-NEXT: s_mov_b32 s5, s6
	; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 glc			; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:2 glc			; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:2 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:4 glc			; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:4 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:6 glc			; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:6 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v3, v[0:1], s[4:7], 0 addr64 offset:8 glc			; SI-NEXT: buffer_load_ushort v5, v[0:1], s[4:7], 0 addr64 offset:8 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:10 glc			; SI-NEXT: buffer_load_ushort v4, v[0:1], s[4:7], 0 addr64 offset:10 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v4, v[0:1], s[4:7], 0 addr64 offset:12 glc			; SI-NEXT: buffer_load_ushort v3, v[0:1], s[4:7], 0 addr64 offset:12 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64 offset:14 glc			; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 offset:14 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v2
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v4
	; SI-NEXT: v_or_b32_e32 v2, v4, v0			; SI-NEXT: v_or_b32_e32 v3, v3, v0
	; SI-NEXT: v_or_b32_e32 v3, v3, v1			; SI-NEXT: v_or_b32_e32 v5, v5, v1
	; SI-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v3
	; SI-NEXT: .LBB1_4: ; %exit			; SI-NEXT: .LBB1_4: ; %exit
	; SI-NEXT: v_bfe_i32 v0, v3, 0, 16			; SI-NEXT: v_bfe_i32 v0, v5, 0, 16
	; SI-NEXT: v_bfe_i32 v1, v5, 0, 16			; SI-NEXT: v_bfe_i32 v1, v4, 0, 16
				; SI-NEXT: v_bfe_i32 v3, v3, 0, 16
	; SI-NEXT: v_bfe_i32 v2, v2, 0, 16			; SI-NEXT: v_bfe_i32 v2, v2, 0, 16
	; SI-NEXT: v_bfe_i32 v3, v4, 0, 16
	; SI-NEXT: v_mov_b32_e32 v4, 0xffff			; SI-NEXT: v_mov_b32_e32 v4, 0xffff
	; SI-NEXT: v_mov_b32_e32 v5, 0x8000			; SI-NEXT: v_mov_b32_e32 v5, 0x8000
	; SI-NEXT: v_mov_b32_e32 v6, 0xffff0000			; SI-NEXT: v_mov_b32_e32 v6, 0xffff0000
	; SI-NEXT: v_bfrev_b32_e32 v7, 1			; SI-NEXT: v_bfrev_b32_e32 v7, 1
	; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v0			; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v0
	; SI-NEXT: v_cndmask_b32_e32 v0, v4, v5, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v4, v5, vcc
	; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v1			; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v1
	; SI-NEXT: v_cndmask_b32_e32 v1, v6, v7, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, v6, v7, vcc
	; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v2
	; SI-NEXT: v_cndmask_b32_e32 v2, v4, v5, vcc
	; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v3			; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v3
	; SI-NEXT: v_cndmask_b32_e32 v3, v6, v7, vcc			; SI-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
				; SI-NEXT: v_cmp_lt_i32_e32 vcc, -1, v2
				; SI-NEXT: v_cndmask_b32_e32 v4, v6, v7, vcc
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_or_b32_e32 v2, v2, v3			; SI-NEXT: v_or_b32_e32 v2, v3, v4
	; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16			; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v4
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: extract_4xi16_2:			; GFX9-LABEL: extract_4xi16_2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cbranch_scc0 .LBB1_2			; GFX9-NEXT: s_cbranch_scc0 .LBB1_2
	; GFX9-NEXT: ; %bb.1: ; %F			; GFX9-NEXT: ; %bb.1: ; %F
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[2:3], off glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[2:3], off glc
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:10 glc			; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:10 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:12 glc			; SI-NEXT: buffer_load_ushort v8, v[2:3], s[4:7], 0 addr64 offset:12 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v2, v[2:3], s[4:7], 0 addr64 offset:14 glc			; SI-NEXT: buffer_load_ushort v2, v[2:3], s[4:7], 0 addr64 offset:14 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v7			; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v7
	; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v5			; SI-NEXT: v_lshlrev_b32_e32 v7, 16, v5
				; SI-NEXT: v_cvt_f32_f16_e32 v3, v5
	; SI-NEXT: v_or_b32_e32 v2, v6, v2			; SI-NEXT: v_or_b32_e32 v2, v6, v2
	; SI-NEXT: v_or_b32_e32 v4, v4, v3			; SI-NEXT: v_or_b32_e32 v4, v4, v7
	; SI-NEXT: v_cvt_f32_f16_e32 v2, v2			; SI-NEXT: v_cvt_f32_f16_e32 v2, v2
	; SI-NEXT: v_cvt_f32_f16_e32 v3, v4
	; SI-NEXT: v_lshrrev_b32_e32 v4, 16, v4
	; SI-NEXT: v_cvt_f32_f16_e32 v4, v4			; SI-NEXT: v_cvt_f32_f16_e32 v4, v4
	; SI-NEXT: s_mov_b64 vcc, exec			; SI-NEXT: s_mov_b64 vcc, exec
	; SI-NEXT: s_cbranch_execz .LBB2_3			; SI-NEXT: s_cbranch_execz .LBB2_3
	; SI-NEXT: s_branch .LBB2_4			; SI-NEXT: s_branch .LBB2_4
	; SI-NEXT: .LBB2_2:			; SI-NEXT: .LBB2_2:
	; SI-NEXT: ; implicit-def: $vgpr3
	; SI-NEXT: ; implicit-def: $vgpr4			; SI-NEXT: ; implicit-def: $vgpr4
				; SI-NEXT: ; implicit-def: $vgpr3
	; SI-NEXT: ; implicit-def: $vgpr2			; SI-NEXT: ; implicit-def: $vgpr2
	; SI-NEXT: s_mov_b64 vcc, 0			; SI-NEXT: s_mov_b64 vcc, 0
	; SI-NEXT: .LBB2_3: ; %T			; SI-NEXT: .LBB2_3: ; %T
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s4, s6			; SI-NEXT: s_mov_b32 s4, s6
	; SI-NEXT: s_mov_b32 s5, s6			; SI-NEXT: s_mov_b32 s5, s6
	; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 glc			; SI-NEXT: buffer_load_ushort v2, v[0:1], s[4:7], 0 addr64 glc
	Show All 12 Lines
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64 offset:14 glc			; SI-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64 offset:14 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v5			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v5
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v3			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v3
	; SI-NEXT: v_or_b32_e32 v0, v4, v0			; SI-NEXT: v_or_b32_e32 v0, v4, v0
	; SI-NEXT: v_or_b32_e32 v1, v2, v1			; SI-NEXT: v_or_b32_e32 v1, v2, v1
	; SI-NEXT: v_cvt_f32_f16_e32 v2, v0			; SI-NEXT: v_cvt_f32_f16_e32 v2, v0
	; SI-NEXT: v_cvt_f32_f16_e32 v3, v1			; SI-NEXT: v_cvt_f32_f16_e32 v4, v1
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v1			; SI-NEXT: v_cvt_f32_f16_e32 v3, v3
	; SI-NEXT: v_cvt_f32_f16_e32 v4, v0
	; SI-NEXT: .LBB2_4: ; %exit			; SI-NEXT: .LBB2_4: ; %exit
	; SI-NEXT: v_cvt_f16_f32_e32 v0, v3			; SI-NEXT: v_cvt_f16_f32_e32 v0, v4
	; SI-NEXT: v_cvt_f16_f32_e32 v1, v4			; SI-NEXT: v_cvt_f16_f32_e32 v1, v3
	; SI-NEXT: v_cvt_f16_f32_e32 v2, v2			; SI-NEXT: v_cvt_f16_f32_e32 v2, v2
	; SI-NEXT: v_mov_b32_e32 v3, 0x3fa00000			; SI-NEXT: v_mov_b32_e32 v3, 0x3fa00000
	; SI-NEXT: v_mov_b32_e32 v4, 0x3f200000			; SI-NEXT: v_mov_b32_e32 v4, 0x3f200000
	; SI-NEXT: v_cvt_f32_f16_e32 v0, v0			; SI-NEXT: v_cvt_f32_f16_e32 v0, v0
	; SI-NEXT: v_cvt_f32_f16_e32 v1, v1			; SI-NEXT: v_cvt_f32_f16_e32 v1, v1
	; SI-NEXT: v_cvt_f32_f16_e32 v2, v2			; SI-NEXT: v_cvt_f32_f16_e32 v2, v2
	; SI-NEXT: v_cmp_nge_f32_e32 vcc, 0.5, v0			; SI-NEXT: v_cmp_nge_f32_e32 vcc, 0.5, v0
	; SI-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	▲ Show 20 Lines • Show All 63 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show First 20 Lines • Show All 659 Lines • ▼ Show 20 Lines
	}			}

	define <2 x i16> @v_fshr_v2i16(<2 x i16> %src0, <2 x i16> %src1, <2 x i16> %src2) {			define <2 x i16> @v_fshr_v2i16(<2 x i16> %src0, <2 x i16> %src1, <2 x i16> %src2) {
	; SI-LABEL: v_fshr_v2i16:			; SI-LABEL: v_fshr_v2i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_or_b32_e32 v5, 16, v5			; SI-NEXT: v_or_b32_e32 v5, 16, v5
	; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; SI-NEXT: v_alignbit_b32 v1, v1, v3, v5			; SI-NEXT: v_or_b32_e32 v4, 16, v4
	; SI-NEXT: v_or_b32_e32 v3, 16, v4
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_alignbit_b32 v0, v0, v2, v3			; SI-NEXT: v_alignbit_b32 v1, v1, v3, v5
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_alignbit_b32 v0, v0, v2, v4
	; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; SI-NEXT: v_and_b32_e32 v0, s4, v0
				; SI-NEXT: v_or_b32_e32 v0, v0, v3
				; SI-NEXT: v_and_b32_e32 v1, s4, v1
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_v2i16:			; VI-LABEL: v_fshr_v2i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; VI-NEXT: v_mov_b32_e32 v5, 1			; VI-NEXT: v_mov_b32_e32 v5, 1
	; VI-NEXT: v_lshrrev_b16_sdwa v4, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshrrev_b16_sdwa v4, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; SI-NEXT: v_alignbit_b32 v1, v1, v5, v9			; SI-NEXT: v_alignbit_b32 v1, v1, v5, v9
	; SI-NEXT: v_or_b32_e32 v5, 16, v8			; SI-NEXT: v_or_b32_e32 v5, 16, v8
	; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; SI-NEXT: v_alignbit_b32 v0, v0, v4, v5			; SI-NEXT: v_alignbit_b32 v0, v0, v4, v5
	; SI-NEXT: v_or_b32_e32 v4, 16, v11			; SI-NEXT: v_or_b32_e32 v4, 16, v11
	; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v7			; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v7
	; SI-NEXT: v_alignbit_b32 v3, v3, v5, v4			; SI-NEXT: v_alignbit_b32 v3, v3, v5, v4
	; SI-NEXT: v_or_b32_e32 v4, 16, v10			; SI-NEXT: v_or_b32_e32 v5, 16, v10
	; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v6			; SI-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; SI-NEXT: s_mov_b32 s4, 0xffff			; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: v_alignbit_b32 v2, v2, v5, v4			; SI-NEXT: v_alignbit_b32 v2, v2, v6, v5
	; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v3
	; SI-NEXT: v_and_b32_e32 v2, s4, v2			; SI-NEXT: v_and_b32_e32 v2, s4, v2
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_and_b32_e32 v0, s4, v0			; SI-NEXT: v_and_b32_e32 v0, s4, v0
	; SI-NEXT: v_or_b32_e32 v2, v2, v3			; SI-NEXT: v_or_b32_e32 v2, v2, v4
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16			; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; SI-NEXT: v_and_b32_e32 v3, s4, v3
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_v4i16:			; VI-LABEL: v_fshr_v4i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; VI-NEXT: v_mov_b32_e32 v8, 1			; VI-NEXT: v_mov_b32_e32 v8, 1
	; VI-NEXT: v_lshrrev_b16_sdwa v7, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshrrev_b16_sdwa v7, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	▲ Show 20 Lines • Show All 400 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

	Show First 20 Lines • Show All 960 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff			; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 8, 8			; GFX7-NEXT: v_bfe_i32 v3, v2, 16, 8
	; GFX7-NEXT: v_bfe_i32 v4, v2, 0, 8			; GFX7-NEXT: v_bfe_i32 v4, v2, 0, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_ashrrev_i32_e32 v5, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_bfe_i32 v2, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v6, v0, 8, 8			; GFX7-NEXT: v_bfe_i32 v6, v0, 16, 8
	; GFX7-NEXT: v_bfe_i32 v7, v0, 0, 8			; GFX7-NEXT: v_bfe_i32 v7, v0, 0, 8
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v3			; GFX7-NEXT: v_ashrrev_i32_e32 v8, 24, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v6			; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_bfe_i32 v8, v0, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v4, v6, v4
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
	; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 8			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
				; GFX7-NEXT: v_alignbit_b32 v2, 0, v2, 16
				; GFX7-NEXT: v_alignbit_b32 v0, 0, v0, 16
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2			; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
	; GFX7-NEXT: v_ashrrev_i32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v8, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v7, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
				; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
				; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
				; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v5, v8, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot4_acc16_vecMul:			; GFX8-LABEL: idot4_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 174 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

	Show First 20 Lines • Show All 1,866 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xff00			; GFX7-NEXT: s_mov_b32 s4, 0xff00
	; GFX7-NEXT: s_movk_i32 s5, 0xff			; GFX7-NEXT: s_movk_i32 s5, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, s4, v2
	; GFX7-NEXT: v_and_b32_e32 v4, s5, v2			; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, s4, v0
				; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2
				; GFX7-NEXT: v_and_b32_e32 v2, s5, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v7, s5, v0			; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v6			; GFX7-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX7-NEXT: v_or_b32_e32 v4, v7, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v3			; GFX7-NEXT: v_alignbit_b32 v3, s10, v3, 16
	; GFX7-NEXT: v_and_b32_e32 v3, s5, v3			; GFX7-NEXT: v_alignbit_b32 v6, 0, v6, 16
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s5, v4
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v7, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
				; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v4, v7, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v5, v8, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_acc16_vecMul:			; GFX8-LABEL: udot4_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 257 Lines • ▼ Show 20 Lines
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: global_load_ubyte v3, v0, s[2:3]			; GFX9-NODL-NEXT: global_load_ubyte v3, v0, s[2:3]
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v5, 16, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3			; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
	; GFX9-NODL-NEXT: v_mul_lo_u16_e32 v8, v4, v5			; GFX9-NODL-NEXT: v_mul_lo_u16_e32 v7, v4, v5
	; GFX9-NODL-NEXT: v_or_b32_sdwa v6, v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v8, 8, v6
	; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v7, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1			; GFX9-NODL-NEXT: v_or_b32_sdwa v6, v7, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v8, 16, v6			; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PRESERVE src0_sel:BYTE_1 src1_sel:BYTE_1
	; GFX9-NODL-NEXT: v_or_b32_e32 v7, v7, v8			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 8, v6
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v7, 8, v7
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3			; GFX9-NODL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
	; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v7
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 8, v6
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v1, v4, v5, v1
	; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v6			; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v6
				; GFX9-NODL-NEXT: v_mad_legacy_u16 v1, v4, v5, v1
				; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v8
	; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot4_acc8_vecMul:			; GFX9-DL-LABEL: udot4_acc8_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v8, v4, v5			; GFX9-DL-NEXT: v_mul_lo_u16_e32 v7, v4, v5
	; GFX9-DL-NEXT: v_or_b32_sdwa v6, v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v6
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v7, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1			; GFX9-DL-NEXT: v_or_b32_sdwa v6, v7, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v8, 16, v6			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PRESERVE src0_sel:BYTE_1 src1_sel:BYTE_1
	; GFX9-DL-NEXT: v_or_b32_e32 v7, v7, v8			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v6
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v7
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3			; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v7
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v6
	; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v4, v5, v1
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v6			; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v6
				; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v4, v5, v1
				; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v8
	; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_acc8_vecMul:			; GFX10-DL-LABEL: udot4_acc8_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_clause 0x1			; GFX10-DL-NEXT: s_clause 0x1
	; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-DL-NEXT: global_load_ubyte v3, v0, s[0:1]			; GFX10-DL-NEXT: global_load_ubyte v3, v0, s[0:1]
	; GFX10-DL-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX10-DL-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 24, v2			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 24, v2
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX10-DL-NEXT: v_lshrrev_b16 v6, 8, v1
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v2			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; GFX10-DL-NEXT: v_lshrrev_b16 v8, 8, v2			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v2
				; GFX10-DL-NEXT: v_lshrrev_b16 v9, 8, v2
	; GFX10-DL-NEXT: v_mul_lo_u16 v4, v4, v5			; GFX10-DL-NEXT: v_mul_lo_u16 v4, v4, v5
	; GFX10-DL-NEXT: v_lshrrev_b16 v5, 8, v1
	; GFX10-DL-NEXT: v_mul_lo_u16 v9, v6, v7
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u16 v1, v1, v2, v3			; GFX10-DL-NEXT: v_mad_u16 v1, v1, v2, v3
				; GFX10-DL-NEXT: v_mul_lo_u16 v5, v7, v8
				; GFX10-DL-NEXT: v_mul_lo_u16 v6, v6, v9
	; GFX10-DL-NEXT: v_lshlrev_b16 v4, 8, v4			; GFX10-DL-NEXT: v_lshlrev_b16 v4, 8, v4
	; GFX10-DL-NEXT: v_mul_lo_u16 v5, v5, v8			; GFX10-DL-NEXT: v_lshlrev_b16 v6, 8, v6
	; GFX10-DL-NEXT: v_or_b32_sdwa v4, v9, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v5, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_lshlrev_b16 v5, 8, v5
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v8, 16, v4
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 8, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 8, v4
	; GFX10-DL-NEXT: v_or_b32_sdwa v5, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v5			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v5
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v5			; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v5
	; GFX10-DL-NEXT: v_mad_u16 v1, v6, v7, v1			; GFX10-DL-NEXT: v_mad_u16 v1, v7, v8, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v2			; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v2
	; GFX10-DL-NEXT: global_store_byte v0, v1, s[0:1]			; GFX10-DL-NEXT: global_store_byte v0, v1, s[0:1]
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%idx = call i32 @llvm.amdgcn.workitem.id.x()			%idx = call i32 @llvm.amdgcn.workitem.id.x()
	%gep1 = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %src1, i32 %idx			%gep1 = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %src1, i32 %idx
	Show All 21 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

	Show First 20 Lines • Show All 2,201 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff			; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 20, 4			; GFX7-NEXT: v_bfe_i32 v8, v2, 0, 4
	; GFX7-NEXT: v_bfe_i32 v4, v2, 16, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 4, 4
	; GFX7-NEXT: v_bfe_i32 v5, v2, 4, 4
	; GFX7-NEXT: v_bfe_i32 v6, v2, 0, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v10, v0, 20, 4			; GFX7-NEXT: v_bfe_i32 v15, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v11, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 4, 4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 4, 4			; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
	; GFX7-NEXT: v_bfe_i32 v13, v0, 0, 4			; GFX7-NEXT: v_and_b32_e32 v15, s4, v15
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v3			; GFX7-NEXT: v_bfe_i32 v5, v2, 8, 4
	; GFX7-NEXT: v_or_b32_e32 v4, v6, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v10
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 16, v12
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v13
	; GFX7-NEXT: v_bfe_i32 v14, v0, 24, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5
	; GFX7-NEXT: v_or_b32_e32 v6, v11, v10
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v14
	; GFX7-NEXT: v_and_b32_e32 v14, s4, v16
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
	; GFX7-NEXT: v_bfe_i32 v8, v2, 8, 4			; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4
	; GFX7-NEXT: v_bfe_i32 v15, v0, 8, 4			; GFX7-NEXT: v_and_b32_e32 v13, s4, v13
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_bfe_i32 v7, v2, 24, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 24, 4
				; GFX7-NEXT: v_bfe_i32 v4, v2, 20, 4
				; GFX7-NEXT: v_bfe_i32 v7, v2, 16, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v2
	; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4			; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
				; GFX7-NEXT: v_bfe_i32 v10, v0, 24, 4
				; GFX7-NEXT: v_bfe_i32 v11, v0, 20, 4
				; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4
				; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0
	; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v15			; GFX7-NEXT: v_and_b32_e32 v12, s4, v12
	; GFX7-NEXT: v_mad_u32_u24 v1, v16, v11, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 16, v5
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v5, v0
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
	; GFX7-NEXT: v_mad_u32_u24 v0, v15, v10, v0			; GFX7-NEXT: v_and_b32_e32 v14, s4, v14
				; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
				; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
				; GFX7-NEXT: v_and_b32_e32 v11, s4, v11
				; GFX7-NEXT: v_mad_u32_u24 v0, v7, v14, v0
				; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
				; GFX7-NEXT: v_and_b32_e32 v10, s4, v10
				; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v9			; GFX7-NEXT: v_and_b32_e32 v9, s4, v9
	; GFX7-NEXT: v_mad_u32_u24 v0, v7, v12, v0			; GFX7-NEXT: v_and_b32_e32 v16, s4, v16
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v14, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc16_vecMul:			; GFX8-LABEL: idot8_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 571 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff			; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_mov_b32 s5, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_ashrrev_i32_e32 v3, 28, v2			; GFX7-NEXT: v_bfe_i32 v7, v2, 0, 4
	; GFX7-NEXT: v_bfe_i32 v4, v2, 24, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 24, 4
	; GFX7-NEXT: v_bfe_i32 v5, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v6, v2, 16, 4
	; GFX7-NEXT: v_bfe_i32 v7, v2, 12, 4
	; GFX7-NEXT: v_bfe_i32 v8, v2, 8, 4
	; GFX7-NEXT: v_bfe_i32 v9, v2, 4, 4
	; GFX7-NEXT: v_bfe_i32 v2, v2, 0, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_ashrrev_i32_e32 v11, 28, v0			; GFX7-NEXT: v_bfe_i32 v14, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 24, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v13, v0, 20, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 4
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 8, 4
	; GFX7-NEXT: v_bfe_i32 v15, v0, 12, 4			; GFX7-NEXT: v_ashrrev_i32_e32 v8, 28, v2
	; GFX7-NEXT: v_bfe_i32 v16, v0, 8, 4			; GFX7-NEXT: v_bfe_i32 v9, v2, 12, 4
	; GFX7-NEXT: v_bfe_i32 v17, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v2, v2, 4, 4
	; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 4			; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v10			; GFX7-NEXT: v_bfe_i32 v10, v0, 24, 4
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5			; GFX7-NEXT: v_bfe_i32 v11, v0, 20, 4
	; GFX7-NEXT: v_or_b32_e32 v6, v8, v7			; GFX7-NEXT: v_bfe_i32 v12, v0, 16, 4
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v9			; GFX7-NEXT: v_bfe_i32 v13, v0, 8, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v11			; GFX7-NEXT: v_ashrrev_i32_e32 v15, 28, v0
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v12			; GFX7-NEXT: v_bfe_i32 v16, v0, 12, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v13			; GFX7-NEXT: v_bfe_i32 v0, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v14			; GFX7-NEXT: v_and_b32_e32 v14, s4, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v15			; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v16
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v17
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v5, s5, v5
	; GFX7-NEXT: v_or_b32_e32 v7, v8, v7
	; GFX7-NEXT: v_or_b32_e32 v8, v10, v9
	; GFX7-NEXT: v_or_b32_e32 v9, v13, v12
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v2, s5, v2
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v9
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v2
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v0
	; GFX7-NEXT: v_and_b32_e32 v6, s5, v8
	; GFX7-NEXT: v_bfe_u32 v8, v2, 8, 8
	; GFX7-NEXT: v_bfe_u32 v14, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5			; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8			; GFX7-NEXT: v_and_b32_e32 v13, s4, v13
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v16, 24, v16
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v14, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v4			; GFX7-NEXT: v_alignbit_b32 v9, 0, v9, 24
	; GFX7-NEXT: v_and_b32_e32 v15, s4, v5			; GFX7-NEXT: v_alignbit_b32 v16, 0, v16, 24
	; GFX7-NEXT: v_mad_u32_u24 v0, v6, v12, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v6, v13, v0
	; GFX7-NEXT: v_bfe_u32 v10, v4, 8, 8			; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
	; GFX7-NEXT: v_bfe_u32 v16, v5, 8, 8			; GFX7-NEXT: v_and_b32_e32 v12, s4, v12
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v15, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0
	; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8			; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
	; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v0, v10, v16, v0
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v11			; GFX7-NEXT: v_and_b32_e32 v11, s4, v11
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v5, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v5, v12, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v11, v0			; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
				; GFX7-NEXT: v_and_b32_e32 v10, s4, v10
				; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0
				; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
				; GFX7-NEXT: v_and_b32_e32 v15, s4, v15
				; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v8, v15, v0
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc8_vecMul:			; GFX8-LABEL: idot8_acc8_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 20, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 20, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 28, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 28, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 12, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 12, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 4, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 4, v1
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 20, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v10, 20, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 28, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v11, 28, v2
				; GFX9-NEXT: v_lshrrev_b32_e32 v12, 12, v2
				; GFX9-NEXT: v_lshrrev_b32_e32 v13, 8, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v14, 4, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v14, 4, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v15, 12, v1			; GFX9-NEXT: v_lshlrev_b16_e32 v15, 12, v1
	; GFX9-NEXT: v_lshlrev_b16_sdwa v16, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-NEXT: v_lshlrev_b16_sdwa v16, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-NEXT: v_lshlrev_b16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_lshlrev_b16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshlrev_b16_e32 v17, 12, v2			; GFX9-NEXT: v_lshlrev_b16_e32 v17, 12, v2
	; GFX9-NEXT: v_lshlrev_b16_sdwa v18, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-NEXT: v_lshlrev_b16_sdwa v18, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-NEXT: v_lshlrev_b16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_lshlrev_b16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 12, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 8, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v2, 12, v9			; GFX9-NEXT: v_lshlrev_b16_e32 v2, 12, v9
	; GFX9-NEXT: v_ashrrev_i16_e32 v9, 12, v15			; GFX9-NEXT: v_ashrrev_i16_e32 v9, 12, v15
				; GFX9-NEXT: v_lshlrev_b16_e32 v8, 12, v8
				; GFX9-NEXT: v_lshlrev_b16_e32 v7, 12, v7
	; GFX9-NEXT: v_ashrrev_i16_e32 v15, 12, v16			; GFX9-NEXT: v_ashrrev_i16_e32 v15, 12, v16
	; GFX9-NEXT: v_lshlrev_b16_e32 v6, 12, v6			; GFX9-NEXT: v_lshlrev_b16_e32 v6, 12, v6
	; GFX9-NEXT: v_ashrrev_i16_e32 v16, 12, v1			; GFX9-NEXT: v_ashrrev_i16_e32 v16, 12, v1
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, 12, v5			; GFX9-NEXT: v_lshlrev_b16_e32 v1, 12, v5
	; GFX9-NEXT: v_lshlrev_b16_e32 v5, 12, v14			; GFX9-NEXT: v_lshlrev_b16_e32 v5, 12, v14
	; GFX9-NEXT: v_ashrrev_i16_e32 v14, 12, v17			; GFX9-NEXT: v_ashrrev_i16_e32 v14, 12, v17
				; GFX9-NEXT: v_lshlrev_b16_e32 v13, 12, v13
				; GFX9-NEXT: v_lshlrev_b16_e32 v12, 12, v12
	; GFX9-NEXT: v_ashrrev_i16_e32 v17, 12, v18			; GFX9-NEXT: v_ashrrev_i16_e32 v17, 12, v18
	; GFX9-NEXT: v_lshlrev_b16_e32 v11, 12, v11			; GFX9-NEXT: v_lshlrev_b16_e32 v11, 12, v11
	; GFX9-NEXT: v_ashrrev_i16_e32 v18, 12, v0			; GFX9-NEXT: v_ashrrev_i16_e32 v18, 12, v0
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, 12, v10			; GFX9-NEXT: v_lshlrev_b16_e32 v0, 12, v10
	; GFX9-NEXT: v_lshlrev_b16_e32 v8, 12, v8
	; GFX9-NEXT: v_lshlrev_b16_e32 v7, 12, v7
	; GFX9-NEXT: v_lshlrev_b16_e32 v13, 12, v13
	; GFX9-NEXT: v_lshlrev_b16_e32 v12, 12, v12
	; GFX9-NEXT: v_ashrrev_i16_e32 v6, 12, v6
	; GFX9-NEXT: v_ashrrev_i16_e32 v1, 12, v1
	; GFX9-NEXT: v_ashrrev_i16_e32 v11, 12, v11
	; GFX9-NEXT: v_ashrrev_i16_e32 v0, 12, v0
	; GFX9-NEXT: v_ashrrev_i16_e32 v8, 12, v8			; GFX9-NEXT: v_ashrrev_i16_e32 v8, 12, v8
	; GFX9-NEXT: v_ashrrev_i16_e32 v7, 12, v7			; GFX9-NEXT: v_ashrrev_i16_e32 v7, 12, v7
				; GFX9-NEXT: v_ashrrev_i16_e32 v6, 12, v6
				; GFX9-NEXT: v_ashrrev_i16_e32 v1, 12, v1
	; GFX9-NEXT: v_ashrrev_i16_e32 v10, 12, v13			; GFX9-NEXT: v_ashrrev_i16_e32 v10, 12, v13
	; GFX9-NEXT: v_ashrrev_i16_e32 v12, 12, v12			; GFX9-NEXT: v_ashrrev_i16_e32 v12, 12, v12
	; GFX9-NEXT: v_mul_lo_u16_e32 v19, v15, v17			; GFX9-NEXT: v_ashrrev_i16_e32 v11, 12, v11
	; GFX9-NEXT: v_mul_lo_u16_sdwa v0, v1, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_ashrrev_i16_e32 v0, 12, v0
	; GFX9-NEXT: v_mul_lo_u16_sdwa v1, v6, v11 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_ashrrev_i16_e32 v2, 12, v2			; GFX9-NEXT: v_ashrrev_i16_e32 v2, 12, v2
	; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5			; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5
	; GFX9-NEXT: v_mul_lo_u16_e32 v13, v16, v18			; GFX9-NEXT: v_mul_lo_u16_e32 v13, v16, v18
				; GFX9-NEXT: v_mul_lo_u16_e32 v19, v15, v17
				; GFX9-NEXT: v_mul_lo_u16_sdwa v0, v1, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
				; GFX9-NEXT: v_mul_lo_u16_sdwa v1, v6, v11 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_mul_lo_u16_sdwa v6, v7, v12 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_mul_lo_u16_sdwa v6, v7, v12 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_mul_lo_u16_e32 v7, v8, v10			; GFX9-NEXT: v_mul_lo_u16_e32 v7, v8, v10
	; GFX9-NEXT: v_or_b32_sdwa v1, v19, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: v_mul_lo_u16_e32 v9, v9, v14
	; GFX9-NEXT: v_mul_lo_u16_sdwa v2, v2, v5 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_mul_lo_u16_sdwa v2, v2, v5 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v5, v13, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v0, v13, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX9-NEXT: v_or_b32_sdwa v5, v19, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v6, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v6, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v8, 16, v1			; GFX9-NEXT: v_mul_lo_u16_e32 v9, v9, v14
	; GFX9-NEXT: v_or_b32_sdwa v7, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1
				; GFX9-NEXT: v_or_b32_sdwa v1, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 16, v6			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 16, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX9-NEXT: v_or_b32_sdwa v7, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v1, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v2, v2, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v1
				; GFX9-NEXT: v_or_b32_e32 v2, v2, v0
	; GFX9-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]			; GFX9-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v2
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_add_u16_e32 v1, v7, v4			; GFX9-NEXT: v_add_u16_e32 v2, v7, v4
	; GFX9-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-NEXT: v_add_u16_e32 v1, v2, v1
	; GFX9-NEXT: v_add_u16_e32 v1, v1, v6			; GFX9-NEXT: v_add_u16_e32 v1, v1, v6
	; GFX9-NEXT: v_add_u16_e32 v0, v1, v0			; GFX9-NEXT: v_add_u16_e32 v0, v1, v0
	; GFX9-NEXT: v_mad_legacy_u16 v0, v16, v18, v0			; GFX9-NEXT: v_mad_legacy_u16 v0, v16, v18, v0
	; GFX9-NEXT: v_add_u16_e32 v0, v0, v5			; GFX9-NEXT: v_add_u16_e32 v0, v0, v5
	; GFX9-NEXT: v_mad_legacy_u16 v0, v15, v17, v0			; GFX9-NEXT: v_mad_legacy_u16 v0, v15, v17, v0
	; GFX9-NEXT: v_add_u16_e32 v0, v0, v9			; GFX9-NEXT: v_add_u16_e32 v0, v0, v8
	; GFX9-NEXT: global_store_byte v3, v0, s[2:3]			; GFX9-NEXT: global_store_byte v3, v0, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: idot8_acc8_vecMul:			; GFX9-DL-LABEL: idot8_acc8_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-DL-NEXT: s_mov_b32 s10, -1			; GFX9-DL-NEXT: s_mov_b32 s10, -1
	Show All 13 Lines
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 20, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 20, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 28, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 28, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 12, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 12, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 4, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 4, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 20, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 20, v2
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v11, 28, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v11, 28, v2
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v12, 12, v2
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v13, 8, v2
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v14, 4, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v14, 4, v2
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v15, 12, v1			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v15, 12, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v16, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v16, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v17, 12, v2			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v17, 12, v2
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v18, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v18, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_lshlrev_b16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v12, 12, v2
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v13, 8, v2
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v2, 12, v9			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v2, 12, v9
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 12, v15			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 12, v15
				; GFX9-DL-NEXT: v_lshlrev_b16_e32 v8, 12, v8
				; GFX9-DL-NEXT: v_lshlrev_b16_e32 v7, 12, v7
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v15, 12, v16			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v15, 12, v16
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v6, 12, v6			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v6, 12, v6
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v16, 12, v1			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v16, 12, v1
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v1, 12, v5			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v1, 12, v5
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v5, 12, v14			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v5, 12, v14
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v14, 12, v17			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v14, 12, v17
				; GFX9-DL-NEXT: v_lshlrev_b16_e32 v13, 12, v13
				; GFX9-DL-NEXT: v_lshlrev_b16_e32 v12, 12, v12
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v17, 12, v18			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v17, 12, v18
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v11, 12, v11			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v11, 12, v11
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v18, 12, v0			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v18, 12, v0
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v0, 12, v10			; GFX9-DL-NEXT: v_lshlrev_b16_e32 v0, 12, v10
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v8, 12, v8
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v7, 12, v7
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v13, 12, v13
	; GFX9-DL-NEXT: v_lshlrev_b16_e32 v12, 12, v12
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 12, v6
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v1, 12, v1
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v11, 12, v11
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v0, 12, v0
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 12, v8			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 12, v8
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v7, 12, v7			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v7, 12, v7
				; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 12, v6
				; GFX9-DL-NEXT: v_ashrrev_i16_e32 v1, 12, v1
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v10, 12, v13			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v10, 12, v13
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v12, 12, v12			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v12, 12, v12
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v19, v15, v17			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v11, 12, v11
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v0, v1, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v0, 12, v0
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v1, v6, v11 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v2, 12, v2			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v2, 12, v2
	; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5			; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v13, v16, v18			; GFX9-DL-NEXT: v_mul_lo_u16_e32 v13, v16, v18
				; GFX9-DL-NEXT: v_mul_lo_u16_e32 v19, v15, v17
				; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v0, v1, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
				; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v1, v6, v11 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v7, v12 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v7, v12 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v7, v8, v10			; GFX9-DL-NEXT: v_mul_lo_u16_e32 v7, v8, v10
	; GFX9-DL-NEXT: v_or_b32_sdwa v1, v19, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v9, v9, v14
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v2, v2, v5 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v2, v2, v5 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_sdwa v5, v13, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-DL-NEXT: v_or_b32_sdwa v0, v13, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX9-DL-NEXT: v_or_b32_sdwa v5, v19, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_sdwa v6, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-DL-NEXT: v_or_b32_sdwa v6, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v8, 16, v1			; GFX9-DL-NEXT: v_mul_lo_u16_e32 v9, v9, v14
	; GFX9-DL-NEXT: v_or_b32_sdwa v7, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v1
				; GFX9-DL-NEXT: v_or_b32_sdwa v1, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 16, v6			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 16, v6
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX9-DL-NEXT: v_or_b32_sdwa v7, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_sdwa v1, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_e32 v2, v2, v0
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v1
				; GFX9-DL-NEXT: v_or_b32_e32 v2, v2, v0
	; GFX9-DL-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]			; GFX9-DL-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 8, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 8, v2
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v7, v4			; GFX9-DL-NEXT: v_add_u16_e32 v2, v7, v4
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-DL-NEXT: v_add_u16_e32 v1, v2, v1
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v6			; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v6
	; GFX9-DL-NEXT: v_add_u16_e32 v0, v1, v0			; GFX9-DL-NEXT: v_add_u16_e32 v0, v1, v0
	; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v16, v18, v0			; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v16, v18, v0
	; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v5			; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v5
	; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v15, v17, v0			; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v15, v17, v0
	; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v9			; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v8
	; GFX9-DL-NEXT: global_store_byte v3, v0, s[2:3]			; GFX9-DL-NEXT: global_store_byte v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-XNACK-LABEL: idot8_acc8_vecMul:			; GFX10-DL-XNACK-LABEL: idot8_acc8_vecMul:
	; GFX10-DL-XNACK: ; %bb.0: ; %entry			; GFX10-DL-XNACK: ; %bb.0: ; %entry
	; GFX10-DL-XNACK-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-XNACK-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-DL-XNACK-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-DL-XNACK-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-XNACK-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	Show All 10 Lines
	; GFX10-DL-XNACK-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-XNACK-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-XNACK-NEXT: global_load_ubyte v3, v4, s[0:1]			; GFX10-DL-XNACK-NEXT: global_load_ubyte v3, v4, s[0:1]
	; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v8, 12, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v8, 12, v1
	; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v15, 12, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v15, 12, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v9, 8, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v16, 8, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v16, 8, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v6, 28, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v10, 4, v1
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v8, 12, v8			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v8, 12, v8
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v15, 12, v15			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v15, 12, v15
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v13, 28, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v10, 4, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v17, 4, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v17, 4, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v9, 12, v9			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v9, 12, v9
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v16, 12, v16			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v16, 12, v16
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v8, 12, v8			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v8, 12, v8
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v15, 12, v15			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v15, 12, v15
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v0, 20, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v0, 20, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v6, 28, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v11, 20, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v11, 20, v2
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v14, 24, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v13, 28, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v6, 12, v6
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v13, 12, v13
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v10, 12, v10			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v10, 12, v10
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v17, 12, v17			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v17, 12, v17
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v9, 12, v9			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v9, 12, v9
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v16, 12, v16			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v16, 12, v16
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v8, v8, v15			; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v8, v8, v15
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v1
				; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v12, 16, v2			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v12, 16, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v7, 12, v7			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v14, 24, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v0, 12, v0
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v14, 12, v14
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v11, 12, v11
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v6, 12, v6
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v13, 12, v13
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v1, 12, v1			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v1, 12, v1
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v2, 12, v2			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v2, 12, v2
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v6, 12, v6
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v0, 12, v0
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v13, 12, v13
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v11, 12, v11
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v10, 12, v10			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v10, 12, v10
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v15, 12, v17			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v15, 12, v17
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v9, v9, v16			; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v9, v9, v16
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v8, 8, v8			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v8, 8, v8
				; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v1, 12, v1
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v7, 12, v7
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v5, 12, v5			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v5, 12, v5
				; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v2, 12, v2
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v14, 12, v14
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v12, 12, v12			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v12, 12, v12
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v7, 12, v7			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v6, 12, v6
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v0, 12, v0			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v0, 12, v0
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v14, 12, v14			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v13, 12, v13
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v11, 12, v11			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v11, 12, v11
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v6, v6, v13
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v1, 12, v1
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v2, 12, v2
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v10, v10, v15			; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v10, v10, v15
	; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v8, v9, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v8, v9, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v7, 12, v7
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v5, 12, v5			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v5, 12, v5
				; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v14, 12, v14
	; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v12, 12, v12			; GFX10-DL-XNACK-NEXT: v_ashrrev_i16 v12, 12, v12
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v9, v0, v11			; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v1, v1, v2
				; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v2, v0, v11
				; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v6, v6, v13
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v9, 8, v10
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b32_e32 v0, 16, v8
				; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v10, v5, v12
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v11, v7, v14			; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v11, v7, v14
				; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v2, 8, v2
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v6, 8, v6			; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v6, 8, v6
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v10, 8, v10			; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v13, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b32_e32 v0, 16, v8			; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v1, v1, v2			; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v2, v10, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_mul_lo_u16 v2, v5, v12			; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v9, v11, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b16 v9, 8, v9			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v10, 8, v13
	; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v6, v11, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v11, v10, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v1, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v2, v2, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_lshlrev_b32_e32 v9, 16, v6
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v10, 8, v11
	; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-XNACK-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v1, v3			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v3, v1, v3
	; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v1, v2, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-DL-XNACK-NEXT: v_or_b32_sdwa v1, v2, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v9, v3, v10			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v9, v3, v10
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]			; GFX10-DL-XNACK-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]
	; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v1, 8, v1			; GFX10-DL-XNACK-NEXT: v_lshrrev_b32_e32 v1, 8, v1
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v0, v9, v8			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v0, v9, v8
	; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v0, v0, v2			; GFX10-DL-XNACK-NEXT: v_add_nc_u16 v0, v0, v2
	Show All 22 Lines
	; GFX10-DL-NOXNACK-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NOXNACK-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NOXNACK-NEXT: global_load_dword v0, v0, s[6:7]			; GFX10-DL-NOXNACK-NEXT: global_load_dword v0, v0, s[6:7]
	; GFX10-DL-NOXNACK-NEXT: global_load_ubyte v2, v4, s[0:1]			; GFX10-DL-NOXNACK-NEXT: global_load_ubyte v2, v4, s[0:1]
	; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v8, 12, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v8, 12, v1
	; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v15, 12, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v15, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v9, 8, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v11, 20, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v12, 16, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v13, 28, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v14, 24, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v16, 8, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v16, 8, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v17, 4, v0			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v10, 4, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v0, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v8, 12, v8			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v8, 12, v8
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v15, 12, v15			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v15, 12, v15
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v6, 28, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v17, 4, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v10, 4, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v9, 12, v9			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v9, 12, v9
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v18, 12, v0			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v16, 12, v16
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v0, 12, v16
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v8, 12, v8			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v8, 12, v8
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v15, 12, v15			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v15, 12, v15
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v3, 20, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v3, 20, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v6, 28, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v6, 12, v6			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v11, 20, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v13, 12, v13			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v13, 28, v0
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v10, 12, v10			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v10, 12, v10
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v17, 12, v17			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v17, 12, v17
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v9, 12, v9			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v9, 12, v9
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v0, 12, v0			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v16, 12, v16
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v8, v8, v15			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v8, v8, v15
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v5, 16, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v7, 12, v7			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v7, 24, v1
				; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v12, 16, v0
				; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v14, 24, v0
				; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v6, 12, v6
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v3, 12, v3			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v3, 12, v3
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v14, 12, v14			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v13, 12, v13
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v11, 12, v11			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v11, 12, v11
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v6, 12, v6
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v13, 12, v13
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v1, 12, v1			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v1, 12, v1
				; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v0, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v10, 12, v10			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v10, 12, v10
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v15, 12, v17			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v15, 12, v17
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v0, v9, v0			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v9, v9, v16
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v8, 8, v8			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v8, 8, v8
				; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v7, 12, v7
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v5, 12, v5			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v5, 12, v5
				; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v14, 12, v14
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v12, 12, v12			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v12, 12, v12
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v7, 12, v7			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v6, 12, v6
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v3, 12, v3			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v3, 12, v3
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v14, 12, v14			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v13, 12, v13
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v9, 12, v11			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v11, 12, v11
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v6, v6, v13
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v1, 12, v1			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v1, 12, v1
				; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v0, 12, v0
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v10, v10, v15			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v10, v10, v15
	; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v8, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v8, v9, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v7, 12, v7
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v5, 12, v5			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v5, 12, v5
	; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v11, 12, v12			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v14, 12, v14
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v3, v3, v9			; GFX10-DL-NOXNACK-NEXT: v_ashrrev_i16 v12, 12, v12
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v9, v7, v14			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v3, v3, v11
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v6, 8, v6			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v6, v6, v13
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v10, 8, v10			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v1, v1, v0
				; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v9, 8, v10
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b32_e32 v0, 16, v8			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b32_e32 v0, 16, v8
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v1, v1, v18			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v10, v5, v12
	; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v12, v5, v11			; GFX10-DL-NOXNACK-NEXT: v_mul_lo_u16 v11, v7, v14
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v3, 8, v3			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v3, 8, v3
	; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v6, v9, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b16 v6, 8, v6
	; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v9, v10, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v13, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v1, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v3, v12, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v3, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NOXNACK-NEXT: v_lshlrev_b32_e32 v10, 16, v6			; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v9, v11, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v9, 8, v9			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v10, 8, v13
	; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NOXNACK-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v2, v1, v2			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v2, v1, v2
	; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v1, v3, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-DL-NOXNACK-NEXT: v_or_b32_sdwa v1, v3, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v9, v2, v9			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v9, v2, v10
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v1, 8, v1			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v1, 8, v1
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v9, v8			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v9, v8
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v2			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v2
	; GFX10-DL-NOXNACK-NEXT: v_mad_u16 v0, v5, v11, v0			; GFX10-DL-NOXNACK-NEXT: v_mad_u16 v0, v5, v12, v0
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v1			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v1
	; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v1, 8, v6			; GFX10-DL-NOXNACK-NEXT: v_lshrrev_b32_e32 v1, 8, v6
	; GFX10-DL-NOXNACK-NEXT: v_mad_u16 v0, v7, v14, v0			; GFX10-DL-NOXNACK-NEXT: v_mad_u16 v0, v7, v14, v0
	; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v1			; GFX10-DL-NOXNACK-NEXT: v_add_nc_u16 v0, v0, v1
	; GFX10-DL-NOXNACK-NEXT: global_store_byte v4, v0, s[0:1]			; GFX10-DL-NOXNACK-NEXT: global_store_byte v4, v0, s[0:1]
	; GFX10-DL-NOXNACK-NEXT: s_endpgm			; GFX10-DL-NOXNACK-NEXT: s_endpgm
	; GFX10-DL-LABEL: idot8_acc8_vecMul:			; GFX10-DL-LABEL: idot8_acc8_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

	Show First 20 Lines • Show All 2,113 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xf0000
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_u32 v8, v2, 20, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 28, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 28, v2
	; GFX7-NEXT: v_bfe_u32 v4, v2, 24, 4			; GFX7-NEXT: v_bfe_u32 v4, v2, 24, 4
	; GFX7-NEXT: v_bfe_u32 v5, v2, 12, 4			; GFX7-NEXT: v_bfe_u32 v5, v2, 20, 4
	; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 4			; GFX7-NEXT: v_bfe_u32 v6, v2, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v7, 15, v2			; GFX7-NEXT: v_bfe_u32 v7, v2, 12, 4
	; GFX7-NEXT: v_alignbit_b32 v2, v8, v2, 16			; GFX7-NEXT: v_bfe_u32 v8, v2, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v9			; GFX7-NEXT: v_bfe_u32 v9, v2, 4, 4
				; GFX7-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v0
	; GFX7-NEXT: v_and_b32_e32 v14, 15, v0
	; GFX7-NEXT: v_or_b32_e32 v7, v7, v8
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v9
	; GFX7-NEXT: v_or_b32_e32 v8, v14, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v7
	; GFX7-NEXT: v_and_b32_e32 v7, 15, v7
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v8
	; GFX7-NEXT: v_and_b32_e32 v8, 15, v8
	; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v8, v1
	; GFX7-NEXT: v_bfe_u32 v13, v0, 8, 4
	; GFX7-NEXT: v_bfe_u32 v15, v0, 20, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v14, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 28, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v10, 28, v0
	; GFX7-NEXT: v_bfe_u32 v11, v0, 24, 4			; GFX7-NEXT: v_bfe_u32 v11, v0, 24, 4
	; GFX7-NEXT: v_bfe_u32 v12, v0, 12, 4			; GFX7-NEXT: v_bfe_u32 v12, v0, 20, 4
	; GFX7-NEXT: v_alignbit_b32 v0, v15, v0, 16			; GFX7-NEXT: v_bfe_u32 v13, v0, 16, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1			; GFX7-NEXT: v_bfe_u32 v14, v0, 12, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 16, v2			; GFX7-NEXT: v_bfe_u32 v15, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v2, 15, v2			; GFX7-NEXT: v_bfe_u32 v16, v0, 4, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, 15, v0			; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v16, v15, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v8, v15, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v7, v14, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v6, v13, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v5, v12, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot8_acc16_vecMul:			; GFX8-LABEL: udot8_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xf00			; GFX7-NEXT: s_movk_i32 s4, 0xf0f
	; GFX7-NEXT: s_movk_i32 s5, 0xf0f
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 4, v2			; GFX7-NEXT: v_and_b32_e32 v6, 15, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 12, v2			; GFX7-NEXT: v_bfe_u32 v5, v2, 4, 4
	; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 28, v2
	; GFX7-NEXT: v_bfe_u32 v7, v2, 16, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 4, v0			; GFX7-NEXT: v_and_b32_e32 v13, 15, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 28, v0			; GFX7-NEXT: v_bfe_u32 v7, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_bfe_u32 v12, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_bfe_u32 v14, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v5, 15, v2
	; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v12, 15, v0
	; GFX7-NEXT: v_bfe_u32 v14, v0, 16, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 12, v0
	; GFX7-NEXT: v_alignbit_b32 v2, v6, v2, 24
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v0
	; GFX7-NEXT: v_or_b32_e32 v7, v7, v8
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_alignbit_b32 v0, v13, v0, 24
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v11
	; GFX7-NEXT: v_or_b32_e32 v5, v5, v6
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v15
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX7-NEXT: v_or_b32_e32 v8, v10, v8
	; GFX7-NEXT: v_and_b32_e32 v2, s5, v2
	; GFX7-NEXT: v_or_b32_e32 v4, v14, v4
	; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v5, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_or_b32_e32 v4, v6, v5
	; GFX7-NEXT: v_or_b32_e32 v2, v7, v2
	; GFX7-NEXT: v_and_b32_e32 v7, 15, v3
	; GFX7-NEXT: v_and_b32_e32 v13, 15, v4
	; GFX7-NEXT: v_bfe_u32 v8, v3, 8, 4
	; GFX7-NEXT: v_bfe_u32 v14, v4, 8, 4
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v3			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 4
	; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 4			; GFX7-NEXT: v_bfe_u32 v11, v0, 8, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 4			; GFX7-NEXT: v_lshlrev_b32_e32 v14, 24, v14
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 28, v2
	; GFX7-NEXT: v_and_b32_e32 v9, 15, v2			; GFX7-NEXT: v_alignbit_b32 v7, 0, v7, 24
	; GFX7-NEXT: v_and_b32_e32 v15, 15, v0			; GFX7-NEXT: v_alignbit_b32 v14, 0, v14, 24
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v11, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
	; GFX7-NEXT: v_bfe_u32 v10, v2, 8, 4			; GFX7-NEXT: v_bfe_u32 v3, v2, 20, 4
	; GFX7-NEXT: v_bfe_u32 v16, v0, 8, 4			; GFX7-NEXT: v_bfe_u32 v9, v2, 16, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v15, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v15, 28, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2			; GFX7-NEXT: v_alignbit_b32 v2, v8, v2, 24
	; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 4			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v0			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 4			; GFX7-NEXT: v_bfe_u32 v10, v0, 20, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v10, v16, v1			; GFX7-NEXT: v_alignbit_b32 v0, v15, v0, 24
				; GFX7-NEXT: v_mad_u32_u24 v1, v9, v8, v1
				; GFX7-NEXT: v_and_b32_e32 v16, s4, v2
				; GFX7-NEXT: v_and_b32_e32 v2, 15, v2
				; GFX7-NEXT: v_and_b32_e32 v6, s4, v0
				; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
				; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1
				; GFX7-NEXT: v_bfe_u32 v13, v16, 8, 8
				; GFX7-NEXT: v_bfe_u32 v5, v6, 8, 8
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v6, v12, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v13, v5, v0
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot8_acc8_vecMul:			; GFX8-LABEL: udot8_acc8_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NEXT: global_load_ubyte v4, v3, s[2:3]			; GFX9-NEXT: global_load_ubyte v4, v3, s[2:3]
	; GFX9-NEXT: s_addc_u32 s9, s9, 0			; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt vmcnt(2)			; GFX9-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 28, v1
	; GFX9-NEXT: v_bfe_u32 v9, v1, 24, 4
	; GFX9-NEXT: v_bfe_u32 v10, v1, 20, 4
	; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_lshrrev_b32_e32 v15, 28, v2
	; GFX9-NEXT: v_bfe_u32 v16, v2, 24, 4
	; GFX9-NEXT: v_bfe_u32 v17, v2, 20, 4
	; GFX9-NEXT: v_bfe_u32 v0, v1, 4, 4			; GFX9-NEXT: v_bfe_u32 v0, v1, 4, 4
	; GFX9-NEXT: v_and_b32_e32 v5, 15, v1			; GFX9-NEXT: v_and_b32_e32 v5, 15, v1
	; GFX9-NEXT: v_bfe_u32 v6, v1, 12, 4			; GFX9-NEXT: v_bfe_u32 v6, v1, 12, 4
	; GFX9-NEXT: v_bfe_u32 v7, v1, 8, 4			; GFX9-NEXT: v_bfe_u32 v7, v1, 8, 4
				; GFX9-NEXT: v_lshrrev_b32_e32 v8, 28, v1
				; GFX9-NEXT: v_bfe_u32 v9, v1, 24, 4
				; GFX9-NEXT: v_bfe_u32 v10, v1, 20, 4
	; GFX9-NEXT: v_bfe_u32 v11, v1, 16, 4			; GFX9-NEXT: v_bfe_u32 v11, v1, 16, 4
				; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_bfe_u32 v1, v2, 4, 4			; GFX9-NEXT: v_bfe_u32 v1, v2, 4, 4
	; GFX9-NEXT: v_and_b32_e32 v12, 15, v2			; GFX9-NEXT: v_and_b32_e32 v12, 15, v2
	; GFX9-NEXT: v_bfe_u32 v13, v2, 12, 4			; GFX9-NEXT: v_bfe_u32 v13, v2, 12, 4
	; GFX9-NEXT: v_bfe_u32 v14, v2, 8, 4			; GFX9-NEXT: v_bfe_u32 v14, v2, 8, 4
				; GFX9-NEXT: v_lshrrev_b32_e32 v15, 28, v2
				; GFX9-NEXT: v_bfe_u32 v16, v2, 24, 4
				; GFX9-NEXT: v_bfe_u32 v17, v2, 20, 4
	; GFX9-NEXT: v_bfe_u32 v2, v2, 16, 4			; GFX9-NEXT: v_bfe_u32 v2, v2, 16, 4
				; GFX9-NEXT: v_mul_lo_u16_e32 v18, v11, v2
	; GFX9-NEXT: v_mul_lo_u16_sdwa v10, v10, v17 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_mul_lo_u16_sdwa v10, v10, v17 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_mul_lo_u16_e32 v17, v9, v16			; GFX9-NEXT: v_mul_lo_u16_e32 v17, v9, v16
	; GFX9-NEXT: v_mul_lo_u16_sdwa v8, v8, v15 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_mul_lo_u16_sdwa v8, v8, v15 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_mul_lo_u16_e32 v18, v11, v2
	; GFX9-NEXT: v_mul_lo_u16_e32 v7, v7, v14			; GFX9-NEXT: v_mul_lo_u16_e32 v7, v7, v14
	; GFX9-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v8, v17, v8
	; GFX9-NEXT: v_mul_lo_u16_e32 v5, v5, v12			; GFX9-NEXT: v_mul_lo_u16_e32 v5, v5, v12
	; GFX9-NEXT: v_mul_lo_u16_sdwa v12, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_mul_lo_u16_sdwa v12, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v1, v18, v10			; GFX9-NEXT: v_or_b32_e32 v0, v18, v10
				; GFX9-NEXT: v_or_b32_sdwa v1, v17, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v6, v7, v6			; GFX9-NEXT: v_or_b32_e32 v6, v7, v6
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 16, v8			; GFX9-NEXT: v_or_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 16, v6			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 16, v6
	; GFX9-NEXT: v_or_b32_sdwa v1, v1, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v5, v5, v12			; GFX9-NEXT: v_or_b32_e32 v5, v5, v12
	; GFX9-NEXT: v_or_b32_e32 v7, v12, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v8
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1
				; GFX9-NEXT: v_or_b32_e32 v10, v12, v0
	; GFX9-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]			; GFX9-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v7			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v10
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_add_u16_e32 v1, v5, v4			; GFX9-NEXT: v_add_u16_e32 v4, v5, v4
	; GFX9-NEXT: v_add_u16_e32 v1, v1, v7			; GFX9-NEXT: v_add_u16_e32 v1, v4, v1
	; GFX9-NEXT: v_add_u16_e32 v1, v1, v6			; GFX9-NEXT: v_add_u16_e32 v1, v1, v6
	; GFX9-NEXT: v_add_u16_e32 v0, v1, v0			; GFX9-NEXT: v_add_u16_e32 v0, v1, v0
	; GFX9-NEXT: v_mad_legacy_u16 v0, v11, v2, v0			; GFX9-NEXT: v_mad_legacy_u16 v0, v11, v2, v0
	; GFX9-NEXT: v_add_u16_e32 v0, v0, v10
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v8
	; GFX9-NEXT: v_mad_legacy_u16 v0, v9, v16, v0
	; GFX9-NEXT: v_add_u16_e32 v0, v0, v8			; GFX9-NEXT: v_add_u16_e32 v0, v0, v8
				; GFX9-NEXT: v_mad_legacy_u16 v0, v9, v16, v0
				; GFX9-NEXT: v_add_u16_e32 v0, v0, v7
	; GFX9-NEXT: global_store_byte v3, v0, s[2:3]			; GFX9-NEXT: global_store_byte v3, v0, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot8_acc8_vecMul:			; GFX9-DL-LABEL: udot8_acc8_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-DL-NEXT: s_mov_b32 s10, -1			; GFX9-DL-NEXT: s_mov_b32 s10, -1
	; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-DL-NEXT: s_add_u32 s8, s8, s3			; GFX9-DL-NEXT: s_add_u32 s8, s8, s3
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: global_load_ubyte v4, v3, s[2:3]			; GFX9-DL-NEXT: global_load_ubyte v4, v3, s[2:3]
	; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0			; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 28, v1
	; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 24, 4
	; GFX9-DL-NEXT: v_bfe_u32 v10, v1, 20, 4
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v15, 28, v2
	; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 24, 4
	; GFX9-DL-NEXT: v_bfe_u32 v17, v2, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v0, v1, 4, 4			; GFX9-DL-NEXT: v_bfe_u32 v0, v1, 4, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v1			; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v1
	; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 12, 4			; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 12, 4
	; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 8, 4
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 28, v1
				; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 24, 4
				; GFX9-DL-NEXT: v_bfe_u32 v10, v1, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v11, v1, 16, 4			; GFX9-DL-NEXT: v_bfe_u32 v11, v1, 16, 4
				; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_bfe_u32 v1, v2, 4, 4			; GFX9-DL-NEXT: v_bfe_u32 v1, v2, 4, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v12, 15, v2			; GFX9-DL-NEXT: v_and_b32_e32 v12, 15, v2
	; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 12, 4			; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 12, 4
	; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 8, 4
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v15, 28, v2
				; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 24, 4
				; GFX9-DL-NEXT: v_bfe_u32 v17, v2, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 16, 4			; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 16, 4
				; GFX9-DL-NEXT: v_mul_lo_u16_e32 v18, v11, v2
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v10, v10, v17 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v10, v10, v17 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v17, v9, v16			; GFX9-DL-NEXT: v_mul_lo_u16_e32 v17, v9, v16
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v8, v8, v15 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v8, v8, v15 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v18, v11, v2
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v7, v7, v14			; GFX9-DL-NEXT: v_mul_lo_u16_e32 v7, v7, v14
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_e32 v8, v17, v8
	; GFX9-DL-NEXT: v_mul_lo_u16_e32 v5, v5, v12			; GFX9-DL-NEXT: v_mul_lo_u16_e32 v5, v5, v12
	; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v12, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v12, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_e32 v1, v18, v10			; GFX9-DL-NEXT: v_or_b32_e32 v0, v18, v10
				; GFX9-DL-NEXT: v_or_b32_sdwa v1, v17, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_e32 v6, v7, v6			; GFX9-DL-NEXT: v_or_b32_e32 v6, v7, v6
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v7, 16, v8			; GFX9-DL-NEXT: v_or_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 16, v6			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 16, v6
	; GFX9-DL-NEXT: v_or_b32_sdwa v1, v1, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-DL-NEXT: v_or_b32_e32 v5, v5, v12			; GFX9-DL-NEXT: v_or_b32_e32 v5, v5, v12
	; GFX9-DL-NEXT: v_or_b32_e32 v7, v12, v0			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v8
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 8, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v1
				; GFX9-DL-NEXT: v_or_b32_e32 v10, v12, v0
	; GFX9-DL-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]			; GFX9-DL-NEXT: v_lshrrev_b64 v[0:1], 24, v[0:1]
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v7			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 8, v10
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v5, v4			; GFX9-DL-NEXT: v_add_u16_e32 v4, v5, v4
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v7			; GFX9-DL-NEXT: v_add_u16_e32 v1, v4, v1
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v6			; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v6
	; GFX9-DL-NEXT: v_add_u16_e32 v0, v1, v0			; GFX9-DL-NEXT: v_add_u16_e32 v0, v1, v0
	; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v11, v2, v0			; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v11, v2, v0
	; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v10
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v8
	; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v9, v16, v0
	; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v8			; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v8
				; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v9, v16, v0
				; GFX9-DL-NEXT: v_add_u16_e32 v0, v0, v7
	; GFX9-DL-NEXT: global_store_byte v3, v0, s[2:3]			; GFX9-DL-NEXT: global_store_byte v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc8_vecMul:			; GFX10-DL-LABEL: udot8_acc8_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: v_mov_b32_e32 v4, 0			; GFX10-DL-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX10-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX10-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX10-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX10-DL-NEXT: s_mov_b32 s10, -1			; GFX10-DL-NEXT: s_mov_b32 s10, -1
	; GFX10-DL-NEXT: s_mov_b32 s11, 0x31c16000			; GFX10-DL-NEXT: s_mov_b32 s11, 0x31c16000
	; GFX10-DL-NEXT: s_add_u32 s8, s8, s3			; GFX10-DL-NEXT: s_add_u32 s8, s8, s3
	; GFX10-DL-NEXT: s_addc_u32 s9, s9, 0			; GFX10-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_clause 0x1			; GFX10-DL-NEXT: s_clause 0x1
	; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX10-DL-NEXT: global_load_ubyte v3, v4, s[0:1]			; GFX10-DL-NEXT: global_load_ubyte v3, v4, s[0:1]
	; GFX10-DL-NEXT: s_waitcnt vmcnt(2)			; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX10-DL-NEXT: v_bfe_u32 v6, v1, 12, 4			; GFX10-DL-NEXT: v_bfe_u32 v6, v1, 12, 4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NEXT: v_bfe_u32 v10, v2, 12, 4			; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 12, 4
	; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 8, 4
	; GFX10-DL-NEXT: v_bfe_u32 v13, v2, 8, 4
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 28, v1
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v14, 28, v2
	; GFX10-DL-NEXT: v_mul_lo_u16 v6, v6, v10
	; GFX10-DL-NEXT: v_bfe_u32 v0, v1, 4, 4			; GFX10-DL-NEXT: v_bfe_u32 v0, v1, 4, 4
	; GFX10-DL-NEXT: v_and_b32_e32 v5, 15, v1			; GFX10-DL-NEXT: v_and_b32_e32 v5, 15, v1
	; GFX10-DL-NEXT: v_bfe_u32 v9, v1, 24, 4			; GFX10-DL-NEXT: v_bfe_u32 v7, v1, 8, 4
				; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 28, v1
				; GFX10-DL-NEXT: v_bfe_u32 v10, v1, 24, 4
	; GFX10-DL-NEXT: v_bfe_u32 v11, v1, 20, 4			; GFX10-DL-NEXT: v_bfe_u32 v11, v1, 20, 4
	; GFX10-DL-NEXT: v_bfe_u32 v12, v1, 16, 4			; GFX10-DL-NEXT: v_bfe_u32 v12, v1, 16, 4
	; GFX10-DL-NEXT: v_bfe_u32 v1, v2, 4, 4			; GFX10-DL-NEXT: v_bfe_u32 v1, v2, 8, 4
	; GFX10-DL-NEXT: v_mul_lo_u16 v7, v7, v13			; GFX10-DL-NEXT: v_mul_lo_u16 v6, v6, v9
				; GFX10-DL-NEXT: v_bfe_u32 v9, v2, 4, 4
				; GFX10-DL-NEXT: v_lshrrev_b32_e32 v14, 28, v2
				; GFX10-DL-NEXT: v_bfe_u32 v15, v2, 20, 4
				; GFX10-DL-NEXT: v_mul_lo_u16 v1, v7, v1
	; GFX10-DL-NEXT: v_lshlrev_b16 v6, 8, v6			; GFX10-DL-NEXT: v_lshlrev_b16 v6, 8, v6
	; GFX10-DL-NEXT: v_and_b32_e32 v10, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v13, 15, v2
	; GFX10-DL-NEXT: v_bfe_u32 v15, v2, 24, 4			; GFX10-DL-NEXT: v_mul_lo_u16 v0, v0, v9
	; GFX10-DL-NEXT: v_bfe_u32 v13, v2, 20, 4			; GFX10-DL-NEXT: v_bfe_u32 v7, v2, 16, 4
	; GFX10-DL-NEXT: v_bfe_u32 v16, v2, 16, 4			; GFX10-DL-NEXT: v_bfe_u32 v16, v2, 24, 4
	; GFX10-DL-NEXT: v_mul_lo_u16 v2, v8, v14			; GFX10-DL-NEXT: v_or_b32_e32 v6, v1, v6
	; GFX10-DL-NEXT: v_mul_lo_u16 v0, v0, v1			; GFX10-DL-NEXT: v_mul_lo_u16 v2, v11, v15
	; GFX10-DL-NEXT: v_or_b32_e32 v6, v7, v6			; GFX10-DL-NEXT: v_mul_lo_u16 v8, v8, v14
	; GFX10-DL-NEXT: v_mul_lo_u16 v1, v11, v13			; GFX10-DL-NEXT: v_lshlrev_b16 v9, 8, v0
	; GFX10-DL-NEXT: v_mul_lo_u16 v7, v9, v15			; GFX10-DL-NEXT: v_mul_lo_u16 v5, v5, v13
	; GFX10-DL-NEXT: v_lshlrev_b16 v2, 8, v2
	; GFX10-DL-NEXT: v_lshlrev_b16 v8, 8, v0
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 16, v6			; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 16, v6
	; GFX10-DL-NEXT: v_mul_lo_u16 v5, v5, v10			; GFX10-DL-NEXT: v_mul_lo_u16 v1, v12, v7
	; GFX10-DL-NEXT: v_mul_lo_u16 v10, v12, v16			; GFX10-DL-NEXT: v_mul_lo_u16 v11, v10, v16
	; GFX10-DL-NEXT: v_lshlrev_b16 v1, 8, v1			; GFX10-DL-NEXT: v_lshlrev_b16 v2, 8, v2
	; GFX10-DL-NEXT: v_or_b32_e32 v7, v7, v2			; GFX10-DL-NEXT: v_lshlrev_b16 v8, 8, v8
	; GFX10-DL-NEXT: v_or_b32_sdwa v2, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v13, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_or_b32_e32 v5, v5, v8			; GFX10-DL-NEXT: v_or_b32_e32 v5, v5, v9
	; GFX10-DL-NEXT: v_or_b32_e32 v1, v10, v1			; GFX10-DL-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v8, 16, v7			; GFX10-DL-NEXT: v_or_b32_sdwa v2, v11, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 8, v2			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v9, 8, v13
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u16 v3, v5, v3			; GFX10-DL-NEXT: v_add_nc_u16 v3, v5, v3
	; GFX10-DL-NEXT: v_or_b32_sdwa v1, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_add_nc_u16 v5, v3, v2			; GFX10-DL-NEXT: v_add_nc_u16 v5, v3, v9
	; GFX10-DL-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]			; GFX10-DL-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 8, v1			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 8, v1
	; GFX10-DL-NEXT: v_add_nc_u16 v0, v5, v6			; GFX10-DL-NEXT: v_add_nc_u16 v0, v5, v6
	; GFX10-DL-NEXT: v_add_nc_u16 v0, v0, v2			; GFX10-DL-NEXT: v_add_nc_u16 v0, v0, v2
	; GFX10-DL-NEXT: v_mad_u16 v0, v12, v16, v0			; GFX10-DL-NEXT: v_mad_u16 v0, v12, v7, v0
	; GFX10-DL-NEXT: v_add_nc_u16 v0, v0, v1			; GFX10-DL-NEXT: v_add_nc_u16 v0, v0, v1
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 8, v7			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 8, v8
	; GFX10-DL-NEXT: v_mad_u16 v0, v9, v15, v0			; GFX10-DL-NEXT: v_mad_u16 v0, v10, v16, v0
	; GFX10-DL-NEXT: v_add_nc_u16 v0, v0, v1			; GFX10-DL-NEXT: v_add_nc_u16 v0, v0, v1
	; GFX10-DL-NEXT: global_store_byte v4, v0, s[0:1]			; GFX10-DL-NEXT: global_store_byte v4, v0, s[0:1]
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%idx = call i32 @llvm.amdgcn.workitem.id.x()			%idx = call i32 @llvm.amdgcn.workitem.id.x()
	%gep1 = getelementptr <8 x i4>, <8 x i4> addrspace(1)* %src1, i32 %idx			%gep1 = getelementptr <8 x i4>, <8 x i4> addrspace(1)* %src1, i32 %idx
	▲ Show 20 Lines • Show All 615 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/saddsat.ll

	Show First 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff			; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, s4, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: s_movk_i32 s5, 0x8000
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0			; GFX6-NEXT: v_min_i32_e32 v0, s4, v0
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v1, s5, v1
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0			; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX6-NEXT: v_or_b32_e32 v0, v0, v3
				; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v2i16:			; GFX8-LABEL: v_saddsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX8-NEXT: v_add_u16_e32 v4, v3, v2			; GFX8-NEXT: v_add_u16_e32 v4, v3, v2
	▲ Show 20 Lines • Show All 335 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/scalar_to_vector.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @scalar_to_vector_v4i16() {			define amdgpu_kernel void @scalar_to_vector_v4i16() {
	; SI-LABEL: scalar_to_vector_v4i16:			; SI-LABEL: scalar_to_vector_v4i16:
	; SI: ; %bb.0: ; %bb			; SI: ; %bb.0: ; %bb
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v0
	; SI-NEXT: v_lshlrev_b32_e32 v2, 8, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: v_mov_b32_e32 v1, v0
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2
	; SI-NEXT: v_or_b32_e32 v0, v0, v2
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: scalar_to_vector_v4i16:			; VI-LABEL: scalar_to_vector_v4i16:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v0			; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v0
	; VI-NEXT: v_or_b32_e32 v0, v1, v0			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: v_lshrrev_b16_e32 v1, 8, v0			; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v0
	; VI-NEXT: v_lshlrev_b16_e32 v2, 8, v1			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v1, v1, v2			; VI-NEXT: v_mov_b32_e32 v1, v0
	; VI-NEXT: v_lshlrev_b32_e32 v2, 16, v1
	; VI-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	bb:			bb:
	%tmp = load <2 x i8>, <2 x i8> addrspace(1)* undef, align 1			%tmp = load <2 x i8>, <2 x i8> addrspace(1)* undef, align 1
	%tmp1 = shufflevector <2 x i8> %tmp, <2 x i8> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%tmp1 = shufflevector <2 x i8> %tmp, <2 x i8> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	%tmp2 = shufflevector <8 x i8> %tmp1, <8 x i8> undef, <8 x i32> <i32 0, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9>			%tmp2 = shufflevector <8 x i8> %tmp1, <8 x i8> undef, <8 x i32> <i32 0, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9>
	store <8 x i8> %tmp2, <8 x i8> addrspace(1)* undef, align 8			store <8 x i8> %tmp2, <8 x i8> addrspace(1)* undef, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @scalar_to_vector_v4f16() {			define amdgpu_kernel void @scalar_to_vector_v4f16() {
	; SI-LABEL: scalar_to_vector_v4f16:			; SI-LABEL: scalar_to_vector_v4f16:
	; SI: ; %bb.0: ; %bb			; SI: ; %bb.0: ; %bb
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v0
	; SI-NEXT: v_lshlrev_b32_e32 v2, 8, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: v_mov_b32_e32 v1, v0
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2
	; SI-NEXT: v_or_b32_e32 v0, v0, v2
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: scalar_to_vector_v4f16:			; VI-LABEL: scalar_to_vector_v4f16:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	▲ Show 20 Lines • Show All 85 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shift-i128.ll

Show First 20 Lines • Show All 77 Lines • ▼ Show 20 Lines	; GCN-NEXT: s_setpc_b64 s[30:31]
ret i128 %shl		ret i128 %shl
}		}


define i128 @v_shl_i128_vk(i128 %lhs) {		define i128 @v_shl_i128_vk(i128 %lhs) {
; GCN-LABEL: v_shl_i128_vk:		; GCN-LABEL: v_shl_i128_vk:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_alignbit_b32 v4, v2, v1, 15		; GCN-NEXT: v_lshl_b64 v[2:3], v[2:3], 17
		; GCN-NEXT: v_lshrrev_b32_e32 v4, 15, v1
		; GCN-NEXT: v_or_b32_e32 v2, v2, v4
; GCN-NEXT: v_alignbit_b32 v1, v1, v0, 15		; GCN-NEXT: v_alignbit_b32 v1, v1, v0, 15
; GCN-NEXT: v_alignbit_b32 v3, v3, v2, 15
; GCN-NEXT: v_lshlrev_b32_e32 v0, 17, v0		; GCN-NEXT: v_lshlrev_b32_e32 v0, 17, v0
; GCN-NEXT: v_mov_b32_e32 v2, v4
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%shl = shl i128 %lhs, 17		%shl = shl i128 %lhs, 17
ret i128 %shl		ret i128 %shl
}		}

define i128 @v_lshr_i128_vk(i128 %lhs) {		define i128 @v_lshr_i128_vk(i128 %lhs) {
; GCN-LABEL: v_lshr_i128_vk:		; GCN-LABEL: v_lshr_i128_vk:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_alignbit_b32 v0, v3, v2, 1		; GCN-NEXT: v_alignbit_b32 v0, v3, v2, 1
; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v3		; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v3
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
; GCN-NEXT: v_mov_b32_e32 v3, 0		; GCN-NEXT: v_mov_b32_e32 v3, 0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%shl = lshr i128 %lhs, 65		%shl = lshr i128 %lhs, 65
ret i128 %shl		ret i128 %shl
}		}

define i128 @v_ashr_i128_vk(i128 %lhs) {		define i128 @v_ashr_i128_vk(i128 %lhs) {
; GCN-LABEL: v_ashr_i128_vk:		; GCN-LABEL: v_ashr_i128_vk:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_ashr_i64 v[4:5], v[2:3], 33		; GCN-NEXT: v_mov_b32_e32 v4, v1
; GCN-NEXT: v_alignbit_b32 v0, v2, v1, 1		; GCN-NEXT: v_lshl_b64 v[0:1], v[2:3], 31
; GCN-NEXT: v_alignbit_b32 v1, v3, v2, 1		; GCN-NEXT: v_lshrrev_b32_e32 v4, 1, v4
; GCN-NEXT: v_mov_b32_e32 v2, v4		; GCN-NEXT: v_ashr_i64 v[2:3], v[2:3], 33
; GCN-NEXT: v_mov_b32_e32 v3, v5		; GCN-NEXT: v_or_b32_e32 v0, v4, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%shl = ashr i128 %lhs, 33		%shl = ashr i128 %lhs, 33
ret i128 %shl		ret i128 %shl
}		}

define i128 @v_shl_i128_kv(i128 %rhs) {		define i128 @v_shl_i128_kv(i128 %rhs) {
; GCN-LABEL: v_shl_i128_kv:		; GCN-LABEL: v_shl_i128_kv:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
▲ Show 20 Lines • Show All 536 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ssubsat.ll

	Show First 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff			; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, s4, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: s_movk_i32 s5, 0x8000
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0			; GFX6-NEXT: v_min_i32_e32 v0, s4, v0
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v1, s5, v1
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0			; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX6-NEXT: v_or_b32_e32 v0, v0, v3
				; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v2i16:			; GFX8-LABEL: v_ssubsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX8-NEXT: v_sub_u16_e32 v4, v3, v2			; GFX8-NEXT: v_sub_u16_e32 v4, v3, v2
	▲ Show 20 Lines • Show All 955 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/trunc-combine.ll

Show First 20 Lines • Show All 135 Lines • ▼ Show 20 Lines	bb:
store <2 x i16> %tmp14, <2 x i16> addrspace(1)* %tmp15, align 4		store <2 x i16> %tmp14, <2 x i16> addrspace(1)* %tmp15, align 4
ret void		ret void
}		}

define <2 x i16> @trunc_v2i64_arg_to_v2i16(<2 x i64> %arg0) #0 {		define <2 x i16> @trunc_v2i64_arg_to_v2i16(<2 x i64> %arg0) #0 {
; SI-LABEL: trunc_v2i64_arg_to_v2i16:		; SI-LABEL: trunc_v2i64_arg_to_v2i16:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; SI-NEXT: s_mov_b32 s4, 0xffff
; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2		; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2
; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0		; SI-NEXT: v_and_b32_e32 v0, s4, v0
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; SI-NEXT: v_and_b32_e32 v1, s4, v2
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions @arsenm @foad Not sure if pulling out the immediate is a good idea or not - shouldn't a u16 immediate be cheap? RKSimon: @arsenm @foad Not sure if pulling out the immediate is a good idea or not - shouldn't a u16…
		arsenmUnsubmitted Not Done Reply Inline Actions This is worse. Integer constants -16 to 64 and a handful of FP values are free, but 0xffff is not so it requires materialization. arsenm: This is worse. Integer constants -16 to 64 and a handful of FP values are free, but 0xffff is…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions @arsenm @foad At EuroLLVM Matt suggested that maybe we should increase the tolerance to 2 uses of the large immediates before pulling out the constant? RKSimon: @arsenm @foad At EuroLLVM Matt suggested that maybe we should increase the tolerance to 2 uses…
		arsenmUnsubmitted Not Done Reply Inline Actions s_mov_b32 K + 2 * v_and_b32_32 = 16 bytes, 12 cycles 2 * (v_and_b32_e32 K) = 16 bytes, 8 cycles which is clearly better. 3 * (v_and_b32_e32 K) = 24 bytes, 12 cycles So 2 uses of a constant seems plainly better for VOP1/VOP2 ops. Abbe that it becomes a code size vs. latency tradeoff arsenm: s_mov_b32 K + 2 * v_and_b32_32 = 16 bytes, 12 cycles 2 * (v_and_b32_e32 K) = 16 bytes, 8 cycles…
		arsenmUnsubmitted Not Done Reply Inline Actions This decision is also generally made by SIFoldOperands. Probably need to fix it there and not in the DAG arsenm: This decision is also generally made by SIFoldOperands. Probably need to fix it there and not…
		foadUnsubmitted Not Done Reply Inline Actions I'm strongly in favour of never pulling out the constant (or rather, always folding into the instruction) and I have patches to that effect starting with D114643, which I'm hoping to get back to pretty soon. foad: I'm strongly in favour of never pulling out the constant (or rather, always folding into the…
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: trunc_v2i64_arg_to_v2i16:		; VI-LABEL: trunc_v2i64_arg_to_v2i16:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v2		; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v2
; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%trunc = trunc <2 x i64> %arg0 to <2 x i16>		%trunc = trunc <2 x i64> %arg0 to <2 x i16>
ret <2 x i16> %trunc		ret <2 x i16> %trunc
}		}

llvm/test/CodeGen/AMDGPU/uaddsat.ll

	Show First 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v3			; GFX6-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v2			; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_min_u32_e32 v1, s4, v1			; GFX6-NEXT: v_min_u32_e32 v1, s4, v1
	; GFX6-NEXT: v_min_u32_e32 v0, s4, v0			; GFX6-NEXT: v_min_u32_e32 v0, s4, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_uaddsat_v2i16:			; GFX8-LABEL: v_uaddsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_u16_sdwa v2, v0, v1 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_add_u16_sdwa v2, v0, v1 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_add_u16_e64 v0, v0, v1 clamp			; GFX8-NEXT: v_add_u16_e64 v0, v0, v1 clamp
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	▲ Show 20 Lines • Show All 516 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/usubsat.ll

Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
ret i32 %result		ret i32 %result
}		}

define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v2i16:		; GFX6-LABEL: v_usubsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_and_b32_e32 v4, s4, v3		; GFX6-NEXT: v_and_b32_e32 v3, s4, v3
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_max_u32_e32 v1, v1, v4		; GFX6-NEXT: v_max_u32_e32 v1, v1, v3
; GFX6-NEXT: v_max_u32_e32 v0, v0, v2		; GFX6-NEXT: v_max_u32_e32 v0, v0, v2
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubsat_v2i16:		; GFX8-LABEL: v_usubsat_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_sub_u16_sdwa v2, v0, v1 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_sub_u16_sdwa v2, v0, v1 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_sub_u16_e64 v0, v0, v1 clamp		; GFX8-NEXT: v_sub_u16_e64 v0, v0, v1 clamp
; GFX8-NEXT: v_or_b32_e32 v0, v0, v2		; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
▲ Show 20 Lines • Show All 482 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/illegal-bitfield-loadstore.ll

	Show First 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; LE-NEXT: ldr r1, [r0]			; LE-NEXT: ldr r1, [r0]
	; LE-NEXT: orr r1, r1, #384			; LE-NEXT: orr r1, r1, #384
	; LE-NEXT: str r1, [r0]			; LE-NEXT: str r1, [r0]
	; LE-NEXT: mov pc, lr			; LE-NEXT: mov pc, lr
	;			;
	; BE-LABEL: i56_or:			; BE-LABEL: i56_or:
	; BE: @ %bb.0:			; BE: @ %bb.0:
	; BE-NEXT: mov r1, r0			; BE-NEXT: mov r1, r0
	; BE-NEXT: ldr r12, [r0]			; BE-NEXT: ldr r0, [r0]
	; BE-NEXT: ldrh r2, [r1, #4]!			; BE-NEXT: ldrh r2, [r1, #4]!
	; BE-NEXT: ldrb r3, [r1, #2]			; BE-NEXT: ldrb r3, [r1, #2]
	; BE-NEXT: orr r2, r3, r2, lsl #8			; BE-NEXT: orr r2, r3, r2, lsl #8
	; BE-NEXT: orr r2, r2, r12, lsl #24			; BE-NEXT: orr r0, r2, r0, lsl #24
	; BE-NEXT: orr r2, r2, #384			; BE-NEXT: orr r0, r0, #384
	; BE-NEXT: strb r2, [r1, #2]			; BE-NEXT: strb r0, [r1, #2]
	; BE-NEXT: lsr r3, r2, #8			; BE-NEXT: lsr r0, r0, #8
	; BE-NEXT: strh r3, [r1]			; BE-NEXT: strh r0, [r1]
	; BE-NEXT: bic r1, r12, #255
	; BE-NEXT: orr r1, r1, r2, lsr #24
	; BE-NEXT: str r1, [r0]
	; BE-NEXT: mov pc, lr			; BE-NEXT: mov pc, lr
	%aa = load i56, i56* %a			%aa = load i56, i56* %a
	%b = or i56 %aa, 384			%b = or i56 %aa, 384
	store i56 %b, i56* %a			store i56 %b, i56* %a
	ret void			ret void
	}			}

	define void @i56_and_or(i56* %a) {			define void @i56_and_or(i56* %a) {
	; LE-LABEL: i56_and_or:			; LE-LABEL: i56_and_or:
	; LE: @ %bb.0:			; LE: @ %bb.0:
	; LE-NEXT: ldr r1, [r0]			; LE-NEXT: ldr r1, [r0]
	; LE-NEXT: orr r1, r1, #384			; LE-NEXT: orr r1, r1, #384
	; LE-NEXT: bic r1, r1, #127			; LE-NEXT: bic r1, r1, #127
	; LE-NEXT: str r1, [r0]			; LE-NEXT: str r1, [r0]
	; LE-NEXT: mov pc, lr			; LE-NEXT: mov pc, lr
	;			;
	; BE-LABEL: i56_and_or:			; BE-LABEL: i56_and_or:
	; BE: @ %bb.0:			; BE: @ %bb.0:
	; BE-NEXT: mov r1, r0			; BE-NEXT: ldrh r1, [r0, #4]!
	; BE-NEXT: mov r2, #128			; BE-NEXT: mov r2, #128
	; BE-NEXT: ldrh r12, [r1, #4]!			; BE-NEXT: orr r1, r1, #1
	; BE-NEXT: ldrb r3, [r1, #2]			; BE-NEXT: strb r2, [r0, #2]
	; BE-NEXT: strb r2, [r1, #2]			; BE-NEXT: strh r1, [r0]
	; BE-NEXT: orr r2, r3, r12, lsl #8
	; BE-NEXT: ldr r12, [r0]
	; BE-NEXT: orr r2, r2, r12, lsl #24
	; BE-NEXT: orr r2, r2, #384
	; BE-NEXT: lsr r3, r2, #8
	; BE-NEXT: strh r3, [r1]
	; BE-NEXT: bic r1, r12, #255
	; BE-NEXT: orr r1, r1, r2, lsr #24
	; BE-NEXT: str r1, [r0]
	; BE-NEXT: mov pc, lr			; BE-NEXT: mov pc, lr

	%b = load i56, i56* %a, align 1			%b = load i56, i56* %a, align 1
	%c = and i56 %b, -128			%c = and i56 %b, -128
	%d = or i56 %c, 384			%d = or i56 %c, 384
	store i56 %d, i56* %a, align 1			store i56 %d, i56* %a, align 1
	ret void			ret void
	}			}

	define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {			define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {
	; LE-LABEL: i56_insert_bit:			; LE-LABEL: i56_insert_bit:
	; LE: @ %bb.0:			; LE: @ %bb.0:
	; LE-NEXT: ldr r2, [r0]			; LE-NEXT: ldr r2, [r0]
	; LE-NEXT: bic r2, r2, #8192			; LE-NEXT: bic r2, r2, #8192
	; LE-NEXT: orr r1, r2, r1, lsl #13			; LE-NEXT: orr r1, r2, r1, lsl #13
	; LE-NEXT: str r1, [r0]			; LE-NEXT: str r1, [r0]
	; LE-NEXT: mov pc, lr			; LE-NEXT: mov pc, lr
	;			;
	; BE-LABEL: i56_insert_bit:			; BE-LABEL: i56_insert_bit:
	; BE: @ %bb.0:			; BE: @ %bb.0:
	; BE-NEXT: .save {r11, lr}			; BE-NEXT: ldrh r2, [r0, #4]!
	; BE-NEXT: push {r11, lr}			; BE-NEXT: mov r3, #57088
	; BE-NEXT: mov r2, r0			; BE-NEXT: orr r3, r3, #16711680
	; BE-NEXT: ldr lr, [r0]			; BE-NEXT: and r2, r3, r2, lsl #8
	; BE-NEXT: ldrh r12, [r2, #4]!			; BE-NEXT: orr r1, r2, r1, lsl #13
	; BE-NEXT: ldrb r3, [r2, #2]			; BE-NEXT: lsr r1, r1, #8
	; BE-NEXT: orr r12, r3, r12, lsl #8			; BE-NEXT: strh r1, [r0]
	; BE-NEXT: orr r3, r12, lr, lsl #24
	; BE-NEXT: bic r3, r3, #8192
	; BE-NEXT: orr r1, r3, r1, lsl #13
	; BE-NEXT: lsr r3, r1, #8
	; BE-NEXT: strh r3, [r2]
	; BE-NEXT: bic r2, lr, #255
	; BE-NEXT: orr r1, r2, r1, lsr #24
	; BE-NEXT: str r1, [r0]
	; BE-NEXT: pop {r11, lr}
	; BE-NEXT: mov pc, lr			; BE-NEXT: mov pc, lr
	%extbit = zext i1 %bit to i56			%extbit = zext i1 %bit to i56
	%b = load i56, i56* %a, align 1			%b = load i56, i56* %a, align 1
	%extbit.shl = shl nuw nsw i56 %extbit, 13			%extbit.shl = shl nuw nsw i56 %extbit, 13
	%c = and i56 %b, -8193			%c = and i56 %b, -8193
	%d = or i56 %c, %extbit.shl			%d = or i56 %c, %extbit.shl
	store i56 %d, i56* %a, align 1			store i56 %d, i56* %a, align 1
	ret void			ret void
	}			}

llvm/test/CodeGen/ARM/parity.ll

Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	; CHECK-NEXT: bx lr
%2 = and i16 %1, 1		%2 = and i16 %1, 1
ret i16 %2		ret i16 %2
}		}

define i17 @parity_17(i17 %x) {		define i17 @parity_17(i17 %x) {
; CHECK-LABEL: parity_17:		; CHECK-LABEL: parity_17:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: bfc r0, #17, #15		; CHECK-NEXT: bfc r0, #17, #15
; CHECK-NEXT: eor r0, r0, r0, lsr #16		; CHECK-NEXT: eor r1, r0, r0, lsr #16
; CHECK-NEXT: eor r0, r0, r0, lsr #8		; CHECK-NEXT: eor r0, r1, r0, lsr #8
; CHECK-NEXT: eor r0, r0, r0, lsr #4		; CHECK-NEXT: eor r0, r0, r0, lsr #4
; CHECK-NEXT: eor r0, r0, r0, lsr #2		; CHECK-NEXT: eor r0, r0, r0, lsr #2
; CHECK-NEXT: eor r0, r0, r0, lsr #1		; CHECK-NEXT: eor r0, r0, r0, lsr #1
; CHECK-NEXT: and r0, r0, #1		; CHECK-NEXT: and r0, r0, #1
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
%1 = tail call i17 @llvm.ctpop.i17(i17 %x)		%1 = tail call i17 @llvm.ctpop.i17(i17 %x)
%2 = and i17 %1, 1		%2 = and i17 %1, 1
ret i17 %2		ret i17 %2
▲ Show 20 Lines • Show All 103 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/uxtb.ll

Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines	; CHECK-NEXT: bx lr
%tmp6 = or i32 %tmp5, %tmp1		%tmp6 = or i32 %tmp5, %tmp1
ret i32 %tmp6		ret i32 %tmp6
}		}

define i32 @test10(i32 %p0) {		define i32 @test10(i32 %p0) {
; CHECK-LABEL: test10:		; CHECK-LABEL: test10:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: mov r1, #248		; CHECK-NEXT: mov r1, #248
		; CHECK-NEXT: mov r2, #7
; CHECK-NEXT: orr r1, r1, #16252928		; CHECK-NEXT: orr r1, r1, #16252928
; CHECK-NEXT: and r0, r1, r0, lsr #7		; CHECK-NEXT: orr r2, r2, #458752
; CHECK-NEXT: lsr r1, r0, #5		; CHECK-NEXT: and r1, r1, r0, lsr #7
; CHECK-NEXT: uxtb16 r1, r1		; CHECK-NEXT: and r0, r2, r0, lsr #12
; CHECK-NEXT: orr r0, r1, r0		; CHECK-NEXT: orr r0, r0, r1
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions I'm going to take a look at this, but I'm really not familiar with the UXTB matching code, so any pointers would be appreciated. RKSimon: I'm going to take a look at this, but I'm really not familiar with the UXTB matching code, so…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions instcombine optimises this as well: define i32 @test10(i32 %p0) { %tmp1 = lshr i32 %p0, 7 %tmp2 = and i32 %tmp1, 16253176 %tmp4 = lshr i32 %p0, 12 %tmp5 = and i32 %tmp4, 458759 %tmp7 = or i32 %tmp5, %tmp2 ret i32 %tmp7 } which has the same problem: _test10: @ %bb.0: mov r1, #248 mov r2, #7 orr r1, r1, #16252928 orr r2, r2, #458752 and r1, r1, r0, lsr #7 and r0, r2, r0, lsr #12 orr r0, r0, r1 bx lr RKSimon: instcombine optimises this as well: ``` define i32 @test10(i32 %p0) { %tmp1 = lshr i32 %p0, 7…
		dmgreenUnsubmitted Not Done Reply Inline Actions I was taking a look. The test is super old now, so old that it had signed types when it was originally added. I was surprised to see that `and 0x70007` is being recognised via an `and 0xff00ff` tablegen pattern - it goes into SelectionDAGISel::CheckAndMask which checks that the other mask bits are already 0. I think that is what this is trying to test - that a smaller and mask still matches the UXTB16. Is it possible to change it to something that still captures that, without relying on the multi-use fold of the %tmp2 not happening? Maybe something like this? %p = and i32 %p0, 3 %a = shl i32 65537, %p %b = lshr i32 %a, 1 %tmp7 = and i32 %b, 458759 dmgreen: I was taking a look. The test is super old now, so old that it had signed types when it was…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Thanks for the hint - I'll give it a try RKSimon: Thanks for the hint - I'll give it a try
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Thanks @dmgreen - those still match fine. Should I pre-commit these new tests and possibly alter the existing test10 variants with the -instcombine optimized IR to show they already fail to match? RKSimon: Thanks @dmgreen - those still match fine. Should I pre-commit these new tests and possibly…
		dmgreenUnsubmitted Not Done Reply Inline Actions That sounds good to me. dmgreen: That sounds good to me.
%tmp1 = lshr i32 %p0, 7		%tmp1 = lshr i32 %p0, 7
%tmp2 = and i32 %tmp1, 16253176		%tmp2 = and i32 %tmp1, 16253176
%tmp4 = lshr i32 %tmp2, 5		%tmp4 = lshr i32 %tmp2, 5
%tmp5 = and i32 %tmp4, 458759		%tmp5 = and i32 %tmp4, 458759
%tmp7 = or i32 %tmp5, %tmp2		%tmp7 = or i32 %tmp5, %tmp2
ret i32 %tmp7		ret i32 %tmp7
}		}

llvm/test/CodeGen/PowerPC/fp-to-int-to-fp.ll

	Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; PPC64-NEXT: ld 5, -16(1)			; PPC64-NEXT: ld 5, -16(1)
	; PPC64-NEXT: xor 3, 3, 4			; PPC64-NEXT: xor 3, 3, 4
	; PPC64-NEXT: bc 12, 0, .LBB2_1			; PPC64-NEXT: bc 12, 0, .LBB2_1
	; PPC64-NEXT: b .LBB2_2			; PPC64-NEXT: b .LBB2_2
	; PPC64-NEXT: .LBB2_1: # %entry			; PPC64-NEXT: .LBB2_1: # %entry
	; PPC64-NEXT: addi 3, 5, 0			; PPC64-NEXT: addi 3, 5, 0
	; PPC64-NEXT: .LBB2_2: # %entry			; PPC64-NEXT: .LBB2_2: # %entry
	; PPC64-NEXT: sradi 4, 3, 53			; PPC64-NEXT: sradi 4, 3, 53
	; PPC64-NEXT: clrldi 5, 3, 63			; PPC64-NEXT: rldicl 5, 3, 63, 1
	; PPC64-NEXT: addi 4, 4, 1			; PPC64-NEXT: addi 4, 4, 1
				; PPC64-NEXT: clrldi 6, 3, 63
	; PPC64-NEXT: cmpldi 4, 1			; PPC64-NEXT: cmpldi 4, 1
	; PPC64-NEXT: rldicl 4, 3, 63, 1			; PPC64-NEXT: clrldi 4, 3, 53
	; PPC64-NEXT: or 5, 5, 4			; PPC64-NEXT: or 6, 6, 5
	; PPC64-NEXT: rldicl 6, 5, 11, 53			; PPC64-NEXT: clrldi 7, 6, 53
	; PPC64-NEXT: addi 6, 6, 1			; PPC64-NEXT: addi 4, 4, 2047
	; PPC64-NEXT: clrldi 7, 5, 53
	; PPC64-NEXT: cmpldi 1, 6, 1
	; PPC64-NEXT: clrldi 6, 3, 53
	; PPC64-NEXT: addi 7, 7, 2047			; PPC64-NEXT: addi 7, 7, 2047
	; PPC64-NEXT: addi 6, 6, 2047			; PPC64-NEXT: or 4, 4, 3
	; PPC64-NEXT: or 4, 7, 4			; PPC64-NEXT: or 5, 7, 5
	; PPC64-NEXT: or 6, 6, 3			; PPC64-NEXT: rldicl 7, 3, 10, 54
	; PPC64-NEXT: rldicl 4, 4, 53, 11			; PPC64-NEXT: rldicr 4, 4, 0, 52
	; PPC64-NEXT: rldicr 6, 6, 0, 52			; PPC64-NEXT: addi 7, 7, 1
	; PPC64-NEXT: bc 12, 1, .LBB2_4			; PPC64-NEXT: bc 12, 1, .LBB2_4
	; PPC64-NEXT: # %bb.3: # %entry			; PPC64-NEXT: # %bb.3: # %entry
	; PPC64-NEXT: ori 6, 3, 0			; PPC64-NEXT: ori 4, 3, 0
	; PPC64-NEXT: b .LBB2_4			; PPC64-NEXT: b .LBB2_4
	; PPC64-NEXT: .LBB2_4: # %entry			; PPC64-NEXT: .LBB2_4: # %entry
	; PPC64-NEXT: rldicl 4, 4, 11, 1			; PPC64-NEXT: rldicl 5, 5, 53, 11
	; PPC64-NEXT: cmpdi 3, 0			; PPC64-NEXT: std 4, -32(1)
	; PPC64-NEXT: std 6, -32(1)			; PPC64-NEXT: rldicl 4, 5, 11, 1
	; PPC64-NEXT: bc 12, 5, .LBB2_6			; PPC64-NEXT: cmpldi 7, 1
				; PPC64-NEXT: bc 12, 1, .LBB2_6
	; PPC64-NEXT: # %bb.5: # %entry			; PPC64-NEXT: # %bb.5: # %entry
	; PPC64-NEXT: ori 4, 5, 0			; PPC64-NEXT: ori 4, 6, 0
	; PPC64-NEXT: b .LBB2_6			; PPC64-NEXT: b .LBB2_6
	; PPC64-NEXT: .LBB2_6: # %entry			; PPC64-NEXT: .LBB2_6: # %entry
				; PPC64-NEXT: cmpdi 3, 0
	; PPC64-NEXT: std 4, -24(1)			; PPC64-NEXT: std 4, -24(1)
	; PPC64-NEXT: bc 12, 0, .LBB2_8			; PPC64-NEXT: bc 12, 0, .LBB2_8
	; PPC64-NEXT: # %bb.7: # %entry			; PPC64-NEXT: # %bb.7: # %entry
	; PPC64-NEXT: lfd 0, -32(1)			; PPC64-NEXT: lfd 0, -32(1)
	; PPC64-NEXT: fcfid 0, 0			; PPC64-NEXT: fcfid 0, 0
	; PPC64-NEXT: frsp 1, 0			; PPC64-NEXT: frsp 1, 0
	; PPC64-NEXT: blr			; PPC64-NEXT: blr
	; PPC64-NEXT: .LBB2_8:			; PPC64-NEXT: .LBB2_8:
	▲ Show 20 Lines • Show All 207 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/bswap-bitreverse.ll

	Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; RV32I-NEXT: and a2, a2, a3			; RV32I-NEXT: and a2, a2, a3
	; RV32I-NEXT: slli a0, a0, 24			; RV32I-NEXT: slli a0, a0, 24
	; RV32I-NEXT: or a0, a0, a2			; RV32I-NEXT: or a0, a0, a2
	; RV32I-NEXT: or a0, a0, a1			; RV32I-NEXT: or a0, a0, a1
	; RV32I-NEXT: ret			; RV32I-NEXT: ret
	;			;
	; RV64I-LABEL: test_bswap_i32:			; RV64I-LABEL: test_bswap_i32:
	; RV64I: # %bb.0:			; RV64I: # %bb.0:
	; RV64I-NEXT: srliw a1, a0, 8			; RV64I-NEXT: srli a1, a0, 8
	; RV64I-NEXT: lui a2, 16			; RV64I-NEXT: lui a2, 16
	; RV64I-NEXT: addiw a2, a2, -256			; RV64I-NEXT: addiw a2, a2, -256
	; RV64I-NEXT: and a1, a1, a2			; RV64I-NEXT: and a1, a1, a2
	; RV64I-NEXT: srliw a2, a0, 24			; RV64I-NEXT: srliw a2, a0, 24
	; RV64I-NEXT: or a1, a1, a2			; RV64I-NEXT: or a1, a1, a2
	; RV64I-NEXT: slli a2, a0, 8			; RV64I-NEXT: slli a2, a0, 8
	; RV64I-NEXT: lui a3, 4080			; RV64I-NEXT: lui a3, 4080
	; RV64I-NEXT: and a2, a2, a3			; RV64I-NEXT: and a2, a2, a3
	▲ Show 20 Lines • Show All 389 Lines • ▼ Show 20 Lines
	; RV32I-NEXT: and a1, a1, a2			; RV32I-NEXT: and a1, a1, a2
	; RV32I-NEXT: and a0, a0, a2			; RV32I-NEXT: and a0, a0, a2
	; RV32I-NEXT: slli a0, a0, 1			; RV32I-NEXT: slli a0, a0, 1
	; RV32I-NEXT: or a0, a1, a0			; RV32I-NEXT: or a0, a1, a0
	; RV32I-NEXT: ret			; RV32I-NEXT: ret
	;			;
	; RV64I-LABEL: test_bitreverse_i32:			; RV64I-LABEL: test_bitreverse_i32:
	; RV64I: # %bb.0:			; RV64I: # %bb.0:
	; RV64I-NEXT: srliw a1, a0, 8			; RV64I-NEXT: srli a1, a0, 8
	; RV64I-NEXT: lui a2, 16			; RV64I-NEXT: lui a2, 16
	; RV64I-NEXT: addiw a2, a2, -256			; RV64I-NEXT: addiw a2, a2, -256
	; RV64I-NEXT: and a1, a1, a2			; RV64I-NEXT: and a1, a1, a2
	; RV64I-NEXT: srliw a2, a0, 24			; RV64I-NEXT: srliw a2, a0, 24
	; RV64I-NEXT: or a1, a1, a2			; RV64I-NEXT: or a1, a1, a2
	; RV64I-NEXT: slli a2, a0, 8			; RV64I-NEXT: slli a2, a0, 8
	; RV64I-NEXT: lui a3, 4080			; RV64I-NEXT: lui a3, 4080
	; RV64I-NEXT: and a2, a2, a3			; RV64I-NEXT: and a2, a2, a3
	▲ Show 20 Lines • Show All 1,135 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/ctlz-cttz-ctpop.ll

	Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines
	; RV64I-NEXT: # %bb.1: # %cond.false			; RV64I-NEXT: # %bb.1: # %cond.false
	; RV64I-NEXT: addiw a1, a0, -1			; RV64I-NEXT: addiw a1, a0, -1
	; RV64I-NEXT: not a0, a0			; RV64I-NEXT: not a0, a0
	; RV64I-NEXT: and a0, a0, a1			; RV64I-NEXT: and a0, a0, a1
	; RV64I-NEXT: srli a1, a0, 1			; RV64I-NEXT: srli a1, a0, 1
	; RV64I-NEXT: lui a2, 349525			; RV64I-NEXT: lui a2, 349525
	; RV64I-NEXT: addiw a2, a2, 1365			; RV64I-NEXT: addiw a2, a2, 1365
	; RV64I-NEXT: and a1, a1, a2			; RV64I-NEXT: and a1, a1, a2
	; RV64I-NEXT: subw a0, a0, a1			; RV64I-NEXT: sub a0, a0, a1
	; RV64I-NEXT: lui a1, 209715			; RV64I-NEXT: lui a1, 209715
	; RV64I-NEXT: addiw a1, a1, 819			; RV64I-NEXT: addiw a1, a1, 819
	; RV64I-NEXT: and a2, a0, a1			; RV64I-NEXT: and a2, a0, a1
	; RV64I-NEXT: srli a0, a0, 2			; RV64I-NEXT: srli a0, a0, 2
	; RV64I-NEXT: and a0, a0, a1			; RV64I-NEXT: and a0, a0, a1
	; RV64I-NEXT: add a0, a2, a0			; RV64I-NEXT: add a0, a2, a0
	; RV64I-NEXT: srli a1, a0, 4			; RV64I-NEXT: srli a1, a0, 4
	; RV64I-NEXT: add a0, a0, a1			; RV64I-NEXT: add a0, a0, a1
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; RV64I-NEXT: or a0, a0, a1			; RV64I-NEXT: or a0, a0, a1
	; RV64I-NEXT: srliw a1, a0, 16			; RV64I-NEXT: srliw a1, a0, 16
	; RV64I-NEXT: or a0, a0, a1			; RV64I-NEXT: or a0, a0, a1
	; RV64I-NEXT: not a0, a0			; RV64I-NEXT: not a0, a0
	; RV64I-NEXT: srli a1, a0, 1			; RV64I-NEXT: srli a1, a0, 1
	; RV64I-NEXT: lui a2, 349525			; RV64I-NEXT: lui a2, 349525
	; RV64I-NEXT: addiw a2, a2, 1365			; RV64I-NEXT: addiw a2, a2, 1365
	; RV64I-NEXT: and a1, a1, a2			; RV64I-NEXT: and a1, a1, a2
	; RV64I-NEXT: subw a0, a0, a1			; RV64I-NEXT: sub a0, a0, a1
	; RV64I-NEXT: lui a1, 209715			; RV64I-NEXT: lui a1, 209715
	; RV64I-NEXT: addiw a1, a1, 819			; RV64I-NEXT: addiw a1, a1, 819
	; RV64I-NEXT: and a2, a0, a1			; RV64I-NEXT: and a2, a0, a1
	; RV64I-NEXT: srli a0, a0, 2			; RV64I-NEXT: srli a0, a0, 2
	; RV64I-NEXT: and a0, a0, a1			; RV64I-NEXT: and a0, a0, a1
	; RV64I-NEXT: add a0, a2, a0			; RV64I-NEXT: add a0, a2, a0
	; RV64I-NEXT: srli a1, a0, 4			; RV64I-NEXT: srli a1, a0, 4
	; RV64I-NEXT: add a0, a0, a1			; RV64I-NEXT: add a0, a0, a1
	▲ Show 20 Lines • Show All 310 Lines • ▼ Show 20 Lines
	; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill			; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill
	; RV64I-NEXT: addiw a1, a0, -1			; RV64I-NEXT: addiw a1, a0, -1
	; RV64I-NEXT: not a0, a0			; RV64I-NEXT: not a0, a0
	; RV64I-NEXT: and a0, a0, a1			; RV64I-NEXT: and a0, a0, a1
	; RV64I-NEXT: srli a1, a0, 1			; RV64I-NEXT: srli a1, a0, 1
	; RV64I-NEXT: lui a2, 349525			; RV64I-NEXT: lui a2, 349525
	; RV64I-NEXT: addiw a2, a2, 1365			; RV64I-NEXT: addiw a2, a2, 1365
	; RV64I-NEXT: and a1, a1, a2			; RV64I-NEXT: and a1, a1, a2
	; RV64I-NEXT: subw a0, a0, a1			; RV64I-NEXT: sub a0, a0, a1
	; RV64I-NEXT: lui a1, 209715			; RV64I-NEXT: lui a1, 209715
	; RV64I-NEXT: addiw a1, a1, 819			; RV64I-NEXT: addiw a1, a1, 819
	; RV64I-NEXT: and a2, a0, a1			; RV64I-NEXT: and a2, a0, a1
	; RV64I-NEXT: srli a0, a0, 2			; RV64I-NEXT: srli a0, a0, 2
	; RV64I-NEXT: and a0, a0, a1			; RV64I-NEXT: and a0, a0, a1
	; RV64I-NEXT: add a0, a2, a0			; RV64I-NEXT: add a0, a2, a0
	; RV64I-NEXT: srli a1, a0, 4			; RV64I-NEXT: srli a1, a0, 4
	; RV64I-NEXT: add a0, a0, a1			; RV64I-NEXT: add a0, a0, a1
	▲ Show 20 Lines • Show All 178 Lines • ▼ Show 20 Lines
	; RV64I-LABEL: test_ctpop_i32:			; RV64I-LABEL: test_ctpop_i32:
	; RV64I: # %bb.0:			; RV64I: # %bb.0:
	; RV64I-NEXT: addi sp, sp, -16			; RV64I-NEXT: addi sp, sp, -16
	; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill			; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill
	; RV64I-NEXT: srli a1, a0, 1			; RV64I-NEXT: srli a1, a0, 1
	; RV64I-NEXT: lui a2, 349525			; RV64I-NEXT: lui a2, 349525
	; RV64I-NEXT: addiw a2, a2, 1365			; RV64I-NEXT: addiw a2, a2, 1365
	; RV64I-NEXT: and a1, a1, a2			; RV64I-NEXT: and a1, a1, a2
	; RV64I-NEXT: subw a0, a0, a1			; RV64I-NEXT: sub a0, a0, a1
	; RV64I-NEXT: lui a1, 209715			; RV64I-NEXT: lui a1, 209715
	; RV64I-NEXT: addiw a1, a1, 819			; RV64I-NEXT: addiw a1, a1, 819
	; RV64I-NEXT: and a2, a0, a1			; RV64I-NEXT: and a2, a0, a1
	; RV64I-NEXT: srli a0, a0, 2			; RV64I-NEXT: srli a0, a0, 2
	; RV64I-NEXT: and a0, a0, a1			; RV64I-NEXT: and a0, a0, a1
	; RV64I-NEXT: add a0, a2, a0			; RV64I-NEXT: add a0, a2, a0
	; RV64I-NEXT: srli a1, a0, 4			; RV64I-NEXT: srli a1, a0, 4
	; RV64I-NEXT: add a0, a0, a1			; RV64I-NEXT: add a0, a0, a1
	▲ Show 20 Lines • Show All 227 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rv64zbb-zbp-zbkb.ll

	Show First 20 Lines • Show All 349 Lines • ▼ Show 20 Lines

	; This is similar to the type legalized roriw pattern, but the and mask is more			; This is similar to the type legalized roriw pattern, but the and mask is more
	; than 32 bits so the lshr doesn't shift zeroes into the lower 32 bits. Make			; than 32 bits so the lshr doesn't shift zeroes into the lower 32 bits. Make
	; sure we don't match it to roriw.			; sure we don't match it to roriw.
	define i64 @roriw_bug(i64 %x) nounwind {			define i64 @roriw_bug(i64 %x) nounwind {
	; CHECK-LABEL: roriw_bug:			; CHECK-LABEL: roriw_bug:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: slli a1, a0, 31			; CHECK-NEXT: slli a1, a0, 31
	; CHECK-NEXT: andi a0, a0, -2			; CHECK-NEXT: andi a2, a0, -2
	; CHECK-NEXT: srli a2, a0, 1			; CHECK-NEXT: srli a0, a0, 1
	; CHECK-NEXT: or a1, a1, a2			; CHECK-NEXT: or a0, a1, a0
	; CHECK-NEXT: sext.w a1, a1			; CHECK-NEXT: sext.w a0, a0
	; CHECK-NEXT: xor a0, a0, a1			; CHECK-NEXT: xor a0, a2, a0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%a = shl i64 %x, 31			%a = shl i64 %x, 31
	%b = and i64 %x, 18446744073709551614			%b = and i64 %x, 18446744073709551614
	%c = lshr i64 %b, 1			%c = lshr i64 %b, 1
	%d = or i64 %a, %c			%d = or i64 %a, %c
	%e = shl i64 %d, 32			%e = shl i64 %d, 32
	%f = ashr i64 %e, 32			%f = ashr i64 %e, 32
	%g = xor i64 %b, %f ; to increase the use count on %b to disable SimplifyDemandedBits.			%g = xor i64 %b, %f ; to increase the use count on %b to disable SimplifyDemandedBits.
	▲ Show 20 Lines • Show All 188 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rv64zbb.ll

Show All 22 Lines
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: srliw a1, a0, 16		; RV64I-NEXT: srliw a1, a0, 16
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: not a0, a0		; RV64I-NEXT: not a0, a0
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
Show All 37 Lines
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: srliw a1, a0, 16		; RV64I-NEXT: srliw a1, a0, 16
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: not a0, a0		; RV64I-NEXT: not a0, a0
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: srliw a1, a0, 16		; RV64I-NEXT: srliw a1, a0, 16
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: not a0, a0		; RV64I-NEXT: not a0, a0
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: srliw a1, a0, 16		; RV64I-NEXT: srliw a1, a0, 16
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: not a0, a0		; RV64I-NEXT: not a0, a0
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; RV64I-NEXT: slli a1, a0, 33		; RV64I-NEXT: slli a1, a0, 33
; RV64I-NEXT: srli a1, a1, 49		; RV64I-NEXT: srli a1, a1, 49
; RV64I-NEXT: or a0, a0, a1		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: not a0, a0		; RV64I-NEXT: not a0, a0
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
; RV64I-NEXT: # %bb.1: # %cond.false		; RV64I-NEXT: # %bb.1: # %cond.false
; RV64I-NEXT: addiw a1, a0, -1		; RV64I-NEXT: addiw a1, a0, -1
; RV64I-NEXT: not a0, a0		; RV64I-NEXT: not a0, a0
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
Show All 27 Lines
; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill		; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill
; RV64I-NEXT: addiw a1, a0, -1		; RV64I-NEXT: addiw a1, a0, -1
; RV64I-NEXT: not a0, a0		; RV64I-NEXT: not a0, a0
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
Show All 25 Lines
; RV64I-NEXT: mv s0, a0		; RV64I-NEXT: mv s0, a0
; RV64I-NEXT: addiw a0, a0, -1		; RV64I-NEXT: addiw a0, a0, -1
; RV64I-NEXT: not a1, s0		; RV64I-NEXT: not a1, s0
; RV64I-NEXT: and a0, a1, a0		; RV64I-NEXT: and a0, a1, a0
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
Show All 38 Lines
; RV64I-NEXT: mv s0, a0		; RV64I-NEXT: mv s0, a0
; RV64I-NEXT: addiw a0, a0, -1		; RV64I-NEXT: addiw a0, a0, -1
; RV64I-NEXT: not a1, s0		; RV64I-NEXT: not a1, s0
; RV64I-NEXT: and a0, a1, a0		; RV64I-NEXT: and a0, a1, a0
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
; RV64I-LABEL: ctpop_i32:		; RV64I-LABEL: ctpop_i32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: addi sp, sp, -16		; RV64I-NEXT: addi sp, sp, -16
; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill		; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
Show All 21 Lines
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: addi sp, sp, -16		; RV64I-NEXT: addi sp, sp, -16
; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill		; RV64I-NEXT: sd ra, 8(sp) # 8-byte Folded Spill
; RV64I-NEXT: lw a0, 0(a0)		; RV64I-NEXT: lw a0, 0(a0)
; RV64I-NEXT: srli a1, a0, 1		; RV64I-NEXT: srli a1, a0, 1
; RV64I-NEXT: lui a2, 349525		; RV64I-NEXT: lui a2, 349525
; RV64I-NEXT: addiw a2, a2, 1365		; RV64I-NEXT: addiw a2, a2, 1365
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: subw a0, a0, a1		; RV64I-NEXT: sub a0, a0, a1
; RV64I-NEXT: lui a1, 209715		; RV64I-NEXT: lui a1, 209715
; RV64I-NEXT: addiw a1, a1, 819		; RV64I-NEXT: addiw a1, a1, 819
; RV64I-NEXT: and a2, a0, a1		; RV64I-NEXT: and a2, a0, a1
; RV64I-NEXT: srli a0, a0, 2		; RV64I-NEXT: srli a0, a0, 2
; RV64I-NEXT: and a0, a0, a1		; RV64I-NEXT: and a0, a0, a1
; RV64I-NEXT: add a0, a2, a0		; RV64I-NEXT: add a0, a2, a0
; RV64I-NEXT: srli a1, a0, 4		; RV64I-NEXT: srli a1, a0, 4
; RV64I-NEXT: add a0, a0, a1		; RV64I-NEXT: add a0, a0, a1
▲ Show 20 Lines • Show All 351 Lines • ▼ Show 20 Lines	; RV64ZBB-NEXT: ret
ret i64 %and		ret i64 %and
}		}

declare i32 @llvm.bswap.i32(i32)		declare i32 @llvm.bswap.i32(i32)

define signext i32 @bswap_i32(i32 signext %a) nounwind {		define signext i32 @bswap_i32(i32 signext %a) nounwind {
; RV64I-LABEL: bswap_i32:		; RV64I-LABEL: bswap_i32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: srliw a1, a0, 8		; RV64I-NEXT: srli a1, a0, 8
; RV64I-NEXT: lui a2, 16		; RV64I-NEXT: lui a2, 16
; RV64I-NEXT: addiw a2, a2, -256		; RV64I-NEXT: addiw a2, a2, -256
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: srliw a2, a0, 24		; RV64I-NEXT: srliw a2, a0, 24
; RV64I-NEXT: or a1, a1, a2		; RV64I-NEXT: or a1, a1, a2
; RV64I-NEXT: slli a2, a0, 8		; RV64I-NEXT: slli a2, a0, 8
; RV64I-NEXT: lui a3, 4080		; RV64I-NEXT: lui a3, 4080
; RV64I-NEXT: and a2, a2, a3		; RV64I-NEXT: and a2, a2, a3
Show All 10 Lines	; RV64ZBB-NEXT: ret
%1 = tail call i32 @llvm.bswap.i32(i32 %a)		%1 = tail call i32 @llvm.bswap.i32(i32 %a)
ret i32 %1		ret i32 %1
}		}

; Similar to bswap_i32 but the result is not sign extended.		; Similar to bswap_i32 but the result is not sign extended.
define void @bswap_i32_nosext(i32 signext %a, i32* %x) nounwind {		define void @bswap_i32_nosext(i32 signext %a, i32* %x) nounwind {
; RV64I-LABEL: bswap_i32_nosext:		; RV64I-LABEL: bswap_i32_nosext:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: srliw a2, a0, 8		; RV64I-NEXT: srli a2, a0, 8
; RV64I-NEXT: lui a3, 16		; RV64I-NEXT: lui a3, 16
; RV64I-NEXT: addiw a3, a3, -256		; RV64I-NEXT: addiw a3, a3, -256
; RV64I-NEXT: and a2, a2, a3		; RV64I-NEXT: and a2, a2, a3
; RV64I-NEXT: srliw a3, a0, 24		; RV64I-NEXT: srliw a3, a0, 24
; RV64I-NEXT: or a2, a2, a3		; RV64I-NEXT: or a2, a2, a3
; RV64I-NEXT: slli a3, a0, 8		; RV64I-NEXT: slli a3, a0, 8
; RV64I-NEXT: lui a4, 4080		; RV64I-NEXT: lui a4, 4080
; RV64I-NEXT: and a3, a3, a4		; RV64I-NEXT: and a3, a3, a4
▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rv64zbp.ll

Show First 20 Lines • Show All 2,441 Lines • ▼ Show 20 Lines	; RV64ZBP-NEXT: ret
ret i16 %1		ret i16 %1
}		}

declare i32 @llvm.bswap.i32(i32)		declare i32 @llvm.bswap.i32(i32)

define signext i32 @bswap_i32(i32 signext %a) nounwind {		define signext i32 @bswap_i32(i32 signext %a) nounwind {
; RV64I-LABEL: bswap_i32:		; RV64I-LABEL: bswap_i32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: srliw a1, a0, 8		; RV64I-NEXT: srli a1, a0, 8
; RV64I-NEXT: lui a2, 16		; RV64I-NEXT: lui a2, 16
; RV64I-NEXT: addiw a2, a2, -256		; RV64I-NEXT: addiw a2, a2, -256
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: srliw a2, a0, 24		; RV64I-NEXT: srliw a2, a0, 24
; RV64I-NEXT: or a1, a1, a2		; RV64I-NEXT: or a1, a1, a2
; RV64I-NEXT: slli a2, a0, 8		; RV64I-NEXT: slli a2, a0, 8
; RV64I-NEXT: lui a3, 4080		; RV64I-NEXT: lui a3, 4080
; RV64I-NEXT: and a2, a2, a3		; RV64I-NEXT: and a2, a2, a3
Show All 9 Lines	; RV64ZBP-NEXT: ret
%1 = tail call i32 @llvm.bswap.i32(i32 %a)		%1 = tail call i32 @llvm.bswap.i32(i32 %a)
ret i32 %1		ret i32 %1
}		}

; Similar to bswap_i32 but the result is not sign extended.		; Similar to bswap_i32 but the result is not sign extended.
define void @bswap_i32_nosext(i32 signext %a, i32* %x) nounwind {		define void @bswap_i32_nosext(i32 signext %a, i32* %x) nounwind {
; RV64I-LABEL: bswap_i32_nosext:		; RV64I-LABEL: bswap_i32_nosext:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: srliw a2, a0, 8		; RV64I-NEXT: srli a2, a0, 8
; RV64I-NEXT: lui a3, 16		; RV64I-NEXT: lui a3, 16
; RV64I-NEXT: addiw a3, a3, -256		; RV64I-NEXT: addiw a3, a3, -256
; RV64I-NEXT: and a2, a2, a3		; RV64I-NEXT: and a2, a2, a3
; RV64I-NEXT: srliw a3, a0, 24		; RV64I-NEXT: srliw a3, a0, 24
; RV64I-NEXT: or a2, a2, a3		; RV64I-NEXT: or a2, a2, a3
; RV64I-NEXT: slli a3, a0, 8		; RV64I-NEXT: slli a3, a0, 8
; RV64I-NEXT: lui a4, 4080		; RV64I-NEXT: lui a4, 4080
; RV64I-NEXT: and a3, a3, a4		; RV64I-NEXT: and a3, a3, a4
▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	; RV64ZBP-NEXT: ret
ret i16 %1		ret i16 %1
}		}

declare i32 @llvm.bitreverse.i32(i32)		declare i32 @llvm.bitreverse.i32(i32)

define signext i32 @bitreverse_i32(i32 signext %a) nounwind {		define signext i32 @bitreverse_i32(i32 signext %a) nounwind {
; RV64I-LABEL: bitreverse_i32:		; RV64I-LABEL: bitreverse_i32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: srliw a1, a0, 8		; RV64I-NEXT: srli a1, a0, 8
; RV64I-NEXT: lui a2, 16		; RV64I-NEXT: lui a2, 16
; RV64I-NEXT: addiw a2, a2, -256		; RV64I-NEXT: addiw a2, a2, -256
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: srliw a2, a0, 24		; RV64I-NEXT: srliw a2, a0, 24
; RV64I-NEXT: or a1, a1, a2		; RV64I-NEXT: or a1, a1, a2
; RV64I-NEXT: slli a2, a0, 8		; RV64I-NEXT: slli a2, a0, 8
; RV64I-NEXT: lui a3, 4080		; RV64I-NEXT: lui a3, 4080
; RV64I-NEXT: and a2, a2, a3		; RV64I-NEXT: and a2, a2, a3
Show All 30 Lines	; RV64ZBP-NEXT: ret
%1 = tail call i32 @llvm.bitreverse.i32(i32 %a)		%1 = tail call i32 @llvm.bitreverse.i32(i32 %a)
ret i32 %1		ret i32 %1
}		}

; Similar to bitreverse_i32 but the result is not sign extended.		; Similar to bitreverse_i32 but the result is not sign extended.
define void @bitreverse_i32_nosext(i32 signext %a, i32* %x) nounwind {		define void @bitreverse_i32_nosext(i32 signext %a, i32* %x) nounwind {
; RV64I-LABEL: bitreverse_i32_nosext:		; RV64I-LABEL: bitreverse_i32_nosext:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: srliw a2, a0, 8		; RV64I-NEXT: srli a2, a0, 8
; RV64I-NEXT: lui a3, 16		; RV64I-NEXT: lui a3, 16
; RV64I-NEXT: addiw a3, a3, -256		; RV64I-NEXT: addiw a3, a3, -256
; RV64I-NEXT: and a2, a2, a3		; RV64I-NEXT: and a2, a2, a3
; RV64I-NEXT: srliw a3, a0, 24		; RV64I-NEXT: srliw a3, a0, 24
; RV64I-NEXT: or a2, a2, a3		; RV64I-NEXT: or a2, a2, a3
; RV64I-NEXT: slli a3, a0, 8		; RV64I-NEXT: slli a3, a0, 8
; RV64I-NEXT: lui a4, 4080		; RV64I-NEXT: lui a4, 4080
; RV64I-NEXT: and a3, a3, a4		; RV64I-NEXT: and a3, a3, a4
▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
; RV64I-LABEL: bswap_rotr_i32:		; RV64I-LABEL: bswap_rotr_i32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: slli a1, a0, 8		; RV64I-NEXT: slli a1, a0, 8
; RV64I-NEXT: lui a2, 4080		; RV64I-NEXT: lui a2, 4080
; RV64I-NEXT: and a1, a1, a2		; RV64I-NEXT: and a1, a1, a2
; RV64I-NEXT: slli a2, a0, 24		; RV64I-NEXT: slli a2, a0, 24
; RV64I-NEXT: or a1, a2, a1		; RV64I-NEXT: or a1, a2, a1
; RV64I-NEXT: srliw a2, a0, 24		; RV64I-NEXT: srliw a2, a0, 24
; RV64I-NEXT: srliw a0, a0, 16		; RV64I-NEXT: srli a0, a0, 16
; RV64I-NEXT: slli a0, a0, 8		; RV64I-NEXT: slli a0, a0, 8
; RV64I-NEXT: or a0, a0, a2		; RV64I-NEXT: or a0, a0, a2
; RV64I-NEXT: slliw a0, a0, 16		; RV64I-NEXT: slliw a0, a0, 16
; RV64I-NEXT: srliw a1, a1, 16		; RV64I-NEXT: srliw a1, a1, 16
; RV64I-NEXT: or a0, a1, a0		; RV64I-NEXT: or a0, a1, a0
; RV64I-NEXT: ret		; RV64I-NEXT: ret
;		;
; RV64ZBP-LABEL: bswap_rotr_i32:		; RV64ZBP-LABEL: bswap_rotr_i32:
; RV64ZBP: # %bb.0:		; RV64ZBP: # %bb.0:
; RV64ZBP-NEXT: greviw a0, a0, 8		; RV64ZBP-NEXT: greviw a0, a0, 8
; RV64ZBP-NEXT: ret		; RV64ZBP-NEXT: ret
%1 = call i32 @llvm.bswap.i32(i32 %a)		%1 = call i32 @llvm.bswap.i32(i32 %a)
%2 = call i32 @llvm.fshr.i32(i32 %1, i32 %1, i32 16)		%2 = call i32 @llvm.fshr.i32(i32 %1, i32 %1, i32 16)
ret i32 %2		ret i32 %2
}		}

define i32 @bswap_rotl_i32(i32 %a) {		define i32 @bswap_rotl_i32(i32 %a) {
; RV64I-LABEL: bswap_rotl_i32:		; RV64I-LABEL: bswap_rotl_i32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: srliw a1, a0, 24		; RV64I-NEXT: srliw a1, a0, 24
; RV64I-NEXT: srliw a2, a0, 16		; RV64I-NEXT: srli a2, a0, 16
; RV64I-NEXT: slli a2, a2, 8		; RV64I-NEXT: slli a2, a2, 8
; RV64I-NEXT: or a1, a2, a1		; RV64I-NEXT: or a1, a2, a1
; RV64I-NEXT: slli a2, a0, 8		; RV64I-NEXT: slli a2, a0, 8
; RV64I-NEXT: lui a3, 4080		; RV64I-NEXT: lui a3, 4080
; RV64I-NEXT: and a2, a2, a3		; RV64I-NEXT: and a2, a2, a3
; RV64I-NEXT: slli a0, a0, 24		; RV64I-NEXT: slli a0, a0, 24
; RV64I-NEXT: or a0, a0, a2		; RV64I-NEXT: or a0, a0, a2
; RV64I-NEXT: srliw a0, a0, 16		; RV64I-NEXT: srliw a0, a0, 16
▲ Show 20 Lines • Show All 528 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/sextw-removal.ll

	Show First 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
	; RV64I-NEXT: lui a1, 4112			; RV64I-NEXT: lui a1, 4112
	; RV64I-NEXT: addiw s3, a1, 257			; RV64I-NEXT: addiw s3, a1, 257
	; RV64I-NEXT: .LBB4_1: # %bb2			; RV64I-NEXT: .LBB4_1: # %bb2
	; RV64I-NEXT: # =>This Inner Loop Header: Depth=1			; RV64I-NEXT: # =>This Inner Loop Header: Depth=1
	; RV64I-NEXT: call bar@plt			; RV64I-NEXT: call bar@plt
	; RV64I-NEXT: mv a1, a0			; RV64I-NEXT: mv a1, a0
	; RV64I-NEXT: srli a0, a0, 1			; RV64I-NEXT: srli a0, a0, 1
	; RV64I-NEXT: and a0, a0, s0			; RV64I-NEXT: and a0, a0, s0
	; RV64I-NEXT: subw a0, a1, a0			; RV64I-NEXT: sub a0, a1, a0
	; RV64I-NEXT: and a2, a0, s1			; RV64I-NEXT: and a2, a0, s1
	; RV64I-NEXT: srli a0, a0, 2			; RV64I-NEXT: srli a0, a0, 2
	; RV64I-NEXT: and a0, a0, s1			; RV64I-NEXT: and a0, a0, s1
	; RV64I-NEXT: add a0, a2, a0			; RV64I-NEXT: add a0, a2, a0
	; RV64I-NEXT: srli a2, a0, 4			; RV64I-NEXT: srli a2, a0, 4
	; RV64I-NEXT: add a0, a0, a2			; RV64I-NEXT: add a0, a0, a2
	; RV64I-NEXT: and a0, a0, s2			; RV64I-NEXT: and a0, a0, s2
	; RV64I-NEXT: mulw a0, a0, s3			; RV64I-NEXT: mulw a0, a0, s3
	▲ Show 20 Lines • Show All 507 Lines • Show Last 20 Lines

llvm/test/CodeGen/SystemZ/store_nonbytesized_vecs.ll

	Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines

	; Truncate a <8 x i32> vector to <8 x i31> and store it (test splitting).			; Truncate a <8 x i32> vector to <8 x i31> and store it (test splitting).
	define void @fun2(<8 x i32> %src, <8 x i31>* %p)			define void @fun2(<8 x i32> %src, <8 x i31>* %p)
	; CHECK-LABEL: fun2:			; CHECK-LABEL: fun2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: stmg %r14, %r15, 112(%r15)			; CHECK-NEXT: stmg %r14, %r15, 112(%r15)
	; CHECK-NEXT: .cfi_offset %r14, -48			; CHECK-NEXT: .cfi_offset %r14, -48
	; CHECK-NEXT: .cfi_offset %r15, -40			; CHECK-NEXT: .cfi_offset %r15, -40
	; CHECK-NEXT: vlgvf %r0, %v26, 3			; CHECK-NEXT: vlgvf %r1, %v26, 3
				; CHECK-NEXT: vlgvf %r0, %v26, 2
				; CHECK-NEXT: stc %r1, 30(%r2)
				; CHECK-NEXT: srlk %r3, %r1, 8
				; CHECK-NEXT: risbgn %r1, %r1, 33, 167, 0
	; CHECK-NEXT: vlgvf %r5, %v24, 2			; CHECK-NEXT: vlgvf %r5, %v24, 2
	; CHECK-NEXT: srlk %r1, %r0, 8			; CHECK-NEXT: rosbg %r1, %r0, 2, 32, 31
				; CHECK-NEXT: sth %r3, 28(%r2)
				; CHECK-NEXT: srlg %r1, %r1, 24
	; CHECK-NEXT: vlgvf %r3, %v24, 3			; CHECK-NEXT: vlgvf %r3, %v24, 3
	; CHECK-NEXT: sth %r1, 28(%r2)			; CHECK-NEXT: st %r1, 24(%r2)
	; CHECK-NEXT: vlgvf %r1, %v26, 0			; CHECK-NEXT: vlgvf %r1, %v26, 0
	; CHECK-NEXT: risbgn %r14, %r5, 6, 164, 27			; CHECK-NEXT: risbgn %r14, %r5, 6, 164, 27
	; CHECK-NEXT: sllg %r4, %r3, 60			; CHECK-NEXT: sllg %r4, %r3, 60
	; CHECK-NEXT: stc %r0, 30(%r2)
	; CHECK-NEXT: rosbg %r14, %r3, 37, 63, 60			; CHECK-NEXT: rosbg %r14, %r3, 37, 63, 60
	; CHECK-NEXT: sllg %r3, %r14, 8			; CHECK-NEXT: sllg %r3, %r14, 8
	; CHECK-NEXT: rosbg %r4, %r1, 4, 34, 29			; CHECK-NEXT: rosbg %r4, %r1, 4, 34, 29
	; CHECK-NEXT: rosbg %r3, %r4, 56, 63, 8			; CHECK-NEXT: rosbg %r3, %r4, 56, 63, 8
	; CHECK-NEXT: stg %r3, 8(%r2)			; CHECK-NEXT: stg %r3, 8(%r2)
	; CHECK-NEXT: vlgvf %r3, %v24, 1			; CHECK-NEXT: vlgvf %r3, %v24, 1
	; CHECK-NEXT: sllg %r4, %r3, 58			; CHECK-NEXT: sllg %r4, %r3, 58
	; CHECK-NEXT: rosbg %r4, %r5, 6, 36, 27			; CHECK-NEXT: rosbg %r4, %r5, 6, 36, 27
	; CHECK-NEXT: vlgvf %r5, %v24, 0			; CHECK-NEXT: vlgvf %r5, %v24, 0
	; CHECK-NEXT: sllg %r5, %r5, 25			; CHECK-NEXT: sllg %r5, %r5, 25
	; CHECK-NEXT: rosbg %r5, %r3, 39, 63, 58			; CHECK-NEXT: rosbg %r5, %r3, 39, 63, 58
	; CHECK-NEXT: sllg %r3, %r5, 8			; CHECK-NEXT: sllg %r3, %r5, 8
	; CHECK-NEXT: rosbg %r3, %r4, 56, 63, 8			; CHECK-NEXT: rosbg %r3, %r4, 56, 63, 8
	; CHECK-NEXT: vlgvf %r4, %v26, 1
	; CHECK-NEXT: stg %r3, 0(%r2)			; CHECK-NEXT: stg %r3, 0(%r2)
	; CHECK-NEXT: vlgvf %r3, %v26, 2			; CHECK-NEXT: vlgvf %r3, %v26, 1
	; CHECK-NEXT: sllg %r5, %r4, 62			; CHECK-NEXT: sllg %r4, %r3, 62
	; CHECK-NEXT: rosbg %r5, %r3, 2, 32, 31			; CHECK-NEXT: rosbg %r4, %r0, 2, 32, 31
	; CHECK-NEXT: rosbg %r5, %r0, 33, 63, 0
	; CHECK-NEXT: risbgn %r0, %r1, 4, 162, 29			; CHECK-NEXT: risbgn %r0, %r1, 4, 162, 29
	; CHECK-NEXT: rosbg %r0, %r4, 35, 63, 62			; CHECK-NEXT: rosbg %r0, %r3, 35, 63, 62
	; CHECK-NEXT: sllg %r0, %r0, 8			; CHECK-NEXT: sllg %r0, %r0, 8
	; CHECK-NEXT: rosbg %r0, %r5, 56, 63, 8			; CHECK-NEXT: rosbg %r0, %r4, 56, 63, 8
	; CHECK-NEXT: stg %r0, 16(%r2)			; CHECK-NEXT: stg %r0, 16(%r2)
	; CHECK-NEXT: srlg %r0, %r5, 24
	; CHECK-NEXT: st %r0, 24(%r2)
	; CHECK-NEXT: lmg %r14, %r15, 112(%r15)			; CHECK-NEXT: lmg %r14, %r15, 112(%r15)
	; CHECK-NEXT: br %r14			; CHECK-NEXT: br %r14
	{			{
	%tmp = trunc <8 x i32> %src to <8 x i31>			%tmp = trunc <8 x i32> %src to <8 x i31>
	store <8 x i31> %tmp, <8 x i31>* %p			store <8 x i31> %tmp, <8 x i31>* %p
	ret void			ret void
	}			}

	; Load and store a <3 x i31> vector (test widening).			; Load and store a <3 x i31> vector (test widening).
	define void @fun3(<3 x i31>* %src, <3 x i31>* %p)			define void @fun3(<3 x i31>* %src, <3 x i31>* %p)
	; CHECK-LABEL: fun3:			; CHECK-LABEL: fun3:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: l %r0, 8(%r2)			; CHECK-NEXT: llgf %r0, 8(%r2)
	; CHECK-NEXT: lg %r1, 0(%r2)			; CHECK-NEXT: lg %r1, 0(%r2)
	; CHECK-NEXT: sllg %r2, %r1, 32			; CHECK-NEXT: sllg %r2, %r1, 32
	; CHECK-NEXT: lr %r2, %r0			; CHECK-NEXT: lr %r2, %r0
	; CHECK-NEXT: st %r0, 8(%r3)			; CHECK-NEXT: risbgn %r2, %r2, 2, 160, 0
				; CHECK-NEXT: lgr %r4, %r2
				; CHECK-NEXT: rosbg %r2, %r1, 0, 1, 32
				; CHECK-NEXT: rosbg %r4, %r0, 33, 63, 0
	; CHECK-NEXT: srlg %r0, %r2, 32			; CHECK-NEXT: srlg %r0, %r2, 32
	; CHECK-NEXT: lr %r1, %r0			; CHECK-NEXT: lr %r1, %r0
	; CHECK-NEXT: nihh %r1, 8191			; CHECK-NEXT: nihh %r1, 8191
				; CHECK-NEXT: st %r4, 8(%r3)
	; CHECK-NEXT: stg %r1, 0(%r3)			; CHECK-NEXT: stg %r1, 0(%r3)
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions @jonpa @uweigand These tests are proving very fragile depending on the order of and/shifts - should SystemZ be preferring masking leading/trailing bits with shift-pairs over shift+and / and+shift do you think? We have TLI::shouldFoldConstantShiftPairToMask to hand that. RKSimon: @jonpa @uweigand These tests are proving very fragile depending on the order of and/shifts…
				uweigandUnsubmitted Not Done Reply Inline Actions Well, this specific test only loads and then saves unmodified a 3xi31 vector, so ideally however the masking is done, it should be optimized away as unnecessary in either case. That's what currently happens, not sure why this is changing with this PR. In general, I think using an and-mask would be preferable over a shift pair on SystemZ. uweigand: Well, this specific test only loads and then saves unmodified a 3xi31 vector, so ideally…
	; CHECK-NEXT: br %r14			; CHECK-NEXT: br %r14
	{			{
	%tmp = load <3 x i31>, <3 x i31>* %src			%tmp = load <3 x i31>, <3 x i31>* %src
	store <3 x i31> %tmp, <3 x i31>* %p			store <3 x i31> %tmp, <3 x i31>* %p
	ret void			ret void
	}			}

llvm/test/CodeGen/Thumb2/thumb2-uxtb.ll

Show First 20 Lines • Show All 156 Lines • ▼ Show 20 Lines	; CHECK-NO-DSP-NEXT: bx lr
%tmp6 = or i32 %tmp5, %tmp1 ; <i32> [#uses=1]		%tmp6 = or i32 %tmp5, %tmp1 ; <i32> [#uses=1]
ret i32 %tmp6		ret i32 %tmp6
}		}

define i32 @test10(i32 %p0) {		define i32 @test10(i32 %p0) {
; CHECK-DSP-LABEL: test10:		; CHECK-DSP-LABEL: test10:
; CHECK-DSP: @ %bb.0:		; CHECK-DSP: @ %bb.0:
; CHECK-DSP-NEXT: mov.w r1, #16253176		; CHECK-DSP-NEXT: mov.w r1, #16253176
; CHECK-DSP-NEXT: and.w r0, r1, r0, lsr #7		; CHECK-DSP-NEXT: mov.w r2, #458759
; CHECK-DSP-NEXT: lsrs r1, r0, #5		; CHECK-DSP-NEXT: and.w r1, r1, r0, lsr #7
; CHECK-DSP-NEXT: uxtb16 r1, r1		; CHECK-DSP-NEXT: and.w r0, r2, r0, lsr #12
; CHECK-DSP-NEXT: add r0, r1		; CHECK-DSP-NEXT: add r0, r1
; CHECK-DSP-NEXT: bx lr		; CHECK-DSP-NEXT: bx lr
;		;
; CHECK-NO-DSP-LABEL: test10:		; CHECK-NO-DSP-LABEL: test10:
; CHECK-NO-DSP: @ %bb.0:		; CHECK-NO-DSP: @ %bb.0:
; CHECK-NO-DSP-NEXT: mov.w r1, #16253176		; CHECK-NO-DSP-NEXT: mov.w r1, #16253176
; CHECK-NO-DSP-NEXT: and.w r0, r1, r0, lsr #7		; CHECK-NO-DSP-NEXT: mov.w r2, #458759
; CHECK-NO-DSP-NEXT: mov.w r1, #458759		; CHECK-NO-DSP-NEXT: and.w r1, r1, r0, lsr #7
; CHECK-NO-DSP-NEXT: and.w r1, r1, r0, lsr #5		; CHECK-NO-DSP-NEXT: and.w r0, r2, r0, lsr #12
; CHECK-NO-DSP-NEXT: add r0, r1		; CHECK-NO-DSP-NEXT: add r0, r1
; CHECK-NO-DSP-NEXT: bx lr		; CHECK-NO-DSP-NEXT: bx lr

%tmp1 = lshr i32 %p0, 7 ; <i32> [#uses=1]		%tmp1 = lshr i32 %p0, 7 ; <i32> [#uses=1]
%tmp2 = and i32 %tmp1, 16253176 ; <i32> [#uses=2]		%tmp2 = and i32 %tmp1, 16253176 ; <i32> [#uses=2]
%tmp4 = lshr i32 %tmp2, 5 ; <i32> [#uses=1]		%tmp4 = lshr i32 %tmp2, 5 ; <i32> [#uses=1]
%tmp5 = and i32 %tmp4, 458759 ; <i32> [#uses=1]		%tmp5 = and i32 %tmp4, 458759 ; <i32> [#uses=1]
%tmp7 = or i32 %tmp5, %tmp2 ; <i32> [#uses=1]		%tmp7 = or i32 %tmp5, %tmp2 ; <i32> [#uses=1]
ret i32 %tmp7		ret i32 %tmp7
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions same problem - instcombine will have already optimized this to: define i32 @test10(i32 %p0) { %tmp1 = lshr i32 %p0, 7 %tmp2 = and i32 %tmp1, 16253176 %tmp4 = lshr i32 %p0, 12 %tmp5 = and i32 %tmp4, 458759 %tmp7 = or i32 %tmp5, %tmp2 ret i32 %tmp7 } It feels like I'm avoiding the issue - but should I update the arm/thumb2 UXTB16 tests to match what the middle-end will have generated? RKSimon: same problem - instcombine will have already optimized this to: ``` define i32 @test10(i32 %p0)…
}		}

llvm/test/CodeGen/X86/ctpop-combine.ll

	Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; POPCOUNT: # %bb.0:			; POPCOUNT: # %bb.0:
	; POPCOUNT-NEXT: andl $127, %edi			; POPCOUNT-NEXT: andl $127, %edi
	; POPCOUNT-NEXT: popcntl %edi, %eax			; POPCOUNT-NEXT: popcntl %edi, %eax
	; POPCOUNT-NEXT: # kill: def $al killed $al killed $eax			; POPCOUNT-NEXT: # kill: def $al killed $al killed $eax
	; POPCOUNT-NEXT: retq			; POPCOUNT-NEXT: retq
	;			;
	; NO-POPCOUNT-LABEL: test4:			; NO-POPCOUNT-LABEL: test4:
	; NO-POPCOUNT: # %bb.0:			; NO-POPCOUNT: # %bb.0:
	; NO-POPCOUNT-NEXT: andb $127, %dil
	; NO-POPCOUNT-NEXT: movl %edi, %eax
	; NO-POPCOUNT-NEXT: shrb %al
	; NO-POPCOUNT-NEXT: andb $21, %al
	; NO-POPCOUNT-NEXT: subb %al, %dil
	; NO-POPCOUNT-NEXT: movl %edi, %ecx			; NO-POPCOUNT-NEXT: movl %edi, %ecx
				; NO-POPCOUNT-NEXT: andb $127, %cl
				; NO-POPCOUNT-NEXT: shrb %dil
				; NO-POPCOUNT-NEXT: andb $21, %dil
				; NO-POPCOUNT-NEXT: subb %dil, %cl
				; NO-POPCOUNT-NEXT: movl %ecx, %eax
				; NO-POPCOUNT-NEXT: andb $51, %al
				; NO-POPCOUNT-NEXT: shrb $2, %cl
	; NO-POPCOUNT-NEXT: andb $51, %cl			; NO-POPCOUNT-NEXT: andb $51, %cl
	; NO-POPCOUNT-NEXT: shrb $2, %dil			; NO-POPCOUNT-NEXT: addb %al, %cl
	; NO-POPCOUNT-NEXT: andb $51, %dil
	; NO-POPCOUNT-NEXT: addb %dil, %cl
	; NO-POPCOUNT-NEXT: movl %ecx, %eax			; NO-POPCOUNT-NEXT: movl %ecx, %eax
	; NO-POPCOUNT-NEXT: shrb $4, %al			; NO-POPCOUNT-NEXT: shrb $4, %al
	; NO-POPCOUNT-NEXT: addb %cl, %al			; NO-POPCOUNT-NEXT: addb %cl, %al
	; NO-POPCOUNT-NEXT: andb $15, %al			; NO-POPCOUNT-NEXT: andb $15, %al
	; NO-POPCOUNT-NEXT: retq			; NO-POPCOUNT-NEXT: retq
	%x2 = and i8 %x, 127			%x2 = and i8 %x, 127
	%count = tail call i8 @llvm.ctpop.i8(i8 %x2)			%count = tail call i8 @llvm.ctpop.i8(i8 %x2)
	%and = and i8 %count, 7			%and = and i8 %count, 7
	▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/illegal-bitfield-loadstore.ll

	Show All 35 Lines
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzwl (%eax), %edx			; X86-NEXT: movzwl (%eax), %edx
	; X86-NEXT: movzbl 2(%eax), %ecx			; X86-NEXT: movzbl 2(%eax), %ecx
	; X86-NEXT: movb %cl, 2(%eax)			; X86-NEXT: movb %cl, 2(%eax)
	; X86-NEXT: shll $16, %ecx			; X86-NEXT: shll $16, %ecx
	; X86-NEXT: orl %edx, %ecx			; X86-NEXT: orl %edx, %ecx
	; X86-NEXT: orl $384, %ecx # imm = 0x180			; X86-NEXT: orl $384, %ecx # imm = 0x180
	; X86-NEXT: andl $16777088, %ecx # imm = 0xFFFF80			; X86-NEXT: andl $-128, %ecx
	; X86-NEXT: movw %cx, (%eax)			; X86-NEXT: movw %cx, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i24_and_or:			; X64-LABEL: i24_and_or:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl (%rdi), %eax			; X64-NEXT: movzwl (%rdi), %eax
	; X64-NEXT: movzbl 2(%rdi), %ecx			; X64-NEXT: movzbl 2(%rdi), %ecx
	; X64-NEXT: movb %cl, 2(%rdi)			; X64-NEXT: movb %cl, 2(%rdi)
	; X64-NEXT: shll $16, %ecx			; X64-NEXT: shll $16, %ecx
	; X64-NEXT: orl %eax, %ecx			; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: orl $384, %ecx # imm = 0x180			; X64-NEXT: orl $384, %ecx # imm = 0x180
	; X64-NEXT: andl $16777088, %ecx # imm = 0xFFFF80			; X64-NEXT: andl $-128, %ecx
	; X64-NEXT: movw %cx, (%rdi)			; X64-NEXT: movw %cx, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%b = load i24, i24* %a, align 1			%b = load i24, i24* %a, align 1
	%c = and i24 %b, -128			%c = and i24 %b, -128
	%d = or i24 %c, 384			%d = or i24 %c, 384
	store i24 %d, i24* %a, align 1			store i24 %d, i24* %a, align 1
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl 4(%rdi), %eax			; X64-NEXT: movzwl 4(%rdi), %eax
	; X64-NEXT: movzbl 6(%rdi), %ecx			; X64-NEXT: movzbl 6(%rdi), %ecx
	; X64-NEXT: movb %cl, 6(%rdi)			; X64-NEXT: movb %cl, 6(%rdi)
	; X64-NEXT: # kill: def $ecx killed $ecx killed $rcx def $rcx			; X64-NEXT: # kill: def $ecx killed $ecx killed $rcx def $rcx
	; X64-NEXT: shll $16, %ecx			; X64-NEXT: shll $16, %ecx
	; X64-NEXT: orl %eax, %ecx			; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: shlq $32, %rcx			; X64-NEXT: shlq $32, %rcx
	; X64-NEXT: movl (%rdi), %eax			; X64-NEXT: movl (%rdi), %edx
	; X64-NEXT: orq %rcx, %rax			; X64-NEXT: orq %rcx, %rdx
	; X64-NEXT: orq $384, %rax # imm = 0x180			; X64-NEXT: orq $384, %rdx # imm = 0x180
	; X64-NEXT: movl %eax, (%rdi)
	; X64-NEXT: shrq $32, %rax
	; X64-NEXT: movw %ax, 4(%rdi)			; X64-NEXT: movw %ax, 4(%rdi)
				; X64-NEXT: movl %edx, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%aa = load i56, i56* %a, align 1			%aa = load i56, i56* %a, align 1
	%b = or i56 %aa, 384			%b = or i56 %aa, 384
	store i56 %b, i56* %a, align 1			store i56 %b, i56* %a, align 1
	ret void			ret void
	}			}

	define void @i56_and_or(i56* %a) {			define void @i56_and_or(i56* %a) {
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; X64-NEXT: movl %esi, %eax			; X64-NEXT: movl %esi, %eax
	; X64-NEXT: movzwl 4(%rdi), %ecx			; X64-NEXT: movzwl 4(%rdi), %ecx
	; X64-NEXT: movzbl 6(%rdi), %edx			; X64-NEXT: movzbl 6(%rdi), %edx
	; X64-NEXT: movb %dl, 6(%rdi)			; X64-NEXT: movb %dl, 6(%rdi)
	; X64-NEXT: # kill: def $edx killed $edx killed $rdx def $rdx			; X64-NEXT: # kill: def $edx killed $edx killed $rdx def $rdx
	; X64-NEXT: shll $16, %edx			; X64-NEXT: shll $16, %edx
	; X64-NEXT: orl %ecx, %edx			; X64-NEXT: orl %ecx, %edx
	; X64-NEXT: shlq $32, %rdx			; X64-NEXT: shlq $32, %rdx
	; X64-NEXT: movl (%rdi), %ecx			; X64-NEXT: movl (%rdi), %esi
	; X64-NEXT: orq %rdx, %rcx			; X64-NEXT: orq %rdx, %rsi
	; X64-NEXT: shlq $13, %rax			; X64-NEXT: shlq $13, %rax
	; X64-NEXT: movabsq $72057594037919743, %rdx # imm = 0xFFFFFFFFFFDFFF			; X64-NEXT: movabsq $72057594037919743, %rdx # imm = 0xFFFFFFFFFFDFFF
	; X64-NEXT: andq %rcx, %rdx			; X64-NEXT: andq %rsi, %rdx
	; X64-NEXT: orq %rax, %rdx			; X64-NEXT: orq %rax, %rdx
				; X64-NEXT: movw %cx, 4(%rdi)
	; X64-NEXT: movl %edx, (%rdi)			; X64-NEXT: movl %edx, (%rdi)
	; X64-NEXT: shrq $32, %rdx
	; X64-NEXT: movw %dx, 4(%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%extbit = zext i1 %bit to i56			%extbit = zext i1 %bit to i56
	%b = load i56, i56* %a, align 1			%b = load i56, i56* %a, align 1
	%extbit.shl = shl nuw nsw i56 %extbit, 13			%extbit.shl = shl nuw nsw i56 %extbit, 13
	%c = and i56 %b, -8193			%c = and i56 %b, -8193
	%d = or i56 %c, %extbit.shl			%d = or i56 %c, %extbit.shl
	store i56 %d, i56* %a, align 1			store i56 %d, i56* %a, align 1
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/ins_subreg_coalesce-1.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-- -mattr=-bmi \| FileCheck %s			; RUN: llc < %s -mtriple=i686-- -mattr=-bmi \| FileCheck %s

	define fastcc i32 @t() nounwind {			define fastcc i32 @t() nounwind {
	; CHECK-LABEL: t:			; CHECK-LABEL: t:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: movzwl 0, %eax			; CHECK-NEXT: movzwl 0, %eax
	; CHECK-NEXT: orl $2, %eax			; CHECK-NEXT: movl %eax, %ecx
	; CHECK-NEXT: movw %ax, 0			; CHECK-NEXT: orl $2, %ecx
				; CHECK-NEXT: movw %cx, 0
				spatelUnsubmitted Not Done Reply Inline Actions Not sure if this test still models some situation that we care about, but you could put a TODO note on it (don't need to copy to %ecx?). spatel: Not sure if this test still models some situation that we care about, but you could put a TODO…
	; CHECK-NEXT: shrl $3, %eax			; CHECK-NEXT: shrl $3, %eax
	; CHECK-NEXT: andl $1, %eax			; CHECK-NEXT: andl $1, %eax
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	entry:			entry:
	br i1 false, label %UnifiedReturnBlock, label %bb4			br i1 false, label %UnifiedReturnBlock, label %bb4
	bb4: ; preds = %entry			bb4: ; preds = %entry
	br i1 false, label %bb17, label %bb22			br i1 false, label %bb17, label %bb22
	bb17: ; preds = %bb4			bb17: ; preds = %bb4
	Show All 16 Lines

llvm/test/CodeGen/X86/load-local-v4i5.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --no_x86_scrub_sp			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --no_x86_scrub_sp
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s
	@0 = internal unnamed_addr constant [4 x i5] [i5 2, i5 0, i5 2, i5 -1], align 1			@0 = internal unnamed_addr constant [4 x i5] [i5 2, i5 0, i5 2, i5 -1], align 1

	; Function Attrs: nobuiltin nounwind			; Function Attrs: nobuiltin nounwind
	define void @_start() {			define void @_start() {
	; CHECK-LABEL: _start:			; CHECK-LABEL: _start:
	; CHECK: # %bb.0: # %Entry			; CHECK: # %bb.0: # %Entry
	; CHECK-NEXT: movl __unnamed_1(%rip), %eax			; CHECK-NEXT: movl __unnamed_1(%rip), %eax
	; CHECK-NEXT: movl %eax, -12(%rsp)			; CHECK-NEXT: movl %eax, -12(%rsp)
	; CHECK-NEXT: movb -9(%rsp), %cl			; CHECK-NEXT: movb -9(%rsp), %cl
	; CHECK-NEXT: movzbl -10(%rsp), %edx			; CHECK-NEXT: movzbl -10(%rsp), %edx
	; CHECK-NEXT: movzbl -11(%rsp), %esi			; CHECK-NEXT: movzbl -11(%rsp), %esi
				; CHECK-NEXT: movzbl %cl, %edi
				; CHECK-NEXT: shrb %cl
				; CHECK-NEXT: movb %cl, -2(%rsp)
	; CHECK-NEXT: andl $31, %eax			; CHECK-NEXT: andl $31, %eax
	; CHECK-NEXT: andl $31, %esi			; CHECK-NEXT: andl $31, %esi
	; CHECK-NEXT: shll $5, %esi			; CHECK-NEXT: shll $5, %esi
	; CHECK-NEXT: orl %eax, %esi			; CHECK-NEXT: orl %eax, %esi
	; CHECK-NEXT: andl $31, %edx			; CHECK-NEXT: andl $31, %edx
	; CHECK-NEXT: shll $10, %edx			; CHECK-NEXT: shll $10, %edx
	; CHECK-NEXT: orl %esi, %edx			; CHECK-NEXT: orl %esi, %edx
	; CHECK-NEXT: movzbl %cl, %eax			; CHECK-NEXT: movl %edi, %eax
	; CHECK-NEXT: movl %eax, %ecx			; CHECK-NEXT: shll $15, %eax
	; CHECK-NEXT: shll $15, %ecx			; CHECK-NEXT: orl %edx, %eax
	; CHECK-NEXT: orl %edx, %ecx			; CHECK-NEXT: movw %ax, -4(%rsp)
	; CHECK-NEXT: movw %cx, -4(%rsp)			; CHECK-NEXT: movb %dil, -5(%rsp)
	; CHECK-NEXT: shrl $16, %ecx			; CHECK-NEXT: cmpb $31, %dil
	; CHECK-NEXT: andl $15, %ecx
	; CHECK-NEXT: movb %cl, -2(%rsp)
	; CHECK-NEXT: movb %al, -5(%rsp)
	; CHECK-NEXT: cmpb $31, %al
	; CHECK-NEXT: je .LBB0_2			; CHECK-NEXT: je .LBB0_2
	; CHECK-NEXT: # %bb.1: # %Then			; CHECK-NEXT: # %bb.1: # %Then
	; CHECK-NEXT: int3			; CHECK-NEXT: int3
	; CHECK-NEXT: .LBB0_2: # %EndIf			; CHECK-NEXT: .LBB0_2: # %EndIf
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	Entry:			Entry:
	%x = alloca [4 x i5], align 1			%x = alloca [4 x i5], align 1
	%y = alloca <4 x i5>, align 4			%y = alloca <4 x i5>, align 4
	Show All 39 Lines

llvm/test/CodeGen/X86/masked_compressstore.ll

	Show First 20 Lines • Show All 511 Lines • ▼ Show 20 Lines
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512F-LABEL: compressstore_v16f64_v16i1:			; AVX512F-LABEL: compressstore_v16f64_v16i1:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpmovsxbd %xmm2, %zmm2			; AVX512F-NEXT: vpmovsxbd %xmm2, %zmm2
	; AVX512F-NEXT: vpslld $31, %zmm2, %zmm2			; AVX512F-NEXT: vpslld $31, %zmm2, %zmm2
	; AVX512F-NEXT: vptestmd %zmm2, %zmm2, %k1			; AVX512F-NEXT: vptestmd %zmm2, %zmm2, %k1
	; AVX512F-NEXT: kmovw %k1, %eax			; AVX512F-NEXT: kmovw %k1, %eax
	; AVX512F-NEXT: movzbl %al, %eax			; AVX512F-NEXT: movzbl %al, %ecx
	; AVX512F-NEXT: movl %eax, %ecx			; AVX512F-NEXT: shrl %eax
	; AVX512F-NEXT: shrl %ecx			; AVX512F-NEXT: andl $85, %eax
	; AVX512F-NEXT: andl $-43, %ecx			; AVX512F-NEXT: subl %eax, %ecx
	; AVX512F-NEXT: subl %ecx, %eax			; AVX512F-NEXT: movl %ecx, %eax
	; AVX512F-NEXT: movl %eax, %ecx
	; AVX512F-NEXT: andl $858993459, %ecx ## imm = 0x33333333
	; AVX512F-NEXT: shrl $2, %eax
	; AVX512F-NEXT: andl $858993459, %eax ## imm = 0x33333333			; AVX512F-NEXT: andl $858993459, %eax ## imm = 0x33333333
	; AVX512F-NEXT: addl %ecx, %eax			; AVX512F-NEXT: shrl $2, %ecx
	; AVX512F-NEXT: movl %eax, %ecx			; AVX512F-NEXT: andl $858993459, %ecx ## imm = 0x33333333
	; AVX512F-NEXT: shrl $4, %ecx
	; AVX512F-NEXT: addl %eax, %ecx			; AVX512F-NEXT: addl %eax, %ecx
	; AVX512F-NEXT: andl $252645135, %ecx ## imm = 0xF0F0F0F			; AVX512F-NEXT: movl %ecx, %eax
	; AVX512F-NEXT: imull $16843009, %ecx, %eax ## imm = 0x1010101			; AVX512F-NEXT: shrl $4, %eax
				; AVX512F-NEXT: addl %ecx, %eax
				; AVX512F-NEXT: andl $252645135, %eax ## imm = 0xF0F0F0F
				; AVX512F-NEXT: imull $16843009, %eax, %eax ## imm = 0x1010101
	; AVX512F-NEXT: shrl $24, %eax			; AVX512F-NEXT: shrl $24, %eax
	; AVX512F-NEXT: kshiftrw $8, %k1, %k2			; AVX512F-NEXT: kshiftrw $8, %k1, %k2
	; AVX512F-NEXT: vcompresspd %zmm1, (%rdi,%rax,8) {%k2}			; AVX512F-NEXT: vcompresspd %zmm1, (%rdi,%rax,8) {%k2}
	; AVX512F-NEXT: vcompresspd %zmm0, (%rdi) {%k1}			; AVX512F-NEXT: vcompresspd %zmm0, (%rdi) {%k1}
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: compressstore_v16f64_v16i1:			; AVX512VLDQ-LABEL: compressstore_v16f64_v16i1:
	Show All 23 Lines
	; AVX512VLDQ-NEXT: vzeroupper			; AVX512VLDQ-NEXT: vzeroupper
	; AVX512VLDQ-NEXT: retq			; AVX512VLDQ-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: compressstore_v16f64_v16i1:			; AVX512VLBW-LABEL: compressstore_v16f64_v16i1:
	; AVX512VLBW: ## %bb.0:			; AVX512VLBW: ## %bb.0:
	; AVX512VLBW-NEXT: vpsllw $7, %xmm2, %xmm2			; AVX512VLBW-NEXT: vpsllw $7, %xmm2, %xmm2
	; AVX512VLBW-NEXT: vpmovb2m %xmm2, %k1			; AVX512VLBW-NEXT: vpmovb2m %xmm2, %k1
	; AVX512VLBW-NEXT: kmovd %k1, %eax			; AVX512VLBW-NEXT: kmovd %k1, %eax
	; AVX512VLBW-NEXT: movzbl %al, %eax			; AVX512VLBW-NEXT: movzbl %al, %ecx
	; AVX512VLBW-NEXT: movl %eax, %ecx			; AVX512VLBW-NEXT: shrl %eax
	; AVX512VLBW-NEXT: shrl %ecx			; AVX512VLBW-NEXT: andl $85, %eax
	; AVX512VLBW-NEXT: andl $-43, %ecx			; AVX512VLBW-NEXT: subl %eax, %ecx
	; AVX512VLBW-NEXT: subl %ecx, %eax			; AVX512VLBW-NEXT: movl %ecx, %eax
	; AVX512VLBW-NEXT: movl %eax, %ecx
	; AVX512VLBW-NEXT: andl $858993459, %ecx ## imm = 0x33333333
	; AVX512VLBW-NEXT: shrl $2, %eax
	; AVX512VLBW-NEXT: andl $858993459, %eax ## imm = 0x33333333			; AVX512VLBW-NEXT: andl $858993459, %eax ## imm = 0x33333333
	; AVX512VLBW-NEXT: addl %ecx, %eax			; AVX512VLBW-NEXT: shrl $2, %ecx
	; AVX512VLBW-NEXT: movl %eax, %ecx			; AVX512VLBW-NEXT: andl $858993459, %ecx ## imm = 0x33333333
	; AVX512VLBW-NEXT: shrl $4, %ecx
	; AVX512VLBW-NEXT: addl %eax, %ecx			; AVX512VLBW-NEXT: addl %eax, %ecx
	; AVX512VLBW-NEXT: andl $252645135, %ecx ## imm = 0xF0F0F0F			; AVX512VLBW-NEXT: movl %ecx, %eax
	; AVX512VLBW-NEXT: imull $16843009, %ecx, %eax ## imm = 0x1010101			; AVX512VLBW-NEXT: shrl $4, %eax
				; AVX512VLBW-NEXT: addl %ecx, %eax
				; AVX512VLBW-NEXT: andl $252645135, %eax ## imm = 0xF0F0F0F
				; AVX512VLBW-NEXT: imull $16843009, %eax, %eax ## imm = 0x1010101
	; AVX512VLBW-NEXT: shrl $24, %eax			; AVX512VLBW-NEXT: shrl $24, %eax
	; AVX512VLBW-NEXT: kshiftrw $8, %k1, %k2			; AVX512VLBW-NEXT: kshiftrw $8, %k1, %k2
	; AVX512VLBW-NEXT: vcompresspd %zmm1, (%rdi,%rax,8) {%k2}			; AVX512VLBW-NEXT: vcompresspd %zmm1, (%rdi,%rax,8) {%k2}
	; AVX512VLBW-NEXT: vcompresspd %zmm0, (%rdi) {%k1}			; AVX512VLBW-NEXT: vcompresspd %zmm0, (%rdi) {%k1}
	; AVX512VLBW-NEXT: vzeroupper			; AVX512VLBW-NEXT: vzeroupper
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	call void @llvm.masked.compressstore.v16f64(<16 x double> %V, double* %base, <16 x i1> %mask)			call void @llvm.masked.compressstore.v16f64(<16 x double> %V, double* %base, <16 x i1> %mask)
	ret void			ret void
	▲ Show 20 Lines • Show All 3,846 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/shift-mask.ll

Show First 20 Lines • Show All 549 Lines • ▼ Show 20 Lines	; X64-BMI2-NEXT: retq
%2 = lshr i64 %1, 3		%2 = lshr i64 %1, 3
ret i64 %2		ret i64 %2
}		}

define i64 @test_i64_lshr_lshr_1(i64 %a0) {		define i64 @test_i64_lshr_lshr_1(i64 %a0) {
; X86-LABEL: test_i64_lshr_lshr_1:		; X86-LABEL: test_i64_lshr_lshr_1:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-NEXT: shldl $3, %eax, %edx		; X86-NEXT: leal (,%ecx,8), %edx
		; X86-NEXT: shldl $3, %eax, %ecx
; X86-NEXT: shll $3, %eax		; X86-NEXT: shll $3, %eax
; X86-NEXT: shrdl $5, %edx, %eax		; X86-NEXT: shrdl $5, %ecx, %eax
; X86-NEXT: shrl $5, %edx		; X86-NEXT: shrl $5, %edx
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_i64_lshr_lshr_1:		; X64-LABEL: test_i64_lshr_lshr_1:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: leaq (,%rdi,8), %rax		; X64-NEXT: leaq (,%rdi,8), %rax
; X64-NEXT: shrq $5, %rax		; X64-NEXT: shrq $5, %rax
; X64-NEXT: retq		; X64-NEXT: retq
Show All 26 Lines

llvm/test/CodeGen/X86/vector-mulfix-legalize.ll

	Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: sarl $16, %ecx			; CHECK-NEXT: sarl $16, %ecx
	; CHECK-NEXT: cmpl $16384, %ecx # imm = 0x4000			; CHECK-NEXT: cmpl $16384, %ecx # imm = 0x4000
	; CHECK-NEXT: movl $32767, %r8d # imm = 0x7FFF			; CHECK-NEXT: movl $32767, %r8d # imm = 0x7FFF
	; CHECK-NEXT: cmovgel %r8d, %edx			; CHECK-NEXT: cmovgel %r8d, %edx
	; CHECK-NEXT: cmpl $-16384, %ecx # imm = 0xC000			; CHECK-NEXT: cmpl $-16384, %ecx # imm = 0xC000
	; CHECK-NEXT: movl $32768, %ecx # imm = 0x8000			; CHECK-NEXT: movl $32768, %ecx # imm = 0x8000
	; CHECK-NEXT: cmovll %ecx, %edx			; CHECK-NEXT: cmovll %ecx, %edx
	; CHECK-NEXT: pextrw $1, %xmm0, %esi			; CHECK-NEXT: pextrw $1, %xmm0, %esi
	; CHECK-NEXT: movswl %si, %edi			; CHECK-NEXT: leal (%rsi,%rsi), %edi
	; CHECK-NEXT: leal (%rdi,%rdi), %eax			; CHECK-NEXT: movswl %si, %eax
	; CHECK-NEXT: movl %eax, %esi			; CHECK-NEXT: movl %eax, %esi
	; CHECK-NEXT: shrl $16, %esi			; CHECK-NEXT: shrl $16, %esi
	; CHECK-NEXT: shldw $1, %ax, %si			; CHECK-NEXT: shldw $1, %di, %si
	; CHECK-NEXT: sarl $15, %edi			; CHECK-NEXT: sarl $16, %eax
	; CHECK-NEXT: cmpl $16384, %edi # imm = 0x4000			; CHECK-NEXT: cmpl $16384, %eax # imm = 0x4000
	; CHECK-NEXT: cmovgel %r8d, %esi			; CHECK-NEXT: cmovgel %r8d, %esi
	; CHECK-NEXT: cmpl $-16384, %edi # imm = 0xC000			; CHECK-NEXT: cmpl $-16384, %eax # imm = 0xC000
	; CHECK-NEXT: cmovll %ecx, %esi			; CHECK-NEXT: cmovll %ecx, %esi
	; CHECK-NEXT: movd %xmm0, %eax			; CHECK-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: cwtl			; CHECK-NEXT: cwtl
	; CHECK-NEXT: movl %eax, %edi			; CHECK-NEXT: movl %eax, %edi
	; CHECK-NEXT: shrl $16, %edi			; CHECK-NEXT: shrl $16, %edi
	; CHECK-NEXT: shldw $1, %ax, %di			; CHECK-NEXT: shldw $1, %ax, %di
	; CHECK-NEXT: sarl $16, %eax			; CHECK-NEXT: sarl $16, %eax
	; CHECK-NEXT: cmpl $16384, %eax # imm = 0x4000			; CHECK-NEXT: cmpl $16384, %eax # imm = 0x4000
	▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAG] Enable ISD::SRL SimplifyMultipleUseDemandedBits handling inside SimplifyDemandedBitsClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 429424

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/test/CodeGen/AArch64/parity.ll

llvm/test/CodeGen/AArch64/shift-accumulate.ll

llvm/test/CodeGen/AMDGPU/bswap.ll

llvm/test/CodeGen/AMDGPU/ds-alignment.ll

llvm/test/CodeGen/AMDGPU/extract-subvector-16bit.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

llvm/test/CodeGen/AMDGPU/idot8s.ll

llvm/test/CodeGen/AMDGPU/idot8u.ll

llvm/test/CodeGen/AMDGPU/saddsat.ll

llvm/test/CodeGen/AMDGPU/scalar_to_vector.ll

llvm/test/CodeGen/AMDGPU/shift-i128.ll

llvm/test/CodeGen/AMDGPU/ssubsat.ll

llvm/test/CodeGen/AMDGPU/trunc-combine.ll

llvm/test/CodeGen/AMDGPU/uaddsat.ll

llvm/test/CodeGen/AMDGPU/usubsat.ll

llvm/test/CodeGen/ARM/illegal-bitfield-loadstore.ll

llvm/test/CodeGen/ARM/parity.ll

llvm/test/CodeGen/ARM/uxtb.ll

llvm/test/CodeGen/PowerPC/fp-to-int-to-fp.ll

llvm/test/CodeGen/RISCV/bswap-bitreverse.ll

llvm/test/CodeGen/RISCV/ctlz-cttz-ctpop.ll

llvm/test/CodeGen/RISCV/rv64zbb-zbp-zbkb.ll

llvm/test/CodeGen/RISCV/rv64zbb.ll

llvm/test/CodeGen/RISCV/rv64zbp.ll

llvm/test/CodeGen/RISCV/sextw-removal.ll

llvm/test/CodeGen/SystemZ/store_nonbytesized_vecs.ll

llvm/test/CodeGen/Thumb2/thumb2-uxtb.ll

llvm/test/CodeGen/X86/ctpop-combine.ll

llvm/test/CodeGen/X86/illegal-bitfield-loadstore.ll

llvm/test/CodeGen/X86/ins_subreg_coalesce-1.ll

llvm/test/CodeGen/X86/load-local-v4i5.ll

llvm/test/CodeGen/X86/masked_compressstore.ll

llvm/test/CodeGen/X86/shift-mask.ll

llvm/test/CodeGen/X86/vector-mulfix-legalize.ll

[DAG] Enable ISD::SRL SimplifyMultipleUseDemandedBits handling inside SimplifyDemandedBits
ClosedPublic