This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
-
DAGCombiner.cpp
2
TargetLowering.cpp
-
test/CodeGen/
-
CodeGen/
-
AMDGPU/
-
idot4s.ll
-
idot4u.ll
-
idot8s.ll
-
idot8u.ll
-
integer-mad-patterns.ll
-
partial-shift-shrink.ll
-
sdwa-peephole.ll
-
shift-i128.ll
-
wave32.ll
-
X86/
-
2008-05-12-tailmerge-5.ll
1
2009-05-30-ISelBug.ll
-
3addr-or.ll
-
and-shift.ll
4
bswap.ll
-
combine-bitreverse.ll
-
const-shift-of-constmasked.ll
-
extract-bits.ll
1/10
h-register-addressing-64.ll
-
h-registers-0.ll
-
lzcnt-cmp.ll
-
zext-logicop-shift-load.ll
-
zext-lshr.ll

Differential D146121

[DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBits
ClosedPublic

Authored by RKSimon on Mar 15 2023, 3:10 AM.

Download Raw Diff

Details

Reviewers

spatel
nikic
foad
pengfei
goldstein.w.n
kazu

Commits

rGe9caa37e9c69: [DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBits

Summary

Inspired by some of the cases from D145468

Let SimplifyDemandedBits handle the narrowing of lshr to half-width if we don't require the upper bits, the narrowed shift is profitable and the zext/trunc are free.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	60,060 ms	x64 debian > ThreadSanitizer-x86_64.ThreadSanitizer-x86_64::restore_stack.cpp

Event Timeline

RKSimon created this revision.Mar 15 2023, 3:10 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 15 2023, 3:10 AM

Herald added subscribers: kosarev, StephenFan, ecnelises and 3 others. · View Herald Transcript

RKSimon requested review of this revision.Mar 15 2023, 3:10 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 15 2023, 3:10 AM

RKSimon added inline comments.Mar 15 2023, 3:13 AM

llvm/test/CodeGen/X86/bswap.ll
171	Looks like an equivalent patch for shl narrowing would be useful
232	Not sure if shl narrowing would solve this or we need better zext/trunc handling in the bswap matcher
llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	Regression (WIP)
81	Regression (WIP)
95	Regression (WIP)
llvm/test/CodeGen/X86/illegal-bitfield-loadstore.ll
119 ↗	(On Diff #505421)	Regression (WIP) - dead store folds might fail on load-ext / store-trunc mixtures?

Harbormaster completed remote builds in B219586: Diff 505421.Mar 15 2023, 3:52 AM

RKSimon mentioned this in rGc1f81e760445: [DAG] mergeStore - peek through truncates when finding dead store(trunc(load….Mar 15 2023, 4:54 AM

rebase

Harbormaster completed remote builds in B219599: Diff 505445.Mar 15 2023, 5:50 AM

drop useless vector handling

Harbormaster completed remote builds in B219622: Diff 505474.Mar 15 2023, 8:12 AM

RKSimon mentioned this in rG28a0d0e85ab5: [DAG] Don't fold zext(logicalshift(zext(x),c)) -> logicalshift(zext(x),c) if….Mar 15 2023, 10:45 AM

rebase

rebase again (and actually update the changed test this time....)

goldstein.w.n added inline comments.Mar 15 2023, 11:47 AM

llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	I think this is okay here. We only get the right codegen by chance here and I don't think its something we can reasonably control during DAG isel. I tried to improve this with D141653. Looked good for the tests but caused infinite loop in bootstrap build. I think this (along with other `imm` level optimizations), need to be moved to a new pass (or function in isel) that runs at the very end.

kazu added inline comments.Mar 15 2023, 12:41 PM

llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	think this (along with other `imm` level optimizations), need to be moved to a new pass (or function in isel) that runs at the very end. I was just thinking about something similar. Specifically, optimizations to achieve smaller encoding with the same opcode should move to a new pass. Otherwise, we would have to see through `ISD::ZERO_EXTEND` and `ISD::TRUNCATE` everywhere, and that would be prone to missed optimizations. Do we have known bits and demanded bits infrastructure at the x86 MIR level? (I'm guessing not.) Also, I am wondering whether a new pass would be more effective if we use information across basic blocks.

Harbormaster completed remote builds in B219693: Diff 505570.Mar 15 2023, 1:20 PM

RKSimon added inline comments.Mar 16 2023, 3:20 AM

llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	Adding value tracking at that level would be a huge amount of work - both X86 and AMDGPU currently using the DAG narrowing code, but ideally we'd be working to enable it on other targets as well.

goldstein.w.n added inline comments.Mar 26 2023, 3:27 PM

llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	I was thinking it would be best saved for a pass between DAG narrowing and MIR. I.e DAG narrowing -> Imm Fixup -> MIR. Imm Fixup could work on SDValue types.

pengfei added inline comments.Mar 26 2023, 5:59 PM

llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	Any possibility it can be solved in a new ISel mechanism like GlobalISel?

Update - I'm going to investigate splitting this between the regular SimplifyDemandedBits DAG combines and some specific narrowing in X86ISelDAGToDAG.cpp + ISel - that way we have the best chance of making use of the extensive value tracking code we already have in SelectionDAG.

However, a lot of the DAG combines are already in place, we're just missing them due to poor combine ordering - so getting D127115 completed once and for all will likely help us the most, so I'm looking at the remaining regressions there first, and then will revisit this for cleanup.

rebasing this now that D127115 has landed, solving most of the issues

RKSimon marked an inline comment as not done.Jul 6 2023, 8:42 AM

RKSimon added inline comments.

llvm/test/CodeGen/X86/bswap.ll
232	This looks to be the last regression - MatchBSwapHWordLow is very pattern specific, and can't peek through zext (or ignore AND masks for known zero bits)

Harbormaster completed remote builds in B243486: Diff 537747.Jul 6 2023, 9:37 AM

RKSimon added inline comments.Jul 7 2023, 6:36 AM

llvm/test/CodeGen/X86/bswap.ll
232	I've confirmed this is fixed by adding an equivalent SHL narrowing fold in SimplifyDemandedBits, which I intend to do as a follow up.

RKSimon retitled this revision from [DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBits (WIP) to [DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBits.Jul 7 2023, 6:36 AM

RKSimon edited the summary of this revision. (Show Details)

pengfei added inline comments.Jul 7 2023, 7:09 AM

llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	I saw you removed WIP in the title. Are you not considering this as regression or you will do it as a follow up?

RKSimon marked 3 inline comments as not done.Jul 7 2023, 9:11 AM

RKSimon added inline comments.

llvm/test/CodeGen/X86/h-register-addressing-64.ll
67	Let me take another look - it seems to be due to matchAddressRecursively not being very good at peeking through ZERO_EXTEND nodes.

RKSimon mentioned this in rG848f6abfdb0f: [X86] Add tests showing failure by matchAddressRecursively to peek through ZEXT….Jul 9 2023, 7:54 AM

RKSimon mentioned this in rG7428739ea81e: [X86] matchAddressRecursively - peek through ZEXT nodes to match….

rebase

Harbormaster completed remote builds in B243986: Diff 538436.Jul 9 2023, 9:03 AM

goldstein.w.n added inline comments.Jul 9 2023, 11:52 AM

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp
1871	Doesn't the `InDemandedMask.countLeadingZeros() >= (BitWidth / 2)` check the same thing as `TLO.DAG.MaskedValueIsZero(Op0, APInt::getHighBitsSet(BitWidth, BitWidth / 2))` What is the rationale for having both?

RKSimon added inline comments.Jul 9 2023, 2:19 PM

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp
1871	No, InDemandedMask checks if we don't care about the upper bits at all (i.e. the SRL is used by a truncate or a AND mask like in the original implementation), and the MaskedValueIsZero alternatively checks if the upper bits are already known to be zero, in which case the (free) zext/trunc can preserve those bits correctly, using a more profitable narrower op, and possibly allowing further folds to occur. Removing either will result in test changes.

any more thoughts/comments?

In D146121#4491315, @RKSimon wrote:

any more thoughts/comments?

One more comment.

I noticed in: D154805 that for the scalars the (shl (add x, c1), c2) is not properly folding to (add (shl x, c2), c1 << c2). This is because before reaching visitSHL (and performing the fold), the shl gets shrunk and its wrapped in an ANY_EXTEND.

This patch seems like to cause similiar issues. I'm still generally infavor as we can always update the folds, but is a slight concern that we may be adding a layer of indirection that not all folds work with.

I agree - a great deal of folds are poorly designed - we hit a lot of this with D127115 and are now seeing very similar things with D152928 - if you find examples, PLEASE write up an issue ticket as it speeds up triage a great deal.

ping?

AMDGPU changes seem good.

X86 changes look good to me expect one nit.

llvm/test/CodeGen/X86/2009-05-30-ISelBug.ll
12	This results in scale to be 4, which may do bad for performance?

This revision is now accepted and ready to land.Jul 17 2023, 6:13 AM

This revision was landed with ongoing or failed builds.Jul 17 2023, 7:50 AM

Closed by commit rGe9caa37e9c69: [DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBits (authored by RKSimon). · Explain Why

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rGe9caa37e9c69: [DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBits.

Harbormaster completed remote builds in B245803: Diff 540969.Jul 17 2023, 8:16 AM

RKSimon mentioned this in D155472: [DAG] Attempt shl narrowing in SimplifyDemandedBits.Jul 17 2023, 8:27 AM

RKSimon mentioned this in D145468: [X86] Optimize (and (srl X 30) 2).Jul 18 2023, 2:10 AM

RKSimon mentioned this in D154760: [DAGCombine] Canonicalize operands for visitANDLike.Jul 18 2023, 2:42 AM

RKSimon mentioned this in rG7a8c04ef84ec: [DAG] Attempt shl narrowing in SimplifyDemandedBits.Oct 4 2023, 2:23 AM

RKSimon mentioned this in rG2a40ec2d3e4d: [DAG] SimplifyDemandedBits - fix isOperationLegal typo in D146121.Oct 17 2023, 9:50 AM

RKSimon mentioned this in rGd96529af3c36: [DAG] Attempt shl narrowing in SimplifyDemandedBits (REAPPLIED).Oct 29 2023, 8:46 AM

RKSimon mentioned this in rG8d2efd7427ff: [DAG] Avoid ComputeNumSignBits call when we know the result is unsigned.Oct 29 2023, 10:35 AM

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

49 lines

TargetLowering.cpp

21 lines

test/

CodeGen/

AMDGPU/

12 lines

16 lines

70 lines

24 lines

integer-mad-patterns.ll

64 lines

partial-shift-shrink.ll

2 lines

sdwa-peephole.ll

123 lines

shift-i128.ll

16 lines

wave32.ll

6 lines

X86/

2008-05-12-tailmerge-5.ll

5 lines

2009-05-30-ISelBug.ll

6 lines

3addr-or.ll

5 lines

and-shift.ll

4 lines

bswap.ll

13 lines

combine-bitreverse.ll

15 lines

const-shift-of-constmasked.ll

4 lines

extract-bits.ll

12 lines

h-register-addressing-64.ll

18 lines

h-registers-0.ll

6 lines

lzcnt-cmp.ll

6 lines

zext-logicop-shift-load.ll

10 lines

zext-lshr.ll

6 lines

Diff 537747

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,145 Lines • ▼ Show 20 Lines	if (ConstantSDNode *ADDI = dyn_cast<ConstantSDNode>(N0.getOperand(1))) {
return SDValue(N, 0);		return SDValue(N, 0);
}		}
}		}
}		}
}		}
}		}
}		}

// Reduce bit extract of low half of an integer to the narrower type.
// (and (srl i64:x, K), KMask) ->
// (i64 zero_extend (and (srl (i32 (trunc i64:x)), K)), KMask)
if (N0.getOpcode() == ISD::SRL && N0.hasOneUse()) {
if (ConstantSDNode *CAnd = dyn_cast<ConstantSDNode>(N1)) {
if (ConstantSDNode *CShift = dyn_cast<ConstantSDNode>(N0.getOperand(1))) {
unsigned Size = VT.getSizeInBits();
const APInt &AndMask = CAnd->getAPIntValue();
unsigned ShiftBits = CShift->getZExtValue();

// Bail out, this node will probably disappear anyway.
if (ShiftBits == 0)
return SDValue();

unsigned MaskBits = AndMask.countr_one();
EVT HalfVT = EVT::getIntegerVT(*DAG.getContext(), Size / 2);

if (AndMask.isMask() &&
// Required bits must not span the two halves of the integer and
// must fit in the half size type.
(ShiftBits + MaskBits <= Size / 2) &&
TLI.isNarrowingProfitable(VT, HalfVT) &&
TLI.isTypeDesirableForOp(ISD::AND, HalfVT) &&
TLI.isTypeDesirableForOp(ISD::SRL, HalfVT) &&
TLI.isTruncateFree(VT, HalfVT) &&
TLI.isZExtFree(HalfVT, VT)) {
// The isNarrowingProfitable is to avoid regressions on PPC and
// AArch64 which match a few 64-bit bit insert / bit extract patterns
// on downstream users of this. Those patterns could probably be
// extended to handle extensions mixed in.

SDValue SL(N0);
assert(MaskBits <= Size);

// Extracting the highest bit of the low half.
EVT ShiftVT = TLI.getShiftAmountTy(HalfVT, DAG.getDataLayout());
SDValue Trunc = DAG.getNode(ISD::TRUNCATE, SL, HalfVT,
N0.getOperand(0));

SDValue NewMask = DAG.getConstant(AndMask.trunc(Size / 2), SL, HalfVT);
SDValue ShiftK = DAG.getConstant(ShiftBits, SL, ShiftVT);
SDValue Shift = DAG.getNode(ISD::SRL, SL, HalfVT, Trunc, ShiftK);
SDValue And = DAG.getNode(ISD::AND, SL, HalfVT, Shift, NewMask);
return DAG.getNode(ISD::ZERO_EXTEND, SL, VT, And);
}
}
}
}

return SDValue();		return SDValue();
}		}

bool DAGCombiner::isAndLoadExtLoad(ConstantSDNode AndC, LoadSDNode LoadN,		bool DAGCombiner::isAndLoadExtLoad(ConstantSDNode AndC, LoadSDNode LoadN,
EVT LoadResultTy, EVT &ExtVT) {		EVT LoadResultTy, EVT &ExtVT) {
if (!AndC->getAPIntValue().isMask())		if (!AndC->getAPIntValue().isMask())
return false;		return false;

▲ Show 20 Lines • Show All 9,991 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,857 Lines • ▼ Show 20 Lines	if (const APInt *SA =

APInt InDemandedMask = (DemandedBits << ShAmt);		APInt InDemandedMask = (DemandedBits << ShAmt);

// If the shift is exact, then it does demand the low bits (and knows that		// If the shift is exact, then it does demand the low bits (and knows that
// they are zero).		// they are zero).
if (Op->getFlags().hasExact())		if (Op->getFlags().hasExact())
InDemandedMask.setLowBits(ShAmt);		InDemandedMask.setLowBits(ShAmt);

		// Narrow shift to lower half - similar to ShrinkDemandedOp.
		// (srl i64:x, K) -> (i64 zero_extend (srl (i32 (trunc i64:x)), K))
		if ((BitWidth % 2) == 0 && !VT.isVector() &&
		((InDemandedMask.countLeadingZeros() >= (BitWidth / 2)) \|\|
		TLO.DAG.MaskedValueIsZero(
		Op0, APInt::getHighBitsSet(BitWidth, BitWidth / 2)))) {
		goldstein.w.nUnsubmitted Not Done Reply Inline Actions Doesn't the `InDemandedMask.countLeadingZeros() >= (BitWidth / 2)` check the same thing as `TLO.DAG.MaskedValueIsZero(Op0, APInt::getHighBitsSet(BitWidth, BitWidth / 2))` What is the rationale for having both? goldstein.w.n: Doesn't the `InDemandedMask.countLeadingZeros() >= (BitWidth / 2)` check the same thing as `TLO.
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions No, InDemandedMask checks if we don't care about the upper bits at all (i.e. the SRL is used by a truncate or a AND mask like in the original implementation), and the MaskedValueIsZero alternatively checks if the upper bits are already known to be zero, in which case the (free) zext/trunc can preserve those bits correctly, using a more profitable narrower op, and possibly allowing further folds to occur. Removing either will result in test changes. RKSimon: No, InDemandedMask checks if we don't care about the upper bits at all (i.e. the SRL is used by…
		EVT HalfVT = EVT::getIntegerVT(*TLO.DAG.getContext(), BitWidth / 2);
		if (isNarrowingProfitable(VT, HalfVT) &&
		isTypeDesirableForOp(ISD::SRL, HalfVT) &&
		isTruncateFree(VT, HalfVT) && isZExtFree(HalfVT, VT) &&
		(!TLO.LegalOperations() \|\| isOperationLegal(ISD::SRL, VT))) {
		SDValue NewOp = TLO.DAG.getNode(ISD::TRUNCATE, dl, HalfVT, Op0);
		SDValue NewShiftAmt = TLO.DAG.getShiftAmountConstant(
		ShAmt, HalfVT, dl, TLO.LegalTypes());
		SDValue NewShift =
		TLO.DAG.getNode(ISD::SRL, dl, HalfVT, NewOp, NewShiftAmt);
		return TLO.CombineTo(
		Op, TLO.DAG.getNode(ISD::ZERO_EXTEND, dl, VT, NewShift));
		}
		}

// Compute the new bits that are at the top now.		// Compute the new bits that are at the top now.
if (SimplifyDemandedBits(Op0, InDemandedMask, DemandedElts, Known, TLO,		if (SimplifyDemandedBits(Op0, InDemandedMask, DemandedElts, Known, TLO,
Depth + 1))		Depth + 1))
return true;		return true;
assert(!Known.hasConflict() && "Bits known to be one AND zero?");		assert(!Known.hasConflict() && "Bits known to be one AND zero?");
Known.Zero.lshrInPlace(ShAmt);		Known.Zero.lshrInPlace(ShAmt);
Known.One.lshrInPlace(ShAmt);		Known.One.lshrInPlace(ShAmt);
// High bits known zero.		// High bits known zero.
▲ Show 20 Lines • Show All 8,843 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

	Show First 20 Lines • Show All 957 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 16, 8
	; GFX7-NEXT: v_bfe_i32 v4, v2, 0, 8			; GFX7-NEXT: v_bfe_i32 v4, v2, 0, 8
				; GFX7-NEXT: v_bfe_i32 v3, v2, 16, 8
				; GFX7-NEXT: s_waitcnt vmcnt(1)
				; GFX7-NEXT: v_bfe_i32 v7, v0, 0, 8
	; GFX7-NEXT: v_ashrrev_i32_e32 v5, 24, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v5, 24, v2
	; GFX7-NEXT: v_bfe_i32 v2, v2, 8, 8			; GFX7-NEXT: v_bfe_i32 v2, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v6, v0, 16, 8			; GFX7-NEXT: v_bfe_i32 v6, v0, 16, 8
	; GFX7-NEXT: v_bfe_i32 v7, v0, 0, 8
	; GFX7-NEXT: v_ashrrev_i32_e32 v8, 24, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v8, 24, v0
	; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8			; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX7-NEXT: v_alignbit_b32 v2, 0, v2, 16			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_alignbit_b32 v0, 0, v0, 16			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0
	▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

	Show First 20 Lines • Show All 1,844 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, 0xff00, v2			; GFX7-NEXT: v_bfe_u32 v3, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, 0xff00, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v6, v0, 16, 8
				; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_alignbit_b32 v3, s10, v3, 16
	; GFX7-NEXT: v_alignbit_b32 v6, 0, v6, 16
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v7, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v4, v7, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v5, v8, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v5, v8, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_acc16_vecMul:			; GFX8-LABEL: udot4_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	▲ Show 20 Lines • Show All 359 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

	Show First 20 Lines • Show All 2,008 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v8, v2, 0, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 0, 4
	; GFX7-NEXT: v_bfe_i32 v6, v2, 4, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 24, 4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v15, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v13, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8			; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v15, 0xffff, v15			; GFX7-NEXT: v_ashrrev_i32_e32 v7, 28, v2
	; GFX7-NEXT: v_bfe_i32 v5, v2, 8, 4			; GFX7-NEXT: v_bfe_i32 v8, v2, 20, 4
				; GFX7-NEXT: v_bfe_i32 v9, v2, 12, 4
				; GFX7-NEXT: v_bfe_i32 v2, v2, 4, 4
				; GFX7-NEXT: v_bfe_i32 v10, v0, 24, 4
				; GFX7-NEXT: v_bfe_i32 v11, v0, 8, 4
				; GFX7-NEXT: v_bfe_i32 v12, v0, 16, 4
				; GFX7-NEXT: v_ashrrev_i32_e32 v14, 28, v0
				; GFX7-NEXT: v_bfe_i32 v15, v0, 20, 4
				; GFX7-NEXT: v_bfe_i32 v16, v0, 12, 4
				; GFX7-NEXT: v_bfe_i32 v0, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v13, 0xffff, v13			; GFX7-NEXT: v_and_b32_e32 v13, 0xffff, v13
	; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_bfe_i32 v3, v2, 24, 4
	; GFX7-NEXT: v_bfe_i32 v4, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v7, v2, 16, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v2
	; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_bfe_i32 v10, v0, 24, 4
	; GFX7-NEXT: v_bfe_i32 v11, v0, 20, 4
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0
	; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_and_b32_e32 v14, 0xffff, v14
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_and_b32_e32 v11, 0xffff, v11			; GFX7-NEXT: v_and_b32_e32 v11, 0xffff, v11
	; GFX7-NEXT: v_mad_u32_u24 v0, v7, v14, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_and_b32_e32 v10, 0xffff, v10
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0
	; GFX7-NEXT: v_and_b32_e32 v9, 0xffff, v9			; GFX7-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX7-NEXT: v_and_b32_e32 v16, 0xffff, v16			; GFX7-NEXT: v_and_b32_e32 v16, 0xffff, v16
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0
				; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
				; GFX7-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0
				; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8
				; GFX7-NEXT: v_and_b32_e32 v15, 0xffff, v15
				; GFX7-NEXT: v_mad_u32_u24 v0, v5, v12, v0
				; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
				; GFX7-NEXT: v_and_b32_e32 v10, 0xffff, v10
				; GFX7-NEXT: v_mad_u32_u24 v0, v8, v15, v0
				; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7
				; GFX7-NEXT: v_and_b32_e32 v14, 0xffff, v14
				; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v7, v14, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc16_vecMul:			; GFX8-LABEL: idot8_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 509 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_bfe_i32 v16, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v16, v0, 12, 4
	; GFX7-NEXT: v_bfe_i32 v0, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v0, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v14, 0xff, v14			; GFX7-NEXT: v_and_b32_e32 v14, 0xff, v14
	; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v13			; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v13
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 24, v16
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_alignbit_b32 v9, 0, v9, 24			; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v9
	; GFX7-NEXT: v_alignbit_b32 v16, 0, v16, 24			; GFX7-NEXT: v_and_b32_e32 v16, 0xff, v16
	; GFX7-NEXT: v_mad_u32_u24 v0, v6, v13, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v6, v13, v0
	; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v5
	; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v12			; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v12
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0
	; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v4
	; GFX7-NEXT: v_and_b32_e32 v11, 0xff, v11			; GFX7-NEXT: v_and_b32_e32 v11, 0xff, v11
	; GFX7-NEXT: v_mad_u32_u24 v0, v5, v12, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v5, v12, v0
	; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v3
	▲ Show 20 Lines • Show All 529 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

	Show First 20 Lines • Show All 2,438 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v8, 15, v2			; GFX7-NEXT: v_and_b32_e32 v9, 15, v2
	; GFX7-NEXT: v_bfe_u32 v7, v2, 4, 4			; GFX7-NEXT: v_bfe_u32 v8, v2, 4, 4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v15, 15, v0			; GFX7-NEXT: v_and_b32_e32 v16, 15, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v2			; GFX7-NEXT: v_bfe_u32 v15, v0, 4, 4
	; GFX7-NEXT: v_bfe_u32 v14, v0, 4, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 12, v0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
				; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1
				; GFX7-NEXT: v_bfe_u32 v7, v2, 8, 4
				; GFX7-NEXT: v_bfe_u32 v14, v0, 8, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 4			; GFX7-NEXT: v_bfe_u32 v6, v2, 12, 4
	; GFX7-NEXT: v_bfe_u32 v13, v0, 8, 4			; GFX7-NEXT: v_bfe_u32 v13, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v9, 0xf000000, v9
	; GFX7-NEXT: v_and_b32_e32 v16, 0xf000000, v16
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_alignbit_b32 v9, s10, v9, 24
	; GFX7-NEXT: v_alignbit_b32 v8, 0, v16, 24
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 4			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 4
	; GFX7-NEXT: v_bfe_u32 v12, v0, 16, 4			; GFX7-NEXT: v_bfe_u32 v12, v0, 16, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v8, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_bfe_u32 v4, v2, 20, 4			; GFX7-NEXT: v_bfe_u32 v4, v2, 20, 4
	; GFX7-NEXT: v_bfe_u32 v11, v0, 20, 4			; GFX7-NEXT: v_bfe_u32 v11, v0, 20, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_bfe_u32 v3, v2, 24, 4			; GFX7-NEXT: v_bfe_u32 v3, v2, 24, 4
	; GFX7-NEXT: v_bfe_u32 v10, v0, 24, 4			; GFX7-NEXT: v_bfe_u32 v10, v0, 24, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 28, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 28, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 28, v0
	▲ Show 20 Lines • Show All 872 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/integer-mad-patterns.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 485 Lines • ▼ Show 20 Lines	entry:
%add6 = mul <2 x i16> %mul521, %add422		%add6 = mul <2 x i16> %mul521, %add422
ret <2 x i16> %add6		ret <2 x i16> %add6
}		}

define <3 x i16> @clpeak_imad_pat_v3i16(<3 x i16> %x, <3 x i16> %y) {		define <3 x i16> @clpeak_imad_pat_v3i16(<3 x i16> %x, <3 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_imad_pat_v3i16:		; GFX67-SDAG-LABEL: clpeak_imad_pat_v3i16:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v7, 16, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v7, 0, v7, 16		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v7, v4, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2		; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v7, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v7, v4
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v8, v3, v0		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v8, v3, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v7, v4, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v8, v3, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v8, v3, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_alignbit_b32 v1, 0, v1, 16		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v9, 16, v9		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v9, 16, v9
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v6, v5, v2		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v6, v5, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v0, v3		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v0, v3
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4
; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v9, v8		; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v9, v8
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000		; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v3, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v3, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8		; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v3, 16, v1		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v3, 16, v1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v2, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v2, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v6, v6, v5, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v6, v6, v5, 1
; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v3, v0		; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v3, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v3, 0, v8, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v3, 16, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6		; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v5, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v5, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v4
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v5, v7		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v5, v7
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_alignbit_b32 v4, 0, v0, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v4, 16, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v5, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v5, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v3, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v3, v2
; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]		; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
define <4 x i16> @clpeak_imad_pat_v4i16(<4 x i16> %x, <4 x i16> %y) {		define <4 x i16> @clpeak_imad_pat_v4i16(<4 x i16> %x, <4 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_imad_pat_v4i16:		; GFX67-SDAG-LABEL: clpeak_imad_pat_v4i16:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v3, vcc, 1, v3		; GFX67-SDAG-NEXT: v_add_i32_e32 v3, vcc, 1, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v10, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v10, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2		; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v10, v7, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v10, v7, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v2
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v9, 16, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6		; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v9, 0, v9, 16		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v13, v10, v7		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v13, v10, v7
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v7		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v7
; GFX67-SDAG-NEXT: v_mad_u32_u24 v7, v8, v6, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v7, v8, v6, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v9, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v11, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v11, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v8, v6, v2		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v8, v6, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v9, v5, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v8, 16, v13		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v8, 16, v13
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v12, v9, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v12, v9, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v11, v4, v0		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v11, v4, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v9, v5, v1
; GFX67-SDAG-NEXT: v_or_b32_e32 v7, v8, v7		; GFX67-SDAG-NEXT: v_or_b32_e32 v7, v8, v7
; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v11, v4, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v11, v4, 1
; GFX67-SDAG-NEXT: v_alignbit_b32 v1, 0, v1, 16		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v10, 16, v12		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v10, 16, v12
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v0, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v0, v4
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000		; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v10, v8		; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v10, v8
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v4, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v4, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v2, v6		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v2, v6
; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8		; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v6, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v6, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v4, 16, v1		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v4, 16, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v7, vcc, s4, v7		; GFX67-SDAG-NEXT: v_add_i32_e32 v7, vcc, s4, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v6, 16, v3		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v6, 16, v3
; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v4, v0		; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v4, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v4, 0, v8, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v4, 16, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_or_b32_e32 v2, v6, v2		; GFX67-SDAG-NEXT: v_or_b32_e32 v2, v6, v2
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v7		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v9, 0xffff, v9		; GFX67-SDAG-NEXT: v_and_b32_e32 v9, 0xffff, v9
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v5		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, s4, v2		; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, s4, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v8, v9, v8		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v8, v9, v8
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v4, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v4, v5
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6
; GFX67-SDAG-NEXT: v_alignbit_b32 v5, 0, v0, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v2		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v7, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v7, v0
▲ Show 20 Lines • Show All 605 Lines • ▼ Show 20 Lines	entry:
%add6 = mul <2 x i16> %mul521, %add422		%add6 = mul <2 x i16> %mul521, %add422
ret <2 x i16> %add6		ret <2 x i16> %add6
}		}

define <3 x i16> @clpeak_umad_pat_v3i16(<3 x i16> %x, <3 x i16> %y) {		define <3 x i16> @clpeak_umad_pat_v3i16(<3 x i16> %x, <3 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_umad_pat_v3i16:		; GFX67-SDAG-LABEL: clpeak_umad_pat_v3i16:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v7, 16, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v7, 0, v7, 16		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v7, v4, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2		; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v7, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v7, v4
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v8, v3, v0		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v8, v3, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v7, v4, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v8, v3, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v8, v3, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_alignbit_b32 v1, 0, v1, 16		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v9, 16, v9		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v9, 16, v9
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v6, v5, v2		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v6, v5, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v0, v3		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v0, v3
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4
; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v9, v8		; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v9, v8
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000		; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v3, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v3, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8		; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v3, 16, v1		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v3, 16, v1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v2, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v2, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v6, v6, v5, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v6, v6, v5, 1
; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v3, v0		; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v3, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v3, 0, v8, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v3, 16, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6		; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v5, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v5, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v4
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v5, v7		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v5, v7
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_alignbit_b32 v4, 0, v0, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v4, 16, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v5, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v5, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v3, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v3, v2
; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]		; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
define <4 x i16> @clpeak_umad_pat_v4i16(<4 x i16> %x, <4 x i16> %y) {		define <4 x i16> @clpeak_umad_pat_v4i16(<4 x i16> %x, <4 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_umad_pat_v4i16:		; GFX67-SDAG-LABEL: clpeak_umad_pat_v4i16:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v3, vcc, 1, v3		; GFX67-SDAG-NEXT: v_add_i32_e32 v3, vcc, 1, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v10, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v10, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2		; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 1, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v10, v7, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v10, v7, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v2
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v9, 16, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6		; GFX67-SDAG-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v9, 0, v9, 16		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v13, v10, v7		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v13, v10, v7
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v7		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v7
; GFX67-SDAG-NEXT: v_mad_u32_u24 v7, v8, v6, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v7, v8, v6, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v9, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v11, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v11, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v8, v6, v2		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v8, v6, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v9, v5, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v7
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v8, 16, v13		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v8, 16, v13
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v12, v9, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v12, v9, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v11, v4, v0		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v11, v4, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v9, v5, v1
; GFX67-SDAG-NEXT: v_or_b32_e32 v7, v8, v7		; GFX67-SDAG-NEXT: v_or_b32_e32 v7, v8, v7
; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v11, v4, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v8, v11, v4, 1
; GFX67-SDAG-NEXT: v_alignbit_b32 v1, 0, v1, 16		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v10, 16, v12		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v10, 16, v12
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v0, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v9, v0, v4
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000		; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v10, v8		; GFX67-SDAG-NEXT: v_or_b32_e32 v8, v10, v8
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v4, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v4, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v2, v6		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v5, v2, v6
; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8		; GFX67-SDAG-NEXT: v_add_i32_e32 v8, vcc, s4, v8
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v6, 1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v2, v6, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v4, 16, v1		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v4, 16, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v7, vcc, s4, v7		; GFX67-SDAG-NEXT: v_add_i32_e32 v7, vcc, s4, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v6, 16, v3		; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v6, 16, v3
; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v4, v0		; GFX67-SDAG-NEXT: v_or_b32_e32 v0, v4, v0
; GFX67-SDAG-NEXT: v_alignbit_b32 v4, 0, v8, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v4, 16, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_or_b32_e32 v2, v6, v2		; GFX67-SDAG-NEXT: v_or_b32_e32 v2, v6, v2
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v7		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v9, 0xffff, v9		; GFX67-SDAG-NEXT: v_and_b32_e32 v9, 0xffff, v9
; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v5		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v7
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, s4, v2		; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, s4, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, s4, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v8, v9, v8		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v8, v9, v8
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v4, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v4, v5
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v6
; GFX67-SDAG-NEXT: v_alignbit_b32 v5, 0, v0, 16		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v2		; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v6, 16, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8		; GFX67-SDAG-NEXT: v_and_b32_e32 v7, 0xffff, v8
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v7, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v7, v0
▲ Show 20 Lines • Show All 5,427 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/partial-shift-shrink.ll

Show First 20 Lines • Show All 149 Lines • ▼ Show 20 Lines	; GCN-NEXT: s_setpc_b64 s[30:31]
ret i16 %trunc		ret i16 %trunc
}		}

define i32 @trunc_srl_i64_25_to_i26(i64 %x) {		define i32 @trunc_srl_i64_25_to_i26(i64 %x) {
; GCN-LABEL: trunc_srl_i64_25_to_i26:		; GCN-LABEL: trunc_srl_i64_25_to_i26:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_and_b32_e32 v0, 0xa000000, v0		; GCN-NEXT: v_and_b32_e32 v0, 0xa000000, v0
; GCN-NEXT: v_alignbit_b32 v0, 0, v0, 25		; GCN-NEXT: v_lshrrev_b32_e32 v0, 25, v0
; GCN-NEXT: v_add_u32_e32 v0, 55, v0		; GCN-NEXT: v_add_u32_e32 v0, 55, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%value.knownbits2 = and i64 %x, 167772160 ; 0xA000000		%value.knownbits2 = and i64 %x, 167772160 ; 0xA000000
%shift = lshr i64 %value.knownbits2, 25		%shift = lshr i64 %value.knownbits2, 25
%trunc = trunc i64 %shift to i26		%trunc = trunc i64 %shift to i26
%add = add i26 %trunc, 55		%add = add i26 %trunc, 55
%ext = zext i26 %add to i32		%ext = zext i26 %add to i32
ret i32 %ext		ret i32 %ext
}		}

llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll

	Show First 20 Lines • Show All 1,867 Lines • ▼ Show 20 Lines
	; NOSDWA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; NOSDWA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; NOSDWA-NEXT: s_waitcnt lgkmcnt(0)			; NOSDWA-NEXT: s_waitcnt lgkmcnt(0)
	; NOSDWA-NEXT: v_mov_b32_e32 v0, s0			; NOSDWA-NEXT: v_mov_b32_e32 v0, s0
	; NOSDWA-NEXT: v_mov_b32_e32 v1, s1			; NOSDWA-NEXT: v_mov_b32_e32 v1, s1
	; NOSDWA-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; NOSDWA-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; NOSDWA-NEXT: v_mov_b32_e32 v2, s2			; NOSDWA-NEXT: v_mov_b32_e32 v2, s2
	; NOSDWA-NEXT: v_mov_b32_e32 v3, s3			; NOSDWA-NEXT: v_mov_b32_e32 v3, s3
	; NOSDWA-NEXT: s_waitcnt vmcnt(0)			; NOSDWA-NEXT: s_waitcnt vmcnt(0)
	; NOSDWA-NEXT: v_lshrrev_b64 v[4:5], 24, v[0:1]			; NOSDWA-NEXT: v_and_b32_e32 v4, 0xff, v0
	; NOSDWA-NEXT: v_and_b32_e32 v6, 0xff, v0			; NOSDWA-NEXT: v_lshrrev_b32_e32 v5, 8, v0
	; NOSDWA-NEXT: v_lshrrev_b32_e32 v7, 8, v0			; NOSDWA-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; NOSDWA-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; NOSDWA-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; NOSDWA-NEXT: v_and_b32_e32 v5, 0xff, v1			; NOSDWA-NEXT: v_and_b32_e32 v7, 0xff, v1
	; NOSDWA-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; NOSDWA-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; NOSDWA-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; NOSDWA-NEXT: v_lshrrev_b32_e32 v9, 24, v1
	; NOSDWA-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; NOSDWA-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; NOSDWA-NEXT: v_lshlrev_b16_e32 v7, 8, v7			; NOSDWA-NEXT: v_lshlrev_b16_e32 v5, 8, v5
				; NOSDWA-NEXT: v_lshlrev_b16_e32 v6, 8, v6
	; NOSDWA-NEXT: v_and_b32_e32 v0, 0xff, v0			; NOSDWA-NEXT: v_and_b32_e32 v0, 0xff, v0
	; NOSDWA-NEXT: v_lshlrev_b16_e32 v8, 8, v8			; NOSDWA-NEXT: v_lshlrev_b16_e32 v8, 8, v8
	; NOSDWA-NEXT: v_lshlrev_b16_e32 v9, 8, v9			; NOSDWA-NEXT: v_lshlrev_b16_e32 v9, 8, v9
	; NOSDWA-NEXT: v_and_b32_e32 v1, 0xff, v1			; NOSDWA-NEXT: v_and_b32_e32 v1, 0xff, v1
	; NOSDWA-NEXT: v_lshlrev_b16_e32 v4, 8, v4			; NOSDWA-NEXT: v_or_b32_e32 v4, v4, v5
	; NOSDWA-NEXT: v_or_b32_e32 v6, v6, v7			; NOSDWA-NEXT: v_or_b32_e32 v0, v0, v6
	; NOSDWA-NEXT: v_or_b32_e32 v5, v5, v8			; NOSDWA-NEXT: v_or_b32_e32 v5, v7, v8
	; NOSDWA-NEXT: v_or_b32_e32 v1, v1, v9			; NOSDWA-NEXT: v_or_b32_e32 v1, v1, v9
	; NOSDWA-NEXT: v_or_b32_e32 v0, v0, v4			; NOSDWA-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; NOSDWA-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; NOSDWA-NEXT: v_and_b32_e32 v4, 0xffff, v5
	; NOSDWA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; NOSDWA-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; NOSDWA-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; NOSDWA-NEXT: v_or_b32_e32 v0, v6, v0			; NOSDWA-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; NOSDWA-NEXT: v_or_b32_e32 v1, v4, v1			; NOSDWA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; NOSDWA-NEXT: v_or_b32_e32 v0, v4, v0
				; NOSDWA-NEXT: v_or_b32_e32 v1, v5, v1
	; NOSDWA-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; NOSDWA-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; NOSDWA-NEXT: s_endpgm			; NOSDWA-NEXT: s_endpgm
	;			;
	; GFX89-LABEL: pulled_out_test:			; GFX89-LABEL: pulled_out_test:
	; GFX89: ; %bb.0: ; %entry			; GFX89: ; %bb.0: ; %entry
	; GFX89-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX89-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX89-NEXT: v_mov_b32_e32 v6, 8			; GFX89-NEXT: v_mov_b32_e32 v4, 8
	; GFX89-NEXT: v_mov_b32_e32 v7, 0xff			; GFX89-NEXT: v_mov_b32_e32 v5, 0xff
	; GFX89-NEXT: s_waitcnt lgkmcnt(0)			; GFX89-NEXT: s_waitcnt lgkmcnt(0)
	; GFX89-NEXT: v_mov_b32_e32 v0, s0			; GFX89-NEXT: v_mov_b32_e32 v0, s0
	; GFX89-NEXT: v_mov_b32_e32 v1, s1			; GFX89-NEXT: v_mov_b32_e32 v1, s1
	; GFX89-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX89-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX89-NEXT: v_mov_b32_e32 v2, s2			; GFX89-NEXT: v_mov_b32_e32 v2, s2
	; GFX89-NEXT: v_mov_b32_e32 v3, s3			; GFX89-NEXT: v_mov_b32_e32 v3, s3
	; GFX89-NEXT: s_waitcnt vmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0)
	; GFX89-NEXT: v_lshrrev_b64 v[4:5], 24, v[0:1]			; GFX89-NEXT: v_lshrrev_b32_sdwa v6, v4, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX89-NEXT: v_lshrrev_b32_sdwa v8, v6, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX89-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX89-NEXT: v_lshrrev_b32_sdwa v6, v6, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX89-NEXT: v_lshrrev_b32_sdwa v4, v4, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX89-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX89-NEXT: v_lshrrev_b32_e32 v9, 24, v1
	; GFX89-NEXT: v_and_b32_sdwa v5, v0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX89-NEXT: v_and_b32_sdwa v8, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX89-NEXT: v_and_b32_sdwa v7, v1, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX89-NEXT: v_and_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX89-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX89-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX89-NEXT: v_lshlrev_b16_e32 v6, 8, v9			; GFX89-NEXT: v_lshlrev_b16_e32 v6, 8, v7
	; GFX89-NEXT: v_lshlrev_b16_e32 v4, 8, v4			; GFX89-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX89-NEXT: v_or_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX89-NEXT: v_lshlrev_b16_e32 v4, 8, v9
	; GFX89-NEXT: v_or_b32_sdwa v6, v7, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX89-NEXT: v_or_b32_sdwa v6, v8, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX89-NEXT: v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX89-NEXT: v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX89-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX89-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX89-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX89-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX89-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX89-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX89-NEXT: s_endpgm			; GFX89-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: pulled_out_test:			; GFX9-LABEL: pulled_out_test:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 8			; GFX9-NEXT: v_mov_b32_e32 v3, 8
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v4, s[0:1]			; GFX9-NEXT: global_load_dwordx2 v[0:1], v2, s[0:1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff			; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]			; GFX9-NEXT: v_lshrrev_b32_sdwa v4, v3, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_sdwa v6, v5, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_sdwa v5, v5, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_sdwa v3, v3, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_b32_sdwa v6, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b16_e32 v5, 8, v7			; GFX9-NEXT: v_lshlrev_b16_e32 v4, 8, v5
	; GFX9-NEXT: v_lshlrev_b16_e32 v2, 8, v2			; GFX9-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b16_e32 v3, 8, v7
	; GFX9-NEXT: v_or_b32_sdwa v5, v8, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v4, v6, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v3, v8, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX9-NEXT: global_store_dwordx2 v4, v[0:1], s[2:3]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: pulled_out_test:			; GFX10-LABEL: pulled_out_test:
	; GFX10: ; %bb.0: ; %entry			; GFX10: ; %bb.0: ; %entry
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: v_mov_b32_e32 v5, 8			; GFX10-NEXT: v_mov_b32_e32 v3, 8
	; GFX10-NEXT: v_mov_b32_e32 v6, 0xff			; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_mov_b32_e32 v7, 24			; GFX10-NEXT: v_mov_b32_e32 v5, 0xff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v4, s[0:1]			; GFX10-NEXT: global_load_dwordx2 v[0:1], v2, s[0:1]
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b64 v[2:3], 24, v[0:1]			; GFX10-NEXT: v_lshrrev_b32_sdwa v6, v3, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_lshrrev_b32_sdwa v3, v5, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v7, v4, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_and_b32_sdwa v8, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_b32_sdwa v8, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshrrev_b32_sdwa v5, v5, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v3, v3, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_lshrrev_b32_sdwa v7, v7, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v4, v4, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_and_b32_sdwa v6, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b16 v2, 8, v2			; GFX10-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v6, v8, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v3, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v3, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v2, v8, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX10-NEXT: global_store_dwordx2 v4, v[0:1], s[2:3]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	entry:			entry:
	%idxprom = ashr exact i64 15, 32			%idxprom = ashr exact i64 15, 32
	%arrayidx = getelementptr inbounds <8 x i8>, ptr addrspace(1) %sourceA, i64 %idxprom			%arrayidx = getelementptr inbounds <8 x i8>, ptr addrspace(1) %sourceA, i64 %idxprom
	%tmp = load <8 x i8>, ptr addrspace(1) %arrayidx, align 8			%tmp = load <8 x i8>, ptr addrspace(1) %arrayidx, align 8

	%tmp1 = extractelement <8 x i8> %tmp, i32 0			%tmp1 = extractelement <8 x i8> %tmp, i32 0
	%tmp2 = extractelement <8 x i8> %tmp, i32 1			%tmp2 = extractelement <8 x i8> %tmp, i32 1
	▲ Show 20 Lines • Show All 119 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shift-i128.ll

	Show First 20 Lines • Show All 143 Lines • ▼ Show 20 Lines

	define i128 @v_lshr_i128_kv(i128 %rhs) {			define i128 @v_lshr_i128_kv(i128 %rhs) {
	; GCN-LABEL: v_lshr_i128_kv:			; GCN-LABEL: v_lshr_i128_kv:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: s_mov_b64 s[4:5], 0x41			; GCN-NEXT: s_mov_b64 s[4:5], 0x41
	; GCN-NEXT: v_lshr_b64 v[1:2], s[4:5], v0			; GCN-NEXT: v_lshr_b64 v[1:2], s[4:5], v0
	; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0			; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0
	; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc
	; GCN-NEXT: v_mov_b32_e32 v3, 0x41			; GCN-NEXT: v_mov_b32_e32 v2, 0x41
	; GCN-NEXT: s_and_b64 vcc, s[4:5], vcc			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v1, s[4:5]			; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v1, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_mov_b32_e32 v2, 0			; GCN-NEXT: v_mov_b32_e32 v2, 0
	; GCN-NEXT: v_mov_b32_e32 v3, 0			; GCN-NEXT: v_mov_b32_e32 v3, 0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%shl = lshr i128 65, %rhs			%shl = lshr i128 65, %rhs
	ret i128 %shl			ret i128 %shl
	}			}

	define i128 @v_ashr_i128_kv(i128 %rhs) {			define i128 @v_ashr_i128_kv(i128 %rhs) {
	; GCN-LABEL: v_ashr_i128_kv:			; GCN-LABEL: v_ashr_i128_kv:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_lshr_b64 v[1:2], 33, v0			; GCN-NEXT: v_lshr_b64 v[1:2], 33, v0
	; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0			; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0
	; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc
	; GCN-NEXT: s_and_b64 vcc, s[4:5], vcc			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, 33, v1, s[4:5]			; GCN-NEXT: v_cndmask_b32_e32 v0, 33, v1, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_mov_b32_e32 v2, 0			; GCN-NEXT: v_mov_b32_e32 v2, 0
	; GCN-NEXT: v_mov_b32_e32 v3, 0			; GCN-NEXT: v_mov_b32_e32 v3, 0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%shl = ashr i128 33, %rhs			%shl = ashr i128 33, %rhs
	ret i128 %shl			ret i128 %shl
	}			}

	define amdgpu_kernel void @s_shl_i128_ss(i128 %lhs, i128 %rhs) {			define amdgpu_kernel void @s_shl_i128_ss(i128 %lhs, i128 %rhs) {
	▲ Show 20 Lines • Show All 466 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/wave32.ll

	Show First 20 Lines • Show All 2,483 Lines • ▼ Show 20 Lines
	; GFX1032-NEXT: v_sub_nc_u32_e32 v0, v0, v1			; GFX1032-NEXT: v_sub_nc_u32_e32 v0, v0, v1
	; GFX1032-NEXT: v_subrev_nc_u32_e32 v1, s0, v0			; GFX1032-NEXT: v_subrev_nc_u32_e32 v1, s0, v0
	; GFX1032-NEXT: v_cmp_le_u32_e32 vcc_lo, s0, v0			; GFX1032-NEXT: v_cmp_le_u32_e32 vcc_lo, s0, v0
	; GFX1032-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo
	; GFX1032-NEXT: v_subrev_nc_u32_e32 v1, s0, v0			; GFX1032-NEXT: v_subrev_nc_u32_e32 v1, s0, v0
	; GFX1032-NEXT: v_cmp_le_u32_e32 vcc_lo, s0, v0			; GFX1032-NEXT: v_cmp_le_u32_e32 vcc_lo, s0, v0
	; GFX1032-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: v_alignbit_b32 v0, 0, vcc_lo, 1			; GFX1032-NEXT: s_lshr_b32 s0, vcc_lo, 1
	; GFX1032-NEXT: v_readfirstlane_b32 s0, v0
	; GFX1032-NEXT: s_ff1_i32_b32 s0, s0			; GFX1032-NEXT: s_ff1_i32_b32 s0, s0
	; GFX1032-NEXT: s_min_u32 s0, s0, s1			; GFX1032-NEXT: s_min_u32 s0, s0, s1
	; GFX1032-NEXT: s_cmp_gt_u32 s0, 9			; GFX1032-NEXT: s_cmp_gt_u32 s0, 9
	; GFX1032-NEXT: s_cselect_b32 s0, -1, 0			; GFX1032-NEXT: s_cselect_b32 s0, -1, 0
	; GFX1032-NEXT: s_and_b32 s0, vcc_lo, s0			; GFX1032-NEXT: s_and_b32 s0, vcc_lo, s0
	; GFX1032-NEXT: s_and_saveexec_b32 s1, s0			; GFX1032-NEXT: s_and_saveexec_b32 s1, s0
	; GFX1032-NEXT: ; %bb.1: ; %if.then			; GFX1032-NEXT: ; %bb.1: ; %if.then
	; GFX1032-NEXT: ; divergent unreachable			; GFX1032-NEXT: ; divergent unreachable
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; GFX1032-NEXT: v_fma_f32 v5, -v1, v3, v4			; GFX1032-NEXT: v_fma_f32 v5, -v1, v3, v4
	; GFX1032-NEXT: v_fmac_f32_e32 v3, v5, v2			; GFX1032-NEXT: v_fmac_f32_e32 v3, v5, v2
	; GFX1032-NEXT: v_fma_f32 v1, -v1, v3, v4			; GFX1032-NEXT: v_fma_f32 v1, -v1, v3, v4
	; GFX1032-NEXT: v_div_fmas_f32 v1, v1, v2, v3			; GFX1032-NEXT: v_div_fmas_f32 v1, v1, v2, v3
	; GFX1032-NEXT: v_div_fixup_f32 v1, v1, s0, v0			; GFX1032-NEXT: v_div_fixup_f32 v1, v1, s0, v0
	; GFX1032-NEXT: v_trunc_f32_e32 v1, v1			; GFX1032-NEXT: v_trunc_f32_e32 v1, v1
	; GFX1032-NEXT: v_fma_f32 v0, -v1, s0, v0			; GFX1032-NEXT: v_fma_f32 v0, -v1, s0, v0
	; GFX1032-NEXT: v_cmp_eq_f32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_f32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: v_alignbit_b32 v1, 0, vcc_lo, 1			; GFX1032-NEXT: s_lshr_b32 s0, vcc_lo, 1
	; GFX1032-NEXT: v_cmp_nlg_f32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_nlg_f32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s0, v1
	; GFX1032-NEXT: s_ff1_i32_b32 s0, s0			; GFX1032-NEXT: s_ff1_i32_b32 s0, s0
	; GFX1032-NEXT: s_min_u32 s0, s0, s1			; GFX1032-NEXT: s_min_u32 s0, s0, s1
	; GFX1032-NEXT: s_cmp_gt_u32 s0, 9			; GFX1032-NEXT: s_cmp_gt_u32 s0, 9
	; GFX1032-NEXT: s_cselect_b32 s0, -1, 0			; GFX1032-NEXT: s_cselect_b32 s0, -1, 0
	; GFX1032-NEXT: s_and_b32 s0, vcc_lo, s0			; GFX1032-NEXT: s_and_b32 s0, vcc_lo, s0
	; GFX1032-NEXT: s_and_saveexec_b32 s1, s0			; GFX1032-NEXT: s_and_saveexec_b32 s1, s0
	; GFX1032-NEXT: ; %bb.1: ; %if.then			; GFX1032-NEXT: ; %bb.1: ; %if.then
	; GFX1032-NEXT: ; divergent unreachable			; GFX1032-NEXT: ; divergent unreachable
	▲ Show 20 Lines • Show All 363 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/2008-05-12-tailmerge-5.ll

	Show All 9 Lines
	define void @passing2(i64 %str.0, i64 %str.1, i16 signext %s, i32 %j, i8 signext %c, i16 signext %t, i16 signext %u, i8 signext %d) nounwind optsize {			define void @passing2(i64 %str.0, i64 %str.1, i16 signext %s, i32 %j, i8 signext %c, i16 signext %t, i16 signext %u, i8 signext %d) nounwind optsize {
	; CHECK-LABEL: passing2:			; CHECK-LABEL: passing2:
	; CHECK: ## %bb.0: ## %entry			; CHECK: ## %bb.0: ## %entry
	; CHECK-NEXT: subq $40, %rsp			; CHECK-NEXT: subq $40, %rsp
	; CHECK-NEXT: movq %rsi, %rax			; CHECK-NEXT: movq %rsi, %rax
	; CHECK-NEXT: movq %rdi, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rdi, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: movb %al, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movb %al, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: movb %ah, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movb %ah, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: shrq $16, %rsi			; CHECK-NEXT: shrq $16, %rax
	; CHECK-NEXT: movb %sil, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: shrq $24, %rax
	; CHECK-NEXT: movb %al, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movb %al, {{[0-9]+}}(%rsp)
				; CHECK-NEXT: movb %ah, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: movw %dx, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movw %dx, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: movl %ecx, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movl %ecx, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: movb %r8b, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movb %r8b, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: movw %r9w, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movw %r9w, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: shll $14, %edi			; CHECK-NEXT: shll $14, %edi
	; CHECK-NEXT: sarl $23, %edi			; CHECK-NEXT: sarl $23, %edi
	; CHECK-NEXT: cmpl %ecx, %edi			; CHECK-NEXT: cmpl %ecx, %edi
	; CHECK-NEXT: jne LBB0_6			; CHECK-NEXT: jne LBB0_6
	▲ Show 20 Lines • Show All 160 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/2009-05-30-ISelBug.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-- \| FileCheck %s

	define void @BZ2_bzDecompress_bb5_2E_outer_bb35_2E_i_bb54_2E_i(ptr, i32 %c_nblock_used.2.i, i32 %.reload51, ptr %.out, ptr %.out1, ptr %.out2, ptr %.out3) nounwind {			define void @BZ2_bzDecompress_bb5_2E_outer_bb35_2E_i_bb54_2E_i(ptr, i32 %c_nblock_used.2.i, i32 %.reload51, ptr %.out, ptr %.out1, ptr %.out2, ptr %.out3) nounwind {
	; CHECK-LABEL: BZ2_bzDecompress_bb5_2E_outer_bb35_2E_i_bb54_2E_i:			; CHECK-LABEL: BZ2_bzDecompress_bb5_2E_outer_bb35_2E_i_bb54_2E_i:
	; CHECK: # %bb.0: # %newFuncRoot			; CHECK: # %bb.0: # %newFuncRoot
	; CHECK-NEXT: movq {{[0-9]+}}(%rsp), %rax			; CHECK-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; CHECK-NEXT: movl %edx, %edx			; CHECK-NEXT: movl %edx, %edx
	; CHECK-NEXT: movl (%rdi,%rdx,4), %edx			; CHECK-NEXT: movl (%rdi,%rdx,4), %edx
	; CHECK-NEXT: movzbl %dl, %r10d			; CHECK-NEXT: movzbl %dl, %r10d
				; CHECK-NEXT: # kill: def $edx killed $edx def $rdx
				; CHECK-NEXT: shrl $8, %edx
				pengfeiUnsubmitted Not Done Reply Inline Actions This results in scale to be 4, which may do bad for performance? pengfei: This results in scale to be 4, which may do bad for performance?
	; CHECK-NEXT: addl $4, %r10d			; CHECK-NEXT: addl $4, %r10d
	; CHECK-NEXT: shrq $6, %rdx			; CHECK-NEXT: movl (%rdi,%rdx,4), %edx
	; CHECK-NEXT: andl $67108860, %edx # imm = 0x3FFFFFC
	; CHECK-NEXT: movl (%rdi,%rdx), %edx
	; CHECK-NEXT: movzbl %dl, %edi			; CHECK-NEXT: movzbl %dl, %edi
	; CHECK-NEXT: shrl $8, %edx			; CHECK-NEXT: shrl $8, %edx
	; CHECK-NEXT: addl $5, %esi			; CHECK-NEXT: addl $5, %esi
	; CHECK-NEXT: movl %r10d, (%rcx)			; CHECK-NEXT: movl %r10d, (%rcx)
	; CHECK-NEXT: movl %edi, (%r8)			; CHECK-NEXT: movl %edi, (%r8)
	; CHECK-NEXT: movl %edx, (%r9)			; CHECK-NEXT: movl %edx, (%r9)
	; CHECK-NEXT: movl %esi, (%rax)			; CHECK-NEXT: movl %esi, (%rax)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	Show All 25 Lines

llvm/test/CodeGen/X86/3addr-or.ll

	Show All 14 Lines
	}			}

	; This test no longer requires or to be converted to 3 addr form because we are			; This test no longer requires or to be converted to 3 addr form because we are
	; are able to use a zero extend instead of an 'and' which gives the register			; are able to use a zero extend instead of an 'and' which gives the register
	; allocator freedom.			; allocator freedom.
	define i64 @test2(i8 %A, i8 %B) nounwind {			define i64 @test2(i8 %A, i8 %B) nounwind {
	; CHECK-LABEL: test2:			; CHECK-LABEL: test2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: # kill: def $edi killed $edi def $rdi
	; CHECK-NEXT: shll $4, %edi			; CHECK-NEXT: shll $4, %edi
	; CHECK-NEXT: andl $48, %edi			; CHECK-NEXT: andl $48, %edi
	; CHECK-NEXT: movzbl %sil, %eax			; CHECK-NEXT: movzbl %sil, %eax
	; CHECK-NEXT: shrq $4, %rax			; CHECK-NEXT: shrl $4, %eax
	; CHECK-NEXT: orq %rdi, %rax			; CHECK-NEXT: orl %edi, %eax
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%C = zext i8 %A to i64			%C = zext i8 %A to i64
	%D = shl i64 %C, 4			%D = shl i64 %C, 4
	%E = and i64 %D, 48			%E = and i64 %D, 48
	%F = zext i8 %B to i64			%F = zext i8 %B to i64
	%G = lshr i64 %F, 4			%G = lshr i64 %F, 4
	%H = or i64 %G, %E			%H = or i64 %G, %E
	ret i64 %H			ret i64 %H
	▲ Show 20 Lines • Show All 48 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/and-shift.ll

	Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; X86-NEXT: shrl $30, %eax			; X86-NEXT: shrl $30, %eax
	; X86-NEXT: andl $-2, %eax			; X86-NEXT: andl $-2, %eax
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: shift30_and2_i64:			; X64-LABEL: shift30_and2_i64:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: shrq $30, %rax			; X64-NEXT: shrl $30, %eax
	; X64-NEXT: andl $2, %eax			; X64-NEXT: andl $-2, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%shr = lshr i64 %x, 30			%shr = lshr i64 %x, 30
	%and = and i64 %shr, 2			%and = and i64 %shr, 2
	ret i64 %and			ret i64 %and
	}			}

llvm/test/CodeGen/X86/bswap.ll

	Show First 20 Lines • Show All 160 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: shll $8, %eax			; CHECK-NEXT: shll $8, %eax
	; CHECK-NEXT: orl %ecx, %eax			; CHECK-NEXT: orl %ecx, %eax
	; CHECK-NEXT: xorl %edx, %edx			; CHECK-NEXT: xorl %edx, %edx
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	;			;
	; CHECK64-LABEL: not_bswap:			; CHECK64-LABEL: not_bswap:
	; CHECK64: # %bb.0:			; CHECK64: # %bb.0:
	; CHECK64-NEXT: movzwl var16(%rip), %eax			; CHECK64-NEXT: movzwl var16(%rip), %eax
	; CHECK64-NEXT: movq %rax, %rcx			; CHECK64-NEXT: movl %eax, %ecx
	; CHECK64-NEXT: shrq $8, %rcx			; CHECK64-NEXT: shrl $8, %ecx
	; CHECK64-NEXT: shlq $8, %rax			; CHECK64-NEXT: shlq $8, %rax
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Looks like an equivalent patch for shl narrowing would be useful RKSimon: Looks like an equivalent patch for shl narrowing would be useful
	; CHECK64-NEXT: orq %rcx, %rax			; CHECK64-NEXT: orq %rcx, %rax
	; CHECK64-NEXT: retq			; CHECK64-NEXT: retq
	%init = load i16, ptr @var16			%init = load i16, ptr @var16
	%big = zext i16 %init to i64			%big = zext i16 %init to i64

	%hishifted = lshr i64 %big, 8			%hishifted = lshr i64 %big, 8
	%loshifted = shl i64 %big, 8			%loshifted = shl i64 %big, 8

	Show All 39 Lines
	; CHECK-NEXT: movzwl var16, %eax			; CHECK-NEXT: movzwl var16, %eax
	; CHECK-NEXT: bswapl %eax			; CHECK-NEXT: bswapl %eax
	; CHECK-NEXT: shrl $16, %eax			; CHECK-NEXT: shrl $16, %eax
	; CHECK-NEXT: xorl %edx, %edx			; CHECK-NEXT: xorl %edx, %edx
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	;			;
	; CHECK64-LABEL: finally_useful_bswap:			; CHECK64-LABEL: finally_useful_bswap:
	; CHECK64: # %bb.0:			; CHECK64: # %bb.0:
	; CHECK64-NEXT: movzwl var16(%rip), %eax			; CHECK64-NEXT: movzwl var16(%rip), %ecx
	; CHECK64-NEXT: bswapq %rax			; CHECK64-NEXT: movzbl %cl, %eax
	; CHECK64-NEXT: shrq $48, %rax			; CHECK64-NEXT: # kill: def $ecx killed $ecx killed $rcx def $rcx
				; CHECK64-NEXT: shrl $8, %ecx
				; CHECK64-NEXT: shlq $8, %rax
				; CHECK64-NEXT: orq %rcx, %rax
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Not sure if shl narrowing would solve this or we need better zext/trunc handling in the bswap matcher RKSimon: Not sure if shl narrowing would solve this or we need better zext/trunc handling in the bswap…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions This looks to be the last regression - MatchBSwapHWordLow is very pattern specific, and can't peek through zext (or ignore AND masks for known zero bits) RKSimon: This looks to be the last regression - MatchBSwapHWordLow is very pattern specific, and can't…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions I've confirmed this is fixed by adding an equivalent SHL narrowing fold in SimplifyDemandedBits, which I intend to do as a follow up. RKSimon: I've confirmed this is fixed by adding an equivalent SHL narrowing fold in SimplifyDemandedBits…
	; CHECK64-NEXT: retq			; CHECK64-NEXT: retq
	%init = load i16, ptr @var16			%init = load i16, ptr @var16
	%big = zext i16 %init to i64			%big = zext i16 %init to i64

	%hishifted = lshr i64 %big, 8			%hishifted = lshr i64 %big, 8
	%lomasked = and i64 %big, 255			%lomasked = and i64 %big, 255
	%loshifted = shl i64 %lomasked, 8			%loshifted = shl i64 %lomasked, 8

	▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-bitreverse.ll

	Show First 20 Lines • Show All 363 Lines • ▼ Show 20 Lines
	; X64-NEXT: shrl %eax			; X64-NEXT: shrl %eax
	; X64-NEXT: andl $1431655765, %eax # imm = 0x55555555			; X64-NEXT: andl $1431655765, %eax # imm = 0x55555555
	; X64-NEXT: leal (%rax,%rcx,2), %eax			; X64-NEXT: leal (%rax,%rcx,2), %eax
	; X64-NEXT: shlq $33, %rax			; X64-NEXT: shlq $33, %rax
	; X64-NEXT: bswapq %rax			; X64-NEXT: bswapq %rax
	; X64-NEXT: movl %eax, %ecx			; X64-NEXT: movl %eax, %ecx
	; X64-NEXT: andl $235867919, %ecx # imm = 0xE0F0F0F			; X64-NEXT: andl $235867919, %ecx # imm = 0xE0F0F0F
	; X64-NEXT: shlq $4, %rcx			; X64-NEXT: shlq $4, %rcx
	; X64-NEXT: shrq $4, %rax			; X64-NEXT: shrl $4, %eax
	; X64-NEXT: andl $252645135, %eax # imm = 0xF0F0F0F			; X64-NEXT: andl $252645135, %eax # imm = 0xF0F0F0F
	; X64-NEXT: orq %rcx, %rax			; X64-NEXT: orq %rcx, %rax
	; X64-NEXT: movl %eax, %ecx			; X64-NEXT: movl %eax, %ecx
	; X64-NEXT: andl $590558003, %ecx # imm = 0x23333333			; X64-NEXT: andl $590558003, %ecx # imm = 0x23333333
	; X64-NEXT: shrq $2, %rax			; X64-NEXT: shrl $2, %eax
	; X64-NEXT: andl $858993459, %eax # imm = 0x33333333			; X64-NEXT: andl $858993459, %eax # imm = 0x33333333
	; X64-NEXT: leaq (%rax,%rcx,4), %rax			; X64-NEXT: leaq (%rax,%rcx,4), %rax
	; X64-NEXT: movabsq $6148914691236517205, %rcx # imm = 0x5555555555555555			; X64-NEXT: movl %eax, %ecx
	; X64-NEXT: movq %rax, %rdx			; X64-NEXT: andl $357913941, %ecx # imm = 0x15555555
	; X64-NEXT: andq %rcx, %rdx			; X64-NEXT: shrl %eax
	; X64-NEXT: shrq %rax			; X64-NEXT: andl $1431655765, %eax # imm = 0x55555555
	; X64-NEXT: andq %rcx, %rax			; X64-NEXT: leaq (%rax,%rcx,2), %rax
	; X64-NEXT: leaq (%rax,%rdx,2), %rax
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = call i64 @llvm.bitreverse.i64(i64 %a)			%1 = call i64 @llvm.bitreverse.i64(i64 %a)
	%2 = shl i64 %1, 33			%2 = shl i64 %1, 33
	%3 = call i64 @llvm.bitreverse.i64(i64 %2)			%3 = call i64 @llvm.bitreverse.i64(i64 %2)
	ret i64 %3			ret i64 %3
	}			}

	define <4 x i32> @test_demandedbits_bitreverse(<4 x i32> %a0) nounwind {			define <4 x i32> @test_demandedbits_bitreverse(<4 x i32> %a0) nounwind {
	▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/const-shift-of-constmasked.ll

	Show First 20 Lines • Show All 1,579 Lines • ▼ Show 20 Lines
	; X86-NEXT: shrl %eax			; X86-NEXT: shrl %eax
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_i64_2147483647_mask_lshr_1:			; X64-LABEL: test_i64_2147483647_mask_lshr_1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: andl $2147483646, %eax # imm = 0x7FFFFFFE			; X64-NEXT: andl $2147483646, %eax # imm = 0x7FFFFFFE
	; X64-NEXT: shrq %rax			; X64-NEXT: shrl %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%t0 = and i64 %a0, 2147483647			%t0 = and i64 %a0, 2147483647
	%t1 = lshr i64 %t0, 1			%t1 = lshr i64 %t0, 1
	ret i64 %t1			ret i64 %t1
	}			}

	define i64 @test_i64_140737488289792_mask_lshr_15(i64 %a0) {			define i64 @test_i64_140737488289792_mask_lshr_15(i64 %a0) {
	; X86-LABEL: test_i64_140737488289792_mask_lshr_15:			; X86-LABEL: test_i64_140737488289792_mask_lshr_15:
	▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines
	; X86-NEXT: shrl %eax			; X86-NEXT: shrl %eax
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_i64_2147483647_mask_ashr_1:			; X64-LABEL: test_i64_2147483647_mask_ashr_1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: andl $2147483646, %eax # imm = 0x7FFFFFFE			; X64-NEXT: andl $2147483646, %eax # imm = 0x7FFFFFFE
	; X64-NEXT: shrq %rax			; X64-NEXT: shrl %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%t0 = and i64 %a0, 2147483647			%t0 = and i64 %a0, 2147483647
	%t1 = ashr i64 %t0, 1			%t1 = ashr i64 %t0, 1
	ret i64 %t1			ret i64 %t1
	}			}

	define i64 @test_i64_140737488289792_mask_ashr_15(i64 %a0) {			define i64 @test_i64_140737488289792_mask_ashr_15(i64 %a0) {
	; X86-LABEL: test_i64_140737488289792_mask_ashr_15:			; X86-LABEL: test_i64_140737488289792_mask_ashr_15:
	▲ Show 20 Lines • Show All 326 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/extract-bits.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 8,124 Lines • ▼ Show 20 Lines
	; X86-BMITBM-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-BMITBM-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-BMITBM-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-BMITBM-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-BMITBM-NEXT: bextrl $2581, (%ecx), %ecx # imm = 0xA15			; X86-BMITBM-NEXT: bextrl $2581, (%ecx), %ecx # imm = 0xA15
	; X86-BMITBM-NEXT: incl (%eax,%ecx,4)			; X86-BMITBM-NEXT: incl (%eax,%ecx,4)
	; X86-BMITBM-NEXT: retl			; X86-BMITBM-NEXT: retl
	;			;
	; X64-NOBMI-LABEL: pr38938:			; X64-NOBMI-LABEL: pr38938:
	; X64-NOBMI: # %bb.0:			; X64-NOBMI: # %bb.0:
	; X64-NOBMI-NEXT: movq (%rsi), %rax			; X64-NOBMI-NEXT: movl (%rsi), %eax
	; X64-NOBMI-NEXT: shrq $19, %rax			; X64-NOBMI-NEXT: shrl $21, %eax
	; X64-NOBMI-NEXT: andl $4092, %eax # imm = 0xFFC			; X64-NOBMI-NEXT: andl $1023, %eax # imm = 0x3FF
	; X64-NOBMI-NEXT: incl (%rdi,%rax)			; X64-NOBMI-NEXT: incl (%rdi,%rax,4)
	; X64-NOBMI-NEXT: retq			; X64-NOBMI-NEXT: retq
	;			;
	; X64-BMINOTBM-LABEL: pr38938:			; X64-BMINOTBM-LABEL: pr38938:
	; X64-BMINOTBM: # %bb.0:			; X64-BMINOTBM: # %bb.0:
	; X64-BMINOTBM-NEXT: movl $2581, %eax # imm = 0xA15			; X64-BMINOTBM-NEXT: movl $2581, %eax # imm = 0xA15
	; X64-BMINOTBM-NEXT: bextrq %rax, (%rsi), %rax			; X64-BMINOTBM-NEXT: bextrl %eax, (%rsi), %eax
	; X64-BMINOTBM-NEXT: incl (%rdi,%rax,4)			; X64-BMINOTBM-NEXT: incl (%rdi,%rax,4)
	; X64-BMINOTBM-NEXT: retq			; X64-BMINOTBM-NEXT: retq
	;			;
	; X64-BMITBM-LABEL: pr38938:			; X64-BMITBM-LABEL: pr38938:
	; X64-BMITBM: # %bb.0:			; X64-BMITBM: # %bb.0:
	; X64-BMITBM-NEXT: bextrq $2581, (%rsi), %rax # imm = 0xA15			; X64-BMITBM-NEXT: bextrl $2581, (%rsi), %eax # imm = 0xA15
	; X64-BMITBM-NEXT: incl (%rdi,%rax,4)			; X64-BMITBM-NEXT: incl (%rdi,%rax,4)
	; X64-BMITBM-NEXT: retq			; X64-BMITBM-NEXT: retq
	%tmp = load i64, ptr %a1, align 8			%tmp = load i64, ptr %a1, align 8
	%tmp1 = lshr i64 %tmp, 21			%tmp1 = lshr i64 %tmp, 21
	%tmp2 = and i64 %tmp1, 1023			%tmp2 = and i64 %tmp1, 1023
	%tmp3 = getelementptr inbounds i32, ptr %a0, i64 %tmp2			%tmp3 = getelementptr inbounds i32, ptr %a0, i64 %tmp2
	%tmp4 = load i32, ptr %tmp3, align 4			%tmp4 = load i32, ptr %tmp3, align 4
	%tmp5 = add nsw i32 %tmp4, 1			%tmp5 = add nsw i32 %tmp4, 1
	▲ Show 20 Lines • Show All 484 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/h-register-addressing-64.ll

Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%t2 = getelementptr i8, ptr %p, i64 %t1		%t2 = getelementptr i8, ptr %p, i64 %t1
%t3 = load i8, ptr %t2, align 8		%t3 = load i8, ptr %t2, align 8
ret i8 %t3		ret i8 %t3
}		}

define i8 @bar8(ptr nocapture inreg %p, i64 inreg %x) nounwind readonly {		define i8 @bar8(ptr nocapture inreg %p, i64 inreg %x) nounwind readonly {
; CHECK-LABEL: bar8:		; CHECK-LABEL: bar8:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: movq %rsi, %rax		; CHECK-NEXT: shrl $5, %esi
; CHECK-NEXT: movzbl %ah, %eax		; CHECK-NEXT: andl $2040, %esi # imm = 0x7F8
; CHECK-NEXT: movzbl (%rdi,%rax,8), %eax		; CHECK-NEXT: movzbl (%rdi,%rsi), %eax
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Regression (WIP) RKSimon: Regression (WIP)
		pengfeiUnsubmitted Not Done Reply Inline Actions I saw you removed WIP in the title. Are you not considering this as regression or you will do it as a follow up? pengfei: I saw you removed WIP in the title. Are you not considering this as regression or you will do…
		RKSimonAuthorUnsubmitted Done Reply Inline Actions Let me take another look - it seems to be due to matchAddressRecursively not being very good at peeking through ZERO_EXTEND nodes. RKSimon: Let me take another look - it seems to be due to matchAddressRecursively not being very good at…
		goldstein.w.nUnsubmitted Not Done Reply Inline Actions I think this is okay here. We only get the right codegen by chance here and I don't think its something we can reasonably control during DAG isel. I tried to improve this with D141653. Looked good for the tests but caused infinite loop in bootstrap build. I think this (along with other `imm` level optimizations), need to be moved to a new pass (or function in isel) that runs at the very end. goldstein.w.n: I think this is okay here. We only get the right codegen by chance here and I don't think its…
		kazuUnsubmitted Not Done Reply Inline Actions think this (along with other `imm` level optimizations), need to be moved to a new pass (or function in isel) that runs at the very end. I was just thinking about something similar. Specifically, optimizations to achieve smaller encoding with the same opcode should move to a new pass. Otherwise, we would have to see through `ISD::ZERO_EXTEND` and `ISD::TRUNCATE` everywhere, and that would be prone to missed optimizations. Do we have known bits and demanded bits infrastructure at the x86 MIR level? (I'm guessing not.) Also, I am wondering whether a new pass would be more effective if we use information across basic blocks. kazu: > > think this (along with other `imm` level optimizations), need to be moved to a new pass (or…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Adding value tracking at that level would be a huge amount of work - both X86 and AMDGPU currently using the DAG narrowing code, but ideally we'd be working to enable it on other targets as well. RKSimon: Adding value tracking at that level would be a huge amount of work - both X86 and AMDGPU…
		goldstein.w.nUnsubmitted Not Done Reply Inline Actions I was thinking it would be best saved for a pass between DAG narrowing and MIR. I.e DAG narrowing -> Imm Fixup -> MIR. Imm Fixup could work on SDValue types. goldstein.w.n: I was thinking it would be best saved for a pass between DAG narrowing and MIR. I.e DAG…
		pengfeiUnsubmitted Not Done Reply Inline Actions Any possibility it can be solved in a new ISel mechanism like GlobalISel? pengfei: Any possibility it can be solved in a new ISel mechanism like GlobalISel?
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%t0 = lshr i64 %x, 5		%t0 = lshr i64 %x, 5
%t1 = and i64 %t0, 2040		%t1 = and i64 %t0, 2040
%t2 = getelementptr i8, ptr %p, i64 %t1		%t2 = getelementptr i8, ptr %p, i64 %t1
%t3 = load i8, ptr %t2, align 8		%t3 = load i8, ptr %t2, align 8
ret i8 %t3		ret i8 %t3
}		}

define i8 @bar4(ptr nocapture inreg %p, i64 inreg %x) nounwind readonly {		define i8 @bar4(ptr nocapture inreg %p, i64 inreg %x) nounwind readonly {
; CHECK-LABEL: bar4:		; CHECK-LABEL: bar4:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: movq %rsi, %rax		; CHECK-NEXT: shrl $6, %esi
; CHECK-NEXT: movzbl %ah, %eax		; CHECK-NEXT: andl $1020, %esi # imm = 0x3FC
; CHECK-NEXT: movzbl (%rdi,%rax,4), %eax		; CHECK-NEXT: movzbl (%rdi,%rsi), %eax
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Regression (WIP) RKSimon: Regression (WIP)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%t0 = lshr i64 %x, 6		%t0 = lshr i64 %x, 6
%t1 = and i64 %t0, 1020		%t1 = and i64 %t0, 1020
%t2 = getelementptr i8, ptr %p, i64 %t1		%t2 = getelementptr i8, ptr %p, i64 %t1
%t3 = load i8, ptr %t2, align 8		%t3 = load i8, ptr %t2, align 8
ret i8 %t3		ret i8 %t3
}		}

define i8 @bar2(ptr nocapture inreg %p, i64 inreg %x) nounwind readonly {		define i8 @bar2(ptr nocapture inreg %p, i64 inreg %x) nounwind readonly {
; CHECK-LABEL: bar2:		; CHECK-LABEL: bar2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: movq %rsi, %rax		; CHECK-NEXT: shrl $7, %esi
; CHECK-NEXT: movzbl %ah, %eax		; CHECK-NEXT: andl $510, %esi # imm = 0x1FE
; CHECK-NEXT: movzbl (%rdi,%rax,2), %eax		; CHECK-NEXT: movzbl (%rdi,%rsi), %eax
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Regression (WIP) RKSimon: Regression (WIP)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%t0 = lshr i64 %x, 7		%t0 = lshr i64 %x, 7
%t1 = and i64 %t0, 510		%t1 = and i64 %t0, 510
%t2 = getelementptr i8, ptr %p, i64 %t1		%t2 = getelementptr i8, ptr %p, i64 %t1
%t3 = load i8, ptr %t2, align 8		%t3 = load i8, ptr %t2, align 8
ret i8 %t3		ret i8 %t3
}		}

llvm/test/CodeGen/X86/h-registers-0.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mattr=-bmi -mtriple=x86_64-linux \| FileCheck %s -check-prefix=X86-64 -check-prefix=X64			; RUN: llc < %s -mattr=-bmi -mtriple=x86_64-linux \| FileCheck %s -check-prefix=X86-64 -check-prefix=X64
	; RUN: llc < %s -mattr=-bmi -mtriple=x86_64-linux-gnux32 \| FileCheck %s -check-prefix=X86-64 -check-prefix=X32			; RUN: llc < %s -mattr=-bmi -mtriple=x86_64-linux-gnux32 \| FileCheck %s -check-prefix=X86-64 -check-prefix=X32
	; RUN: llc < %s -mattr=-bmi -mtriple=x86_64-win32 \| FileCheck %s -check-prefix=WIN64			; RUN: llc < %s -mattr=-bmi -mtriple=x86_64-win32 \| FileCheck %s -check-prefix=WIN64
	; RUN: llc < %s -mattr=-bmi -mtriple=i686-- \| FileCheck %s -check-prefix=X86-32			; RUN: llc < %s -mattr=-bmi -mtriple=i686-- \| FileCheck %s -check-prefix=X86-32

	; Use h registers. On x86-64, codegen doesn't support general allocation			; Use h registers. On x86-64, codegen doesn't support general allocation
	; of h registers yet, due to x86 encoding complications.			; of h registers yet, due to x86 encoding complications.

	define void @bar64(i64 inreg %x, ptr inreg %p) nounwind {			define void @bar64(i64 inreg %x, ptr inreg %p) nounwind {
	; X64-LABEL: bar64:			; X64-LABEL: bar64:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: shrq $8, %rdi			; X64-NEXT: shrl $8, %edi
	; X64-NEXT: incb %dil			; X64-NEXT: incb %dil
	; X64-NEXT: movb %dil, (%rsi)			; X64-NEXT: movb %dil, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X32-LABEL: bar64:			; X32-LABEL: bar64:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: shrq $8, %rdi			; X32-NEXT: shrl $8, %edi
	; X32-NEXT: incb %dil			; X32-NEXT: incb %dil
	; X32-NEXT: movb %dil, (%esi)			; X32-NEXT: movb %dil, (%esi)
	; X32-NEXT: retq			; X32-NEXT: retq
	;			;
	; WIN64-LABEL: bar64:			; WIN64-LABEL: bar64:
	; WIN64: # %bb.0:			; WIN64: # %bb.0:
	; WIN64-NEXT: shrq $8, %rcx			; WIN64-NEXT: shrl $8, %ecx
	; WIN64-NEXT: incb %cl			; WIN64-NEXT: incb %cl
	; WIN64-NEXT: movb %cl, (%rdx)			; WIN64-NEXT: movb %cl, (%rdx)
	; WIN64-NEXT: retq			; WIN64-NEXT: retq
	;			;
	; X86-32-LABEL: bar64:			; X86-32-LABEL: bar64:
	; X86-32: # %bb.0:			; X86-32: # %bb.0:
	; X86-32-NEXT: incb %ah			; X86-32-NEXT: incb %ah
	; X86-32-NEXT: movb %ah, (%ecx)			; X86-32-NEXT: movb %ah, (%ecx)
	▲ Show 20 Lines • Show All 157 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/lzcnt-cmp.ll

	Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; X86-LZCNT-NEXT: cmovel %eax, %ecx			; X86-LZCNT-NEXT: cmovel %eax, %ecx
	; X86-LZCNT-NEXT: testb $64, %cl			; X86-LZCNT-NEXT: testb $64, %cl
	; X86-LZCNT-NEXT: setne %al			; X86-LZCNT-NEXT: setne %al
	; X86-LZCNT-NEXT: retl			; X86-LZCNT-NEXT: retl
	;			;
	; X64-BSR-LABEL: lshr_ctlz_undef_cmpeq_one_i64:			; X64-BSR-LABEL: lshr_ctlz_undef_cmpeq_one_i64:
	; X64-BSR: # %bb.0:			; X64-BSR: # %bb.0:
	; X64-BSR-NEXT: bsrq %rdi, %rax			; X64-BSR-NEXT: bsrq %rdi, %rax
	; X64-BSR-NEXT: shrq $6, %rax			; X64-BSR-NEXT: shrl $6, %eax
	; X64-BSR-NEXT: cmpl $1, %eax			; X64-BSR-NEXT: cmpl $1, %eax
	; X64-BSR-NEXT: sete %al			; X64-BSR-NEXT: sete %al
	; X64-BSR-NEXT: retq			; X64-BSR-NEXT: retq
	;			;
	; X64-LZCNT-LABEL: lshr_ctlz_undef_cmpeq_one_i64:			; X64-LZCNT-LABEL: lshr_ctlz_undef_cmpeq_one_i64:
	; X64-LZCNT: # %bb.0:			; X64-LZCNT: # %bb.0:
	; X64-LZCNT-NEXT: lzcntq %rdi, %rax			; X64-LZCNT-NEXT: lzcntq %rdi, %rax
	; X64-LZCNT-NEXT: shrq $6, %rax			; X64-LZCNT-NEXT: shrl $6, %eax
	; X64-LZCNT-NEXT: cmpl $1, %eax			; X64-LZCNT-NEXT: cmpl $1, %eax
	; X64-LZCNT-NEXT: sete %al			; X64-LZCNT-NEXT: sete %al
	; X64-LZCNT-NEXT: retq			; X64-LZCNT-NEXT: retq
	%ctlz = call i64 @llvm.ctlz.i64(i64 %in, i1 -1)			%ctlz = call i64 @llvm.ctlz.i64(i64 %in, i1 -1)
	%lshr = lshr i64 %ctlz, 6			%lshr = lshr i64 %ctlz, 6
	%icmp = icmp eq i64 %lshr, 1			%icmp = icmp eq i64 %lshr, 1
	ret i1 %icmp			ret i1 %icmp
	}			}
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; X86-LZCNT-NEXT: cmovel %eax, %ecx			; X86-LZCNT-NEXT: cmovel %eax, %ecx
	; X86-LZCNT-NEXT: testb $64, %cl			; X86-LZCNT-NEXT: testb $64, %cl
	; X86-LZCNT-NEXT: setne %al			; X86-LZCNT-NEXT: setne %al
	; X86-LZCNT-NEXT: retl			; X86-LZCNT-NEXT: retl
	;			;
	; X64-BSR-LABEL: lshr_ctlz_undef_cmpne_zero_i64:			; X64-BSR-LABEL: lshr_ctlz_undef_cmpne_zero_i64:
	; X64-BSR: # %bb.0:			; X64-BSR: # %bb.0:
	; X64-BSR-NEXT: bsrq %rdi, %rax			; X64-BSR-NEXT: bsrq %rdi, %rax
	; X64-BSR-NEXT: testq $-64, %rax			; X64-BSR-NEXT: testl $-64, %eax
	; X64-BSR-NEXT: setne %al			; X64-BSR-NEXT: setne %al
	; X64-BSR-NEXT: retq			; X64-BSR-NEXT: retq
	;			;
	; X64-LZCNT-LABEL: lshr_ctlz_undef_cmpne_zero_i64:			; X64-LZCNT-LABEL: lshr_ctlz_undef_cmpne_zero_i64:
	; X64-LZCNT: # %bb.0:			; X64-LZCNT: # %bb.0:
	; X64-LZCNT-NEXT: lzcntq %rdi, %rax			; X64-LZCNT-NEXT: lzcntq %rdi, %rax
	; X64-LZCNT-NEXT: testb $64, %al			; X64-LZCNT-NEXT: testb $64, %al
	; X64-LZCNT-NEXT: setne %al			; X64-LZCNT-NEXT: setne %al
	▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/zext-logicop-shift-load.ll

	Show First 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; X86-NEXT: movzbl (%eax), %eax			; X86-NEXT: movzbl (%eax), %eax
	; X86-NEXT: shrl $2, %eax			; X86-NEXT: shrl $2, %eax
	; X86-NEXT: andl $-4, %eax			; X86-NEXT: andl $-4, %eax
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test4:			; X64-LABEL: test4:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movl (%rdi), %eax			; X64-NEXT: movzbl (%rdi), %eax
	; X64-NEXT: shrq $2, %rax			; X64-NEXT: shrl $2, %eax
	; X64-NEXT: andl $60, %eax			; X64-NEXT: andl $-4, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%bf.load = load i8, ptr %data, align 4			%bf.load = load i8, ptr %data, align 4
	%bf.clear = lshr i8 %bf.load, 2			%bf.clear = lshr i8 %bf.load, 2
	%0 = and i8 %bf.clear, 60			%0 = and i8 %bf.clear, 60
	%1 = zext i8 %0 to i64			%1 = zext i8 %0 to i64
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test5(ptr %data) {			define i64 @test5(ptr %data) {
	; X86-LABEL: test5:			; X86-LABEL: test5:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzbl (%eax), %eax			; X86-NEXT: movzbl (%eax), %eax
	; X86-NEXT: shrl $2, %eax			; X86-NEXT: shrl $2, %eax
	; X86-NEXT: xorl $60, %eax			; X86-NEXT: xorl $60, %eax
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test5:			; X64-LABEL: test5:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movzbl (%rdi), %eax			; X64-NEXT: movzbl (%rdi), %eax
	; X64-NEXT: shrq $2, %rax			; X64-NEXT: shrl $2, %eax
	; X64-NEXT: xorq $60, %rax			; X64-NEXT: xorq $60, %rax
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%bf.load = load i8, ptr %data, align 4			%bf.load = load i8, ptr %data, align 4
	%bf.clear = lshr i8 %bf.load, 2			%bf.clear = lshr i8 %bf.load, 2
	%0 = xor i8 %bf.clear, 60			%0 = xor i8 %bf.clear, 60
	%1 = zext i8 %0 to i64			%1 = zext i8 %0 to i64
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test6(ptr %data) {			define i64 @test6(ptr %data) {
	; X86-LABEL: test6:			; X86-LABEL: test6:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzbl (%eax), %eax			; X86-NEXT: movzbl (%eax), %eax
	; X86-NEXT: shrl $2, %eax			; X86-NEXT: shrl $2, %eax
	; X86-NEXT: orl $60, %eax			; X86-NEXT: orl $60, %eax
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test6:			; X64-LABEL: test6:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movzbl (%rdi), %eax			; X64-NEXT: movzbl (%rdi), %eax
	; X64-NEXT: shrq $2, %rax			; X64-NEXT: shrl $2, %eax
	; X64-NEXT: orq $60, %rax			; X64-NEXT: orq $60, %rax
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%bf.load = load i8, ptr %data, align 4			%bf.load = load i8, ptr %data, align 4
	%bf.clear = lshr i8 %bf.load, 2			%bf.clear = lshr i8 %bf.load, 2
	%0 = or i8 %bf.clear, 60			%0 = or i8 %bf.clear, 60
	%1 = zext i8 %0 to i64			%1 = zext i8 %0 to i64
	ret i64 %1			ret i64 %1
	Show All 30 Lines

llvm/test/CodeGen/X86/zext-lshr.ll

	Show All 36 Lines
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: shrl $5, %eax			; X86-NEXT: shrl $5, %eax
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i64_zext_shift_i16_zext_i8:			; X64-LABEL: i64_zext_shift_i16_zext_i8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzbl %dil, %eax			; X64-NEXT: movzbl %dil, %eax
	; X64-NEXT: shrq $5, %rax			; X64-NEXT: shrl $5, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%t0 = zext i8 %a0 to i16			%t0 = zext i8 %a0 to i16
	%t1 = lshr i16 %t0, 5			%t1 = lshr i16 %t0, 5
	%t2 = zext i16 %t1 to i64			%t2 = zext i16 %t1 to i64
	ret i64 %t2			ret i64 %t2
	}			}

	define i64 @i64_zext_shift_i32_zext_i8(i8 %a0) nounwind {			define i64 @i64_zext_shift_i32_zext_i8(i8 %a0) nounwind {
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; X86-NEXT: movl $0, 12(%eax)			; X86-NEXT: movl $0, 12(%eax)
	; X86-NEXT: movl $0, 8(%eax)			; X86-NEXT: movl $0, 8(%eax)
	; X86-NEXT: movl $0, 4(%eax)			; X86-NEXT: movl $0, 4(%eax)
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: i128_zext_shift_i64_zext_i8:			; X64-LABEL: i128_zext_shift_i64_zext_i8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzbl %dil, %eax			; X64-NEXT: movzbl %dil, %eax
	; X64-NEXT: shrq $4, %rax			; X64-NEXT: shrl $4, %eax
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: retq			; X64-NEXT: retq
	%t0 = zext i8 %a0 to i64			%t0 = zext i8 %a0 to i64
	%t1 = lshr i64 %t0, 4			%t1 = lshr i64 %t0, 4
	%t2 = zext i64 %t1 to i128			%t2 = zext i64 %t1 to i128
	ret i128 %t2			ret i128 %t2
	}			}

	define i128 @i128_zext_shift_i64_zext_i16(i16 %a0) nounwind {			define i128 @i128_zext_shift_i64_zext_i16(i16 %a0) nounwind {
	; X86-LABEL: i128_zext_shift_i64_zext_i16:			; X86-LABEL: i128_zext_shift_i64_zext_i16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzwl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movzwl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: shrl $7, %ecx			; X86-NEXT: shrl $7, %ecx
	; X86-NEXT: movl %ecx, (%eax)			; X86-NEXT: movl %ecx, (%eax)
	; X86-NEXT: movl $0, 12(%eax)			; X86-NEXT: movl $0, 12(%eax)
	; X86-NEXT: movl $0, 8(%eax)			; X86-NEXT: movl $0, 8(%eax)
	; X86-NEXT: movl $0, 4(%eax)			; X86-NEXT: movl $0, 4(%eax)
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: i128_zext_shift_i64_zext_i16:			; X64-LABEL: i128_zext_shift_i64_zext_i16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl %di, %eax			; X64-NEXT: movzwl %di, %eax
	; X64-NEXT: shrq $7, %rax			; X64-NEXT: shrl $7, %eax
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: retq			; X64-NEXT: retq
	%t0 = zext i16 %a0 to i64			%t0 = zext i16 %a0 to i64
	%t1 = lshr i64 %t0,7			%t1 = lshr i64 %t0,7
	%t2 = zext i64 %t1 to i128			%t2 = zext i64 %t1 to i128
	ret i128 %t2			ret i128 %t2
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBitsClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 537747

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

llvm/test/CodeGen/AMDGPU/idot8s.ll

llvm/test/CodeGen/AMDGPU/idot8u.ll

llvm/test/CodeGen/AMDGPU/integer-mad-patterns.ll

llvm/test/CodeGen/AMDGPU/partial-shift-shrink.ll

llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll

llvm/test/CodeGen/AMDGPU/shift-i128.ll

llvm/test/CodeGen/AMDGPU/wave32.ll

llvm/test/CodeGen/X86/2008-05-12-tailmerge-5.ll

llvm/test/CodeGen/X86/2009-05-30-ISelBug.ll

llvm/test/CodeGen/X86/3addr-or.ll

llvm/test/CodeGen/X86/and-shift.ll

llvm/test/CodeGen/X86/bswap.ll

llvm/test/CodeGen/X86/combine-bitreverse.ll

llvm/test/CodeGen/X86/const-shift-of-constmasked.ll

llvm/test/CodeGen/X86/extract-bits.ll

llvm/test/CodeGen/X86/h-register-addressing-64.ll

llvm/test/CodeGen/X86/h-registers-0.ll

llvm/test/CodeGen/X86/lzcnt-cmp.ll

llvm/test/CodeGen/X86/zext-logicop-shift-load.ll

llvm/test/CodeGen/X86/zext-lshr.ll

[DAG] Move lshr narrowing from visitANDLike to SimplifyDemandedBits
ClosedPublic