This is an archive of the discontinued LLVM Phabricator instance.

test/CodeGen/ARM/lowerMUL-newload.ll
28 ↗	(On Diff #180459)	This just looks like we're missing something for the ARMISD::VMULL lowering
test/CodeGen/X86/avx512-any_extend_load.ll
53 ↗	(On Diff #180459)	Simplifying to ANY_EXTEND prevents PACKSS/PACKUS from working
test/CodeGen/X86/combine-sra.ll
252 ↗	(On Diff #180459)	We'd been relying on the v4i64 ashr expansion
test/CodeGen/X86/vector-blend.ll
956 ↗	(On Diff #180459)	Haven't worked out the problem here yet
test/CodeGen/X86/vector-trunc-widen.ll
77 ↗	(On Diff #180459)	We'd been relying on the v8i64 ashr expansion

easyaspi314 added a subscriber: easyaspi314.Jan 7 2019, 8:34 AM

craig.topper added inline comments.Jan 7 2019, 4:33 PM

test/CodeGen/X86/vector-blend.ll
956 ↗	(On Diff #180459)	I think we need to call SimplifyDemandedBits on Conditions of SHRUNKBLEND. We only do it when we convert from VSELECT to SHRUNKBLEND.

craig.topper mentioned this in D56421: [X86] Call SimplifyDemandedBits on conditions of X86ISD::SHRUNKBLEND.Jan 7 2019, 5:00 PM

craig.topper added inline comments.

test/CodeGen/X86/vector-blend.ll
956 ↗	(On Diff #180459)	Patch here D56421

Diffusion mentioned this in rL350875: [X86] Call SimplifyDemandedBits on conditions of X86ISD::SHRUNKBLEND.Jan 10 2019, 11:09 AM

RKSimon updated this revision to Diff 181284.Jan 11 2019, 8:28 AM

rebase after D56421

huihuiz added a subscriber: huihuiz.Jan 23 2019, 11:59 AM

huihuiz added inline comments.

test/CodeGen/ARM/lowerMUL-newload.ll
28 ↗	(On Diff #180459)	Using "CHECK-NEXT" and matching with the exact register names will make this test cast very sensitive to scheduling and register allocation changes. Use pattern matching should be a better approach.

RKSimon added inline comments.Jan 23 2019, 1:20 PM

test/CodeGen/ARM/lowerMUL-newload.ll
28 ↗	(On Diff #180459)	But it stops people missing/hiding codegen changes that need to be kept an eye on, including register allocation changes. This argument has been going on for years now, and we've tended to see that the benefits of update_llc_test_checks.py outweighs any difficulties. More importantly, do you have any insights as to how to improve ARMISD::VMULL lowering?

rebase - still showing a number of regressions that are proving tricky to fix

Herald added a project: Restricted Project. · View Herald TranscriptApr 22 2019, 7:29 AM

rebase

rebase + vector support for truncate(srl(x,c)) case

rebase - most of the remaining x86 issues should be fixed by D66004

RKSimon mentioned this in rG34769e078358: SimplifyDemandedBits - Remove duplicate getOperand() call. NFC..Dec 28 2019, 8:44 AM

rebase

Herald added a subscriber: hiraditya. · View Herald TranscriptDec 29 2019, 12:36 AM

rebase

Herald added a subscriber: kerbowa. · View Herald TranscriptMar 21 2020, 7:09 AM

Harbormaster completed remote builds in B49997: Diff 251843.Mar 21 2020, 8:01 AM

RKSimon mentioned this in rGc6e5531f9b56: [X86][AVX] Combine shuffles to TRUNCATE/VTRUNC patterns.Mar 25 2020, 10:48 AM

RKSimon added a reviewer: huihuiz.May 5 2020, 6:47 AM

Add support for ANY_EXTEND ops to ARM's LowerMUL.

This fixes the main MULL regression but I'm not sure how to fix the ADDW regression which seems to be a purely isel pattern - @t.p.northover @efriedma @huihuiz any thoughts?

Harbormaster failed remote builds in B55787: Diff 262099!May 5 2020, 7:31 AM

RKSimon mentioned this in D81791: [X86][SSE] Add SimplifyDemandedVectorEltsForTargetShuffle to handle target shuffle variable masks..Jun 20 2020, 11:34 AM

RKSimon planned changes to this revision.Jul 4 2020, 1:23 AM

Herald added a subscriber: ecnelises. · View Herald TranscriptJul 4 2020, 1:23 AM

The pattern in question comes out of https://github.com/llvm/llvm-project/blob/0fa0cf8638b0777a1a44feebf78a63865e48ecf6/llvm/lib/Target/ARM/ARMInstrNEON.td#L3100 , and it traces out to https://github.com/llvm/llvm-project/blob/0fa0cf8638b0777a1a44feebf78a63865e48ecf6/llvm/lib/Target/ARM/ARMInstrNEON.td#L4216 .

Probably we want to do what the Hexagon backend does: def asext: PatFrags<(ops node:$Rs), [(sext node:$Rs), (anyext node:$Rs)]>;.

rebase

Herald added a subscriber: dmgreen. · View Herald TranscriptSep 8 2020, 6:20 AM

Harbormaster completed remote builds in B70930: Diff 290467.Sep 8 2020, 6:51 AM

rebase - avg.ll regressions now fixed

RKSimon planned changes to this revision.Sep 15 2020, 10:41 AM

lebedev.ri added a subscriber: lebedev.ri.Sep 15 2020, 10:52 AM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/combine-sra.ll
248–249	Appears to be a regression
llvm/test/CodeGen/X86/vector-trunc.ll
71–72	Appears to be a regression
388–399	I'm not very sure it's an improvement

note: this is still a wip

RKSimon retitled this revision from [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE to [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE (WIP).Sep 15 2020, 11:00 AM

Harbormaster completed remote builds in B71762: Diff 291969.Sep 15 2020, 11:19 AM

RKSimon added a reviewer: dmgreen.Dec 27 2020, 10:47 AM

Herald added a subscriber: pengfei. · View Herald TranscriptDec 27 2020, 10:47 AM

yubing added a subscriber: yubing.Dec 27 2020, 5:49 PM

RKSimon mentioned this in D93835: [ARM] Handle any extend whilst lowering addw/addl/subw/subl.Dec 28 2020, 1:15 AM

arsenm added inline comments.Jan 4 2021, 11:28 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
8693–8695 ↗	(On Diff #291969)	return getOpcode() == ANY_EXTEND but I'm guessing this is just a placeholder function anyway

rebase (still WIP though)

RKSimon planned changes to this revision.Jan 6 2021, 5:41 AM

Harbormaster completed remote builds in B84194: Diff 314868.Jan 6 2021, 6:14 AM

foad added a subscriber: foad.Jan 7 2021, 3:27 AM

RKSimon mentioned this in rG4214ca96145c: [X86][AVX] Attempt to fold vpermf128(op(x,i),op(y,i)) -> op(vpermf128(x,y),i).Jan 11 2021, 9:09 AM

RKSimon added inline comments.Jan 18 2021, 9:07 AM

llvm/test/CodeGen/AArch64/lowerMUL-newload.ll
362	@dmgreen What do you think is the best way to extend D93833 to handle multiply-add/sub as well? Handle in DAG or refactor the isel patterns to accept sanyext/zanyext (I didn't get very far with my initial attempt with this approach as a lot of the patfrags were hardcodded)?

@dmgreen I've added ANY_EXTEND matching in isSignExtended to give you an indication of effect on codegen

I only looked at the ARM equivalent. From what I remember, the sequence of events was something like:

One of the two operands to the mul was converted from a sext to an anyext. The other was not due to having multiple uses.
That anyext was folded into a load to produce a zextload (we don't produce a vector anyext load)
We couldn't match anything due one operand being a sext and the other being a zextload.

So in that case we would either need to use demanded bits know the top bits are not needed when converting it to a mull, create an anyextload instead of a zextload or handle multiple uses so both inputs turn into anyext or zextloads.

I'm happy for the isSignExtended change, as far as I understand that should be fine. The ARM side may be harder to fix, and as the test seems to only added for correctness - it doesn't seem like something that should hold up this patch. We should have fixed the majority of cases and if more come up we can tackle them as needed. I would be happy with this patch so long as the X86 changes are OK.

Harbormaster completed remote builds in B85613: Diff 317383.Jan 18 2021, 10:34 AM

RKSimon mentioned this in rG5626adcd6bba: [X86][SSE] combineVectorSignBitsTruncation - fold trunc(srl(x,c)) -> packss(sra….Jan 19 2021, 3:05 AM

rebase - if we're happy with the AARCH64/ARM changes - any more comments?

xbolva00 added a subscriber: xbolva00.Jan 19 2021, 3:54 AM

xbolva00 added inline comments.

llvm/test/CodeGen/X86/combine-sra.ll
248–249	@RKSimon

Harbormaster completed remote builds in B85690: Diff 317511.Jan 19 2021, 4:11 AM

RKSimon added inline comments.Jan 19 2021, 7:38 AM

llvm/test/CodeGen/X86/combine-sra.ll
248–249	Looking at this now - the set of combines that was necessary to get to the old codegen is pretty impressive.....

RKSimon mentioned this in rG19d02842ee56: [X86][AVX] Fold extract_subvector(VSRLI/VSHLI(x,32)) -> VSRLI/VSHLI….Jan 20 2021, 6:35 AM

rebase - the last x86 regression (combine-sra.ll) should now be fixed.

Seems fine to me, thanks.

llvm/test/CodeGen/X86/vector-trunc.ll
388–399	Looks like for pre-SSE41 we still fail to detect high bits as zeros?

RKSimon added inline comments.Jan 20 2021, 7:12 AM

llvm/test/CodeGen/X86/vector-trunc.ll
388–399	pre-SSE41 we don't have packusdw (I've no idea why this wasn't included in SSE2 with the rest of them...) so we have a fallback to continue to use packssdw

Yes, looks good now.

lebedev.ri accepted this revision.Jan 20 2021, 7:22 AM

This revision is now accepted and ready to land.Jan 20 2021, 7:22 AM

xbolva00 accepted this revision.Jan 20 2021, 7:22 AM

This revision was landed with ongoing or failed builds.Jan 20 2021, 7:40 AM

Closed by commit rGcad4275d697c: [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE (authored by RKSimon). · Explain Why

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rGcad4275d697c: [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE.

Harbormaster completed remote builds in B85885: Diff 317867.Jan 20 2021, 8:24 AM

hans added a reverting change: rGa51226057fc3: Revert "[DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE".Jan 20 2021, 11:07 AM

This caused asserts in Chromium. See https://bugs.chromium.org/p/chromium/issues/detail?id=1168629#c2 for a reproducer.

I've reverted in a51226057fc30510ac86b32a36a9769ddbf4c318 in the meantime.

RKSimon mentioned this in rG935bacd3a724: [DAG] SimplifyDemandedBits - correctly adjust truncated shift amount type.Jan 21 2021, 4:39 AM

RKSimon mentioned this in rG0ca81b90d19d: [X86][SSE] Add uitofp(trunc(and(lshr(x,c)))) vector test.

RKSimon added a commit: rG69bc0990a918: [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE….Jan 21 2021, 5:01 AM

RKSimon mentioned this in rG7ad0c573bd4a: [DAG] Fix shift amount limit in SimplifyDemandedBits trunc(shift(x,c)) to….Feb 13 2021, 4:00 AM

Seems it still causes crash https://bugs.llvm.org/show_bug.cgi?id=50609

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

3 lines

TargetLowering.cpp

10 lines

Target/

AArch64/

AArch64ISelLowering.cpp

1 line

test/

CodeGen/

AArch64/

aarch64-smull.ll

36 lines

lowerMUL-newload.ll

22 lines

AMDGPU/

widen-smrd-loads.ll

4 lines

ARM/

lowerMUL-newload.ll

49 lines

Thumb2/

mve-satmul-loops.ll

2 lines

mve-vmulh.ll

8 lines

X86/

combine-sra.ll

2 lines

known-signbits-vector.ll

12 lines

min-legal-vector-width.ll

28 lines

vector-trunc.ll

198 lines

Diff 317874

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 11,946 Lines • ▼ Show 20 Lines	if (VecSrcVT.isVector() && VecSrcVT.getScalarType() == VT &&

unsigned Idx = isLE ? 0 : VecSrcVT.getVectorNumElements() - 1;		unsigned Idx = isLE ? 0 : VecSrcVT.getVectorNumElements() - 1;
return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, VT, VecSrc,		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, VT, VecSrc,
DAG.getVectorIdxConstant(Idx, SL));		DAG.getVectorIdxConstant(Idx, SL));
}		}
}		}

// Simplify the operands using demanded-bits information.		// Simplify the operands using demanded-bits information.
if (!VT.isVector() &&		if (SimplifyDemandedBits(SDValue(N, 0)))
SimplifyDemandedBits(SDValue(N, 0)))
return SDValue(N, 0);		return SDValue(N, 0);

// (trunc adde(X, Y, Carry)) -> (adde trunc(X), trunc(Y), Carry)		// (trunc adde(X, Y, Carry)) -> (adde trunc(X), trunc(Y), Carry)
// (trunc addcarry(X, Y, Carry)) -> (addcarry trunc(X), trunc(Y), Carry)		// (trunc addcarry(X, Y, Carry)) -> (addcarry trunc(X), trunc(Y), Carry)
// When the adde's carry is not used.		// When the adde's carry is not used.
if ((N0.getOpcode() == ISD::ADDE \|\| N0.getOpcode() == ISD::ADDCARRY) &&		if ((N0.getOpcode() == ISD::ADDE \|\| N0.getOpcode() == ISD::ADDCARRY) &&
N0.hasOneUse() && !N0.getNode()->hasAnyUseOfValue(1) &&		N0.hasOneUse() && !N0.getNode()->hasAnyUseOfValue(1) &&
// We only do for addcarry before legalize operation		// We only do for addcarry before legalize operation
▲ Show 20 Lines • Show All 10,793 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 1,980 Lines • ▼ Show 20 Lines
	}			}
	case ISD::TRUNCATE: {			case ISD::TRUNCATE: {
	SDValue Src = Op.getOperand(0);			SDValue Src = Op.getOperand(0);

	// Simplify the input, using demanded bit information, and compute the known			// Simplify the input, using demanded bit information, and compute the known
	// zero/one bits live out.			// zero/one bits live out.
	unsigned OperandBitWidth = Src.getScalarValueSizeInBits();			unsigned OperandBitWidth = Src.getScalarValueSizeInBits();
	APInt TruncMask = DemandedBits.zext(OperandBitWidth);			APInt TruncMask = DemandedBits.zext(OperandBitWidth);
	if (SimplifyDemandedBits(Src, TruncMask, Known, TLO, Depth + 1))			if (SimplifyDemandedBits(Src, TruncMask, DemandedElts, Known, TLO,
				Depth + 1))
	return true;			return true;
	Known = Known.trunc(BitWidth);			Known = Known.trunc(BitWidth);

	// Attempt to avoid multi-use ops if we don't need anything from them.			// Attempt to avoid multi-use ops if we don't need anything from them.
	if (SDValue NewSrc = SimplifyMultipleUseDemandedBits(			if (SDValue NewSrc = SimplifyMultipleUseDemandedBits(
	Src, TruncMask, DemandedElts, TLO.DAG, Depth + 1))			Src, TruncMask, DemandedElts, TLO.DAG, Depth + 1))
	return TLO.CombineTo(Op, TLO.DAG.getNode(ISD::TRUNCATE, dl, VT, NewSrc));			return TLO.CombineTo(Op, TLO.DAG.getNode(ISD::TRUNCATE, dl, VT, NewSrc));

	// If the input is only used by this truncate, see if we can shrink it based			// If the input is only used by this truncate, see if we can shrink it based
	// on the known demanded bits.			// on the known demanded bits.
	if (Src.getNode()->hasOneUse()) {			if (Src.getNode()->hasOneUse()) {
	switch (Src.getOpcode()) {			switch (Src.getOpcode()) {
	default:			default:
	break;			break;
	case ISD::SRL:			case ISD::SRL:
	// Shrink SRL by a constant if none of the high bits shifted in are			// Shrink SRL by a constant if none of the high bits shifted in are
	// demanded.			// demanded.
	if (TLO.LegalTypes() && !isTypeDesirableForOp(ISD::SRL, VT))			if (TLO.LegalTypes() && !isTypeDesirableForOp(ISD::SRL, VT))
	// Do not turn (vt1 truncate (vt2 srl)) into (vt1 srl) if vt1 is			// Do not turn (vt1 truncate (vt2 srl)) into (vt1 srl) if vt1 is
	// undesirable.			// undesirable.
	break;			break;

	SDValue ShAmt = Src.getOperand(1);			const APInt *ShAmtC =
	auto *ShAmtC = dyn_cast<ConstantSDNode>(ShAmt);			TLO.DAG.getValidShiftAmountConstant(Src, DemandedElts);
	if (!ShAmtC \|\| ShAmtC->getAPIntValue().uge(BitWidth))			if (!ShAmtC)
	break;			break;
	uint64_t ShVal = ShAmtC->getZExtValue();			uint64_t ShVal = ShAmtC->getZExtValue();

	APInt HighBits =			APInt HighBits =
	APInt::getHighBitsSet(OperandBitWidth, OperandBitWidth - BitWidth);			APInt::getHighBitsSet(OperandBitWidth, OperandBitWidth - BitWidth);
	HighBits.lshrInPlace(ShVal);			HighBits.lshrInPlace(ShVal);
	HighBits = HighBits.trunc(BitWidth);			HighBits = HighBits.trunc(BitWidth);

	if (!(HighBits & DemandedBits)) {			if (!(HighBits & DemandedBits)) {
	// None of the shifted in bits are needed. Add a truncate of the			// None of the shifted in bits are needed. Add a truncate of the
	// shift input, then shift it.			// shift input, then shift it.
				SDValue ShAmt = Src.getOperand(1);
	if (TLO.LegalTypes())			if (TLO.LegalTypes())
	ShAmt = TLO.DAG.getConstant(ShVal, dl, getShiftAmountTy(VT, DL));			ShAmt = TLO.DAG.getConstant(ShVal, dl, getShiftAmountTy(VT, DL));
	SDValue NewTrunc =			SDValue NewTrunc =
	TLO.DAG.getNode(ISD::TRUNCATE, dl, VT, Src.getOperand(0));			TLO.DAG.getNode(ISD::TRUNCATE, dl, VT, Src.getOperand(0));
	return TLO.CombineTo(			return TLO.CombineTo(
	Op, TLO.DAG.getNode(ISD::SRL, dl, VT, NewTrunc, ShAmt));			Op, TLO.DAG.getNode(ISD::SRL, dl, VT, NewTrunc, ShAmt));
	}			}
	break;			break;
	▲ Show 20 Lines • Show All 6,341 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,393 Lines • ▼ Show 20 Lines	for (unsigned i = 0; i != NumElts; ++i) {
// The values are implicitly truncated so sext vs. zext doesn't matter.		// The values are implicitly truncated so sext vs. zext doesn't matter.
Ops.push_back(DAG.getConstant(CInt.zextOrTrunc(32), dl, MVT::i32));		Ops.push_back(DAG.getConstant(CInt.zextOrTrunc(32), dl, MVT::i32));
}		}
return DAG.getBuildVector(MVT::getVectorVT(TruncVT, NumElts), dl, Ops);		return DAG.getBuildVector(MVT::getVectorVT(TruncVT, NumElts), dl, Ops);
}		}

static bool isSignExtended(SDNode *N, SelectionDAG &DAG) {		static bool isSignExtended(SDNode *N, SelectionDAG &DAG) {
return N->getOpcode() == ISD::SIGN_EXTEND \|\|		return N->getOpcode() == ISD::SIGN_EXTEND \|\|
		N->getOpcode() == ISD::ANY_EXTEND \|\|
isExtendedBUILD_VECTOR(N, DAG, true);		isExtendedBUILD_VECTOR(N, DAG, true);
}		}

static bool isZeroExtended(SDNode *N, SelectionDAG &DAG) {		static bool isZeroExtended(SDNode *N, SelectionDAG &DAG) {
return N->getOpcode() == ISD::ZERO_EXTEND \|\|		return N->getOpcode() == ISD::ZERO_EXTEND \|\|
N->getOpcode() == ISD::ANY_EXTEND \|\|		N->getOpcode() == ISD::ANY_EXTEND \|\|
isExtendedBUILD_VECTOR(N, DAG, false);		isExtendedBUILD_VECTOR(N, DAG, false);
}		}
▲ Show 20 Lines • Show All 13,849 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/aarch64-smull.ll

Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
ret <2 x i64> %tmp5		ret <2 x i64> %tmp5
}		}

define <8 x i16> @amull_v8i8_v8i16(<8 x i8>* %A, <8 x i8>* %B) nounwind {		define <8 x i16> @amull_v8i8_v8i16(<8 x i8>* %A, <8 x i8>* %B) nounwind {
; CHECK-LABEL: amull_v8i8_v8i16:		; CHECK-LABEL: amull_v8i8_v8i16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr d0, [x0]		; CHECK-NEXT: ldr d0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: umull v0.8h, v0.8b, v1.8b		; CHECK-NEXT: smull v0.8h, v0.8b, v1.8b
; CHECK-NEXT: bic v0.8h, #255, lsl #8		; CHECK-NEXT: bic v0.8h, #255, lsl #8
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <8 x i8>, <8 x i8>* %A		%tmp1 = load <8 x i8>, <8 x i8>* %A
%tmp2 = load <8 x i8>, <8 x i8>* %B		%tmp2 = load <8 x i8>, <8 x i8>* %B
%tmp3 = zext <8 x i8> %tmp1 to <8 x i16>		%tmp3 = zext <8 x i8> %tmp1 to <8 x i16>
%tmp4 = zext <8 x i8> %tmp2 to <8 x i16>		%tmp4 = zext <8 x i8> %tmp2 to <8 x i16>
%tmp5 = mul <8 x i16> %tmp3, %tmp4		%tmp5 = mul <8 x i16> %tmp3, %tmp4
%and = and <8 x i16> %tmp5, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%and = and <8 x i16> %tmp5, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
ret <8 x i16> %and		ret <8 x i16> %and
}		}

define <4 x i32> @amull_v4i16_v4i32(<4 x i16>* %A, <4 x i16>* %B) nounwind {		define <4 x i32> @amull_v4i16_v4i32(<4 x i16>* %A, <4 x i16>* %B) nounwind {
; CHECK-LABEL: amull_v4i16_v4i32:		; CHECK-LABEL: amull_v4i16_v4i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr d0, [x0]		; CHECK-NEXT: ldr d0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: umull v0.4s, v0.4h, v1.4h		; CHECK-NEXT: smull v0.4s, v0.4h, v1.4h
; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <4 x i16>, <4 x i16>* %A		%tmp1 = load <4 x i16>, <4 x i16>* %A
%tmp2 = load <4 x i16>, <4 x i16>* %B		%tmp2 = load <4 x i16>, <4 x i16>* %B
%tmp3 = zext <4 x i16> %tmp1 to <4 x i32>		%tmp3 = zext <4 x i16> %tmp1 to <4 x i32>
%tmp4 = zext <4 x i16> %tmp2 to <4 x i32>		%tmp4 = zext <4 x i16> %tmp2 to <4 x i32>
%tmp5 = mul <4 x i32> %tmp3, %tmp4		%tmp5 = mul <4 x i32> %tmp3, %tmp4
%and = and <4 x i32> %tmp5, <i32 65535, i32 65535, i32 65535, i32 65535>		%and = and <4 x i32> %tmp5, <i32 65535, i32 65535, i32 65535, i32 65535>
ret <4 x i32> %and		ret <4 x i32> %and
}		}

define <2 x i64> @amull_v2i32_v2i64(<2 x i32>* %A, <2 x i32>* %B) nounwind {		define <2 x i64> @amull_v2i32_v2i64(<2 x i32>* %A, <2 x i32>* %B) nounwind {
; CHECK-LABEL: amull_v2i32_v2i64:		; CHECK-LABEL: amull_v2i32_v2i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr d0, [x0]		; CHECK-NEXT: ldr d0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: umull v0.2d, v0.2s, v1.2s		; CHECK-NEXT: smull v0.2d, v0.2s, v1.2s
; CHECK-NEXT: movi v1.2d, #0x000000ffffffff		; CHECK-NEXT: movi v1.2d, #0x000000ffffffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <2 x i32>, <2 x i32>* %A		%tmp1 = load <2 x i32>, <2 x i32>* %A
%tmp2 = load <2 x i32>, <2 x i32>* %B		%tmp2 = load <2 x i32>, <2 x i32>* %B
%tmp3 = zext <2 x i32> %tmp1 to <2 x i64>		%tmp3 = zext <2 x i32> %tmp1 to <2 x i64>
%tmp4 = zext <2 x i32> %tmp2 to <2 x i64>		%tmp4 = zext <2 x i32> %tmp2 to <2 x i64>
%tmp5 = mul <2 x i64> %tmp3, %tmp4		%tmp5 = mul <2 x i64> %tmp3, %tmp4
▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
}		}

define <8 x i16> @amlal_v8i8_v8i16(<8 x i16>* %A, <8 x i8>* %B, <8 x i8>* %C) nounwind {		define <8 x i16> @amlal_v8i8_v8i16(<8 x i16>* %A, <8 x i8>* %B, <8 x i8>* %C) nounwind {
; CHECK-LABEL: amlal_v8i8_v8i16:		; CHECK-LABEL: amlal_v8i8_v8i16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr q0, [x0]		; CHECK-NEXT: ldr q0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: ldr d2, [x2]		; CHECK-NEXT: ldr d2, [x2]
; CHECK-NEXT: umlal v0.8h, v1.8b, v2.8b		; CHECK-NEXT: smlal v0.8h, v1.8b, v2.8b
; CHECK-NEXT: bic v0.8h, #255, lsl #8		; CHECK-NEXT: bic v0.8h, #255, lsl #8
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <8 x i16>, <8 x i16>* %A		%tmp1 = load <8 x i16>, <8 x i16>* %A
%tmp2 = load <8 x i8>, <8 x i8>* %B		%tmp2 = load <8 x i8>, <8 x i8>* %B
%tmp3 = load <8 x i8>, <8 x i8>* %C		%tmp3 = load <8 x i8>, <8 x i8>* %C
%tmp4 = zext <8 x i8> %tmp2 to <8 x i16>		%tmp4 = zext <8 x i8> %tmp2 to <8 x i16>
%tmp5 = zext <8 x i8> %tmp3 to <8 x i16>		%tmp5 = zext <8 x i8> %tmp3 to <8 x i16>
%tmp6 = mul <8 x i16> %tmp4, %tmp5		%tmp6 = mul <8 x i16> %tmp4, %tmp5
%tmp7 = add <8 x i16> %tmp1, %tmp6		%tmp7 = add <8 x i16> %tmp1, %tmp6
%and = and <8 x i16> %tmp7, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%and = and <8 x i16> %tmp7, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
ret <8 x i16> %and		ret <8 x i16> %and
}		}

define <4 x i32> @amlal_v4i16_v4i32(<4 x i32>* %A, <4 x i16>* %B, <4 x i16>* %C) nounwind {		define <4 x i32> @amlal_v4i16_v4i32(<4 x i32>* %A, <4 x i16>* %B, <4 x i16>* %C) nounwind {
; CHECK-LABEL: amlal_v4i16_v4i32:		; CHECK-LABEL: amlal_v4i16_v4i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr q0, [x0]		; CHECK-NEXT: ldr q0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: ldr d2, [x2]		; CHECK-NEXT: ldr d2, [x2]
; CHECK-NEXT: umlal v0.4s, v1.4h, v2.4h		; CHECK-NEXT: smlal v0.4s, v1.4h, v2.4h
; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <4 x i32>, <4 x i32>* %A		%tmp1 = load <4 x i32>, <4 x i32>* %A
%tmp2 = load <4 x i16>, <4 x i16>* %B		%tmp2 = load <4 x i16>, <4 x i16>* %B
%tmp3 = load <4 x i16>, <4 x i16>* %C		%tmp3 = load <4 x i16>, <4 x i16>* %C
%tmp4 = zext <4 x i16> %tmp2 to <4 x i32>		%tmp4 = zext <4 x i16> %tmp2 to <4 x i32>
%tmp5 = zext <4 x i16> %tmp3 to <4 x i32>		%tmp5 = zext <4 x i16> %tmp3 to <4 x i32>
%tmp6 = mul <4 x i32> %tmp4, %tmp5		%tmp6 = mul <4 x i32> %tmp4, %tmp5
%tmp7 = add <4 x i32> %tmp1, %tmp6		%tmp7 = add <4 x i32> %tmp1, %tmp6
%and = and <4 x i32> %tmp7, <i32 65535, i32 65535, i32 65535, i32 65535>		%and = and <4 x i32> %tmp7, <i32 65535, i32 65535, i32 65535, i32 65535>
ret <4 x i32> %and		ret <4 x i32> %and
}		}

define <2 x i64> @amlal_v2i32_v2i64(<2 x i64>* %A, <2 x i32>* %B, <2 x i32>* %C) nounwind {		define <2 x i64> @amlal_v2i32_v2i64(<2 x i64>* %A, <2 x i32>* %B, <2 x i32>* %C) nounwind {
; CHECK-LABEL: amlal_v2i32_v2i64:		; CHECK-LABEL: amlal_v2i32_v2i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr q0, [x0]		; CHECK-NEXT: ldr q0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: ldr d2, [x2]		; CHECK-NEXT: ldr d2, [x2]
; CHECK-NEXT: umlal v0.2d, v1.2s, v2.2s		; CHECK-NEXT: smlal v0.2d, v1.2s, v2.2s
; CHECK-NEXT: movi v1.2d, #0x000000ffffffff		; CHECK-NEXT: movi v1.2d, #0x000000ffffffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <2 x i64>, <2 x i64>* %A		%tmp1 = load <2 x i64>, <2 x i64>* %A
%tmp2 = load <2 x i32>, <2 x i32>* %B		%tmp2 = load <2 x i32>, <2 x i32>* %B
%tmp3 = load <2 x i32>, <2 x i32>* %C		%tmp3 = load <2 x i32>, <2 x i32>* %C
%tmp4 = zext <2 x i32> %tmp2 to <2 x i64>		%tmp4 = zext <2 x i32> %tmp2 to <2 x i64>
%tmp5 = zext <2 x i32> %tmp3 to <2 x i64>		%tmp5 = zext <2 x i32> %tmp3 to <2 x i64>
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
}		}

define <8 x i16> @amlsl_v8i8_v8i16(<8 x i16>* %A, <8 x i8>* %B, <8 x i8>* %C) nounwind {		define <8 x i16> @amlsl_v8i8_v8i16(<8 x i16>* %A, <8 x i8>* %B, <8 x i8>* %C) nounwind {
; CHECK-LABEL: amlsl_v8i8_v8i16:		; CHECK-LABEL: amlsl_v8i8_v8i16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr q0, [x0]		; CHECK-NEXT: ldr q0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: ldr d2, [x2]		; CHECK-NEXT: ldr d2, [x2]
; CHECK-NEXT: umlsl v0.8h, v1.8b, v2.8b		; CHECK-NEXT: smlsl v0.8h, v1.8b, v2.8b
; CHECK-NEXT: bic v0.8h, #255, lsl #8		; CHECK-NEXT: bic v0.8h, #255, lsl #8
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <8 x i16>, <8 x i16>* %A		%tmp1 = load <8 x i16>, <8 x i16>* %A
%tmp2 = load <8 x i8>, <8 x i8>* %B		%tmp2 = load <8 x i8>, <8 x i8>* %B
%tmp3 = load <8 x i8>, <8 x i8>* %C		%tmp3 = load <8 x i8>, <8 x i8>* %C
%tmp4 = zext <8 x i8> %tmp2 to <8 x i16>		%tmp4 = zext <8 x i8> %tmp2 to <8 x i16>
%tmp5 = zext <8 x i8> %tmp3 to <8 x i16>		%tmp5 = zext <8 x i8> %tmp3 to <8 x i16>
%tmp6 = mul <8 x i16> %tmp4, %tmp5		%tmp6 = mul <8 x i16> %tmp4, %tmp5
%tmp7 = sub <8 x i16> %tmp1, %tmp6		%tmp7 = sub <8 x i16> %tmp1, %tmp6
%and = and <8 x i16> %tmp7, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%and = and <8 x i16> %tmp7, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
ret <8 x i16> %and		ret <8 x i16> %and
}		}

define <4 x i32> @amlsl_v4i16_v4i32(<4 x i32>* %A, <4 x i16>* %B, <4 x i16>* %C) nounwind {		define <4 x i32> @amlsl_v4i16_v4i32(<4 x i32>* %A, <4 x i16>* %B, <4 x i16>* %C) nounwind {
; CHECK-LABEL: amlsl_v4i16_v4i32:		; CHECK-LABEL: amlsl_v4i16_v4i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr q0, [x0]		; CHECK-NEXT: ldr q0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: ldr d2, [x2]		; CHECK-NEXT: ldr d2, [x2]
; CHECK-NEXT: umlsl v0.4s, v1.4h, v2.4h		; CHECK-NEXT: smlsl v0.4s, v1.4h, v2.4h
; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <4 x i32>, <4 x i32>* %A		%tmp1 = load <4 x i32>, <4 x i32>* %A
%tmp2 = load <4 x i16>, <4 x i16>* %B		%tmp2 = load <4 x i16>, <4 x i16>* %B
%tmp3 = load <4 x i16>, <4 x i16>* %C		%tmp3 = load <4 x i16>, <4 x i16>* %C
%tmp4 = zext <4 x i16> %tmp2 to <4 x i32>		%tmp4 = zext <4 x i16> %tmp2 to <4 x i32>
%tmp5 = zext <4 x i16> %tmp3 to <4 x i32>		%tmp5 = zext <4 x i16> %tmp3 to <4 x i32>
%tmp6 = mul <4 x i32> %tmp4, %tmp5		%tmp6 = mul <4 x i32> %tmp4, %tmp5
%tmp7 = sub <4 x i32> %tmp1, %tmp6		%tmp7 = sub <4 x i32> %tmp1, %tmp6
%and = and <4 x i32> %tmp7, <i32 65535, i32 65535, i32 65535, i32 65535>		%and = and <4 x i32> %tmp7, <i32 65535, i32 65535, i32 65535, i32 65535>
ret <4 x i32> %and		ret <4 x i32> %and
}		}

define <2 x i64> @amlsl_v2i32_v2i64(<2 x i64>* %A, <2 x i32>* %B, <2 x i32>* %C) nounwind {		define <2 x i64> @amlsl_v2i32_v2i64(<2 x i64>* %A, <2 x i32>* %B, <2 x i32>* %C) nounwind {
; CHECK-LABEL: amlsl_v2i32_v2i64:		; CHECK-LABEL: amlsl_v2i32_v2i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ldr q0, [x0]		; CHECK-NEXT: ldr q0, [x0]
; CHECK-NEXT: ldr d1, [x1]		; CHECK-NEXT: ldr d1, [x1]
; CHECK-NEXT: ldr d2, [x2]		; CHECK-NEXT: ldr d2, [x2]
; CHECK-NEXT: umlsl v0.2d, v1.2s, v2.2s		; CHECK-NEXT: smlsl v0.2d, v1.2s, v2.2s
; CHECK-NEXT: movi v1.2d, #0x000000ffffffff		; CHECK-NEXT: movi v1.2d, #0x000000ffffffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp1 = load <2 x i64>, <2 x i64>* %A		%tmp1 = load <2 x i64>, <2 x i64>* %A
%tmp2 = load <2 x i32>, <2 x i32>* %B		%tmp2 = load <2 x i32>, <2 x i32>* %B
%tmp3 = load <2 x i32>, <2 x i32>* %C		%tmp3 = load <2 x i32>, <2 x i32>* %C
%tmp4 = zext <2 x i32> %tmp2 to <2 x i64>		%tmp4 = zext <2 x i32> %tmp2 to <2 x i64>
%tmp5 = zext <2 x i32> %tmp3 to <2 x i64>		%tmp5 = zext <2 x i32> %tmp3 to <2 x i64>
▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%tmp4 = mul <2 x i64> %tmp3, <i64 1234, i64 1234>		%tmp4 = mul <2 x i64> %tmp3, <i64 1234, i64 1234>
ret <2 x i64> %tmp4		ret <2 x i64> %tmp4
}		}

define <8 x i16> @amull_extvec_v8i8_v8i16(<8 x i8> %arg) nounwind {		define <8 x i16> @amull_extvec_v8i8_v8i16(<8 x i8> %arg) nounwind {
; CHECK-LABEL: amull_extvec_v8i8_v8i16:		; CHECK-LABEL: amull_extvec_v8i8_v8i16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: movi v1.8b, #12		; CHECK-NEXT: movi v1.8b, #12
; CHECK-NEXT: umull v0.8h, v0.8b, v1.8b		; CHECK-NEXT: smull v0.8h, v0.8b, v1.8b
; CHECK-NEXT: bic v0.8h, #255, lsl #8		; CHECK-NEXT: bic v0.8h, #255, lsl #8
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp3 = zext <8 x i8> %arg to <8 x i16>		%tmp3 = zext <8 x i8> %arg to <8 x i16>
%tmp4 = mul <8 x i16> %tmp3, <i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12>		%tmp4 = mul <8 x i16> %tmp3, <i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12>
%and = and <8 x i16> %tmp4, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%and = and <8 x i16> %tmp4, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
ret <8 x i16> %and		ret <8 x i16> %and
}		}

define <4 x i32> @amull_extvec_v4i16_v4i32(<4 x i16> %arg) nounwind {		define <4 x i32> @amull_extvec_v4i16_v4i32(<4 x i16> %arg) nounwind {
; CHECK-LABEL: amull_extvec_v4i16_v4i32:		; CHECK-LABEL: amull_extvec_v4i16_v4i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: mov w8, #1234		; CHECK-NEXT: mov w8, #1234
; CHECK-NEXT: dup v1.4h, w8		; CHECK-NEXT: dup v1.4h, w8
; CHECK-NEXT: umull v0.4s, v0.4h, v1.4h		; CHECK-NEXT: smull v0.4s, v0.4h, v1.4h
; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp3 = zext <4 x i16> %arg to <4 x i32>		%tmp3 = zext <4 x i16> %arg to <4 x i32>
%tmp4 = mul <4 x i32> %tmp3, <i32 1234, i32 1234, i32 1234, i32 1234>		%tmp4 = mul <4 x i32> %tmp3, <i32 1234, i32 1234, i32 1234, i32 1234>
%and = and <4 x i32> %tmp4, <i32 65535, i32 65535, i32 65535, i32 65535>		%and = and <4 x i32> %tmp4, <i32 65535, i32 65535, i32 65535, i32 65535>
ret <4 x i32> %and		ret <4 x i32> %and
}		}

define <2 x i64> @amull_extvec_v2i32_v2i64(<2 x i32> %arg) nounwind {		define <2 x i64> @amull_extvec_v2i32_v2i64(<2 x i32> %arg) nounwind {
; CHECK-LABEL: amull_extvec_v2i32_v2i64:		; CHECK-LABEL: amull_extvec_v2i32_v2i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: mov w8, #1234		; CHECK-NEXT: mov w8, #1234
; CHECK-NEXT: dup v1.2s, w8		; CHECK-NEXT: dup v1.2s, w8
; CHECK-NEXT: umull v0.2d, v0.2s, v1.2s		; CHECK-NEXT: smull v0.2d, v0.2s, v1.2s
; CHECK-NEXT: movi v1.2d, #0x000000ffffffff		; CHECK-NEXT: movi v1.2d, #0x000000ffffffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%tmp3 = zext <2 x i32> %arg to <2 x i64>		%tmp3 = zext <2 x i32> %arg to <2 x i64>
%tmp4 = mul <2 x i64> %tmp3, <i64 1234, i64 1234>		%tmp4 = mul <2 x i64> %tmp3, <i64 1234, i64 1234>
%and = and <2 x i64> %tmp4, <i64 4294967295, i64 4294967295>		%and = and <2 x i64> %tmp4, <i64 4294967295, i64 4294967295>
ret <2 x i64> %and		ret <2 x i64> %and
}		}
▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%arg2_ext = sext <4 x i32> %arg2 to <4 x i64>		%arg2_ext = sext <4 x i32> %arg2 to <4 x i64>
%mul = mul <4 x i64> %arg1_ext, %arg2_ext		%mul = mul <4 x i64> %arg1_ext, %arg2_ext
ret <4 x i64> %mul		ret <4 x i64> %mul
}		}

define <16 x i16> @amull2_i8(<16 x i8> %arg1, <16 x i8> %arg2) {		define <16 x i16> @amull2_i8(<16 x i8> %arg1, <16 x i8> %arg2) {
; CHECK-LABEL: amull2_i8:		; CHECK-LABEL: amull2_i8:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: umull v2.8h, v0.8b, v1.8b		; CHECK-NEXT: smull v2.8h, v0.8b, v1.8b
; CHECK-NEXT: umull2 v1.8h, v0.16b, v1.16b		; CHECK-NEXT: smull2 v1.8h, v0.16b, v1.16b
; CHECK-NEXT: bic v2.8h, #255, lsl #8		; CHECK-NEXT: bic v2.8h, #255, lsl #8
; CHECK-NEXT: bic v1.8h, #255, lsl #8		; CHECK-NEXT: bic v1.8h, #255, lsl #8
; CHECK-NEXT: mov v0.16b, v2.16b		; CHECK-NEXT: mov v0.16b, v2.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%arg1_ext = zext <16 x i8> %arg1 to <16 x i16>		%arg1_ext = zext <16 x i8> %arg1 to <16 x i16>
%arg2_ext = zext <16 x i8> %arg2 to <16 x i16>		%arg2_ext = zext <16 x i8> %arg2 to <16 x i16>
%mul = mul <16 x i16> %arg1_ext, %arg2_ext		%mul = mul <16 x i16> %arg1_ext, %arg2_ext
%and = and <16 x i16> %mul, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%and = and <16 x i16> %mul, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
ret <16 x i16> %and		ret <16 x i16> %and
}		}

define <8 x i32> @amull2_i16(<8 x i16> %arg1, <8 x i16> %arg2) {		define <8 x i32> @amull2_i16(<8 x i16> %arg1, <8 x i16> %arg2) {
; CHECK-LABEL: amull2_i16:		; CHECK-LABEL: amull2_i16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: umull v2.4s, v0.4h, v1.4h		; CHECK-NEXT: smull v2.4s, v0.4h, v1.4h
; CHECK-NEXT: umull2 v0.4s, v0.8h, v1.8h		; CHECK-NEXT: smull2 v0.4s, v0.8h, v1.8h
; CHECK-NEXT: movi v3.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v3.2d, #0x00ffff0000ffff
; CHECK-NEXT: and v1.16b, v0.16b, v3.16b		; CHECK-NEXT: and v1.16b, v0.16b, v3.16b
; CHECK-NEXT: and v0.16b, v2.16b, v3.16b		; CHECK-NEXT: and v0.16b, v2.16b, v3.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%arg1_ext = zext <8 x i16> %arg1 to <8 x i32>		%arg1_ext = zext <8 x i16> %arg1 to <8 x i32>
%arg2_ext = zext <8 x i16> %arg2 to <8 x i32>		%arg2_ext = zext <8 x i16> %arg2 to <8 x i32>
%mul = mul <8 x i32> %arg1_ext, %arg2_ext		%mul = mul <8 x i32> %arg1_ext, %arg2_ext
%and = and <8 x i32> %mul, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%and = and <8 x i32> %mul, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
ret <8 x i32> %and		ret <8 x i32> %and
}		}

define <4 x i64> @amull2_i32(<4 x i32> %arg1, <4 x i32> %arg2) {		define <4 x i64> @amull2_i32(<4 x i32> %arg1, <4 x i32> %arg2) {
; CHECK-LABEL: amull2_i32:		; CHECK-LABEL: amull2_i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: umull v2.2d, v0.2s, v1.2s		; CHECK-NEXT: smull v2.2d, v0.2s, v1.2s
; CHECK-NEXT: umull2 v0.2d, v0.4s, v1.4s		; CHECK-NEXT: smull2 v0.2d, v0.4s, v1.4s
; CHECK-NEXT: movi v3.2d, #0x000000ffffffff		; CHECK-NEXT: movi v3.2d, #0x000000ffffffff
; CHECK-NEXT: and v1.16b, v0.16b, v3.16b		; CHECK-NEXT: and v1.16b, v0.16b, v3.16b
; CHECK-NEXT: and v0.16b, v2.16b, v3.16b		; CHECK-NEXT: and v0.16b, v2.16b, v3.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%arg1_ext = zext <4 x i32> %arg1 to <4 x i64>		%arg1_ext = zext <4 x i32> %arg1 to <4 x i64>
%arg2_ext = zext <4 x i32> %arg2 to <4 x i64>		%arg2_ext = zext <4 x i32> %arg2 to <4 x i64>
%mul = mul <4 x i64> %arg1_ext, %arg2_ext		%mul = mul <4 x i64> %arg1_ext, %arg2_ext
%and = and <4 x i64> %mul, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%and = and <4 x i64> %mul, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
ret <4 x i64> %and		ret <4 x i64> %and
}		}

llvm/test/CodeGen/AArch64/lowerMUL-newload.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=aarch64-none-eabi \| FileCheck %s		; RUN: llc < %s -mtriple=aarch64-none-eabi \| FileCheck %s

define <4 x i16> @mlai16_trunc(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {		define <4 x i16> @mlai16_trunc(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {
; CHECK-LABEL: mlai16_trunc:		; CHECK-LABEL: mlai16_trunc:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: smull v0.4s, v1.4h, v0.4h		; CHECK-NEXT: smull v0.4s, v1.4h, v0.4h
; CHECK-NEXT: saddw v0.4s, v0.4s, v2.4h		; CHECK-NEXT: uaddw v0.4s, v0.4s, v2.4h
; CHECK-NEXT: xtn v0.4h, v0.4s		; CHECK-NEXT: xtn v0.4h, v0.4s
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
%v1 = sext <4 x i16> %vec1 to <4 x i32>		%v1 = sext <4 x i16> %vec1 to <4 x i32>
%v2 = sext <4 x i16> %vec2 to <4 x i32>		%v2 = sext <4 x i16> %vec2 to <4 x i32>
%v3 = mul <4 x i32> %v1, %v0		%v3 = mul <4 x i32> %v1, %v0
%v4 = add <4 x i32> %v3, %v2		%v4 = add <4 x i32> %v3, %v2
%v5 = trunc <4 x i32> %v4 to <4 x i16>		%v5 = trunc <4 x i32> %v4 to <4 x i16>
ret <4 x i16> %v5		ret <4 x i16> %v5
}		}

define <4 x i32> @mlai16_and(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {		define <4 x i32> @mlai16_and(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {
; CHECK-LABEL: mlai16_and:		; CHECK-LABEL: mlai16_and:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: umull v0.4s, v1.4h, v0.4h		; CHECK-NEXT: smull v0.4s, v1.4h, v0.4h
; CHECK-NEXT: uaddw v0.4s, v0.4s, v2.4h		; CHECK-NEXT: uaddw v0.4s, v0.4s, v2.4h
; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v1.2d, #0x00ffff0000ffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
%v1 = sext <4 x i16> %vec1 to <4 x i32>		%v1 = sext <4 x i16> %vec1 to <4 x i32>
%v2 = sext <4 x i16> %vec2 to <4 x i32>		%v2 = sext <4 x i16> %vec2 to <4 x i32>
%v3 = mul <4 x i32> %v1, %v0		%v3 = mul <4 x i32> %v1, %v0
%v4 = add <4 x i32> %v3, %v2		%v4 = add <4 x i32> %v3, %v2
%v5 = and <4 x i32> %v4, <i32 65535, i32 65535, i32 65535, i32 65535>		%v5 = and <4 x i32> %v4, <i32 65535, i32 65535, i32 65535, i32 65535>
ret <4 x i32> %v5		ret <4 x i32> %v5
}		}

define void @mlai16_loadstore(i16* %a, i16* %b, i16* %c) {		define void @mlai16_loadstore(i16* %a, i16* %b, i16* %c) {
; CHECK-LABEL: mlai16_loadstore:		; CHECK-LABEL: mlai16_loadstore:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: ldr d0, [x0, #16]		; CHECK-NEXT: ldr d0, [x0, #16]
; CHECK-NEXT: ldr d1, [x1, #16]		; CHECK-NEXT: ldr d1, [x1, #16]
; CHECK-NEXT: ldr d2, [x2, #16]		; CHECK-NEXT: ldr d2, [x2, #16]
; CHECK-NEXT: smull v0.4s, v1.4h, v0.4h		; CHECK-NEXT: smull v0.4s, v1.4h, v0.4h
; CHECK-NEXT: saddw v0.4s, v0.4s, v2.4h		; CHECK-NEXT: uaddw v0.4s, v0.4s, v2.4h
; CHECK-NEXT: xtn v0.4h, v0.4s		; CHECK-NEXT: xtn v0.4h, v0.4s
; CHECK-NEXT: str d0, [x0, #16]		; CHECK-NEXT: str d0, [x0, #16]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%scevgep0 = getelementptr i16, i16* %a, i32 8		%scevgep0 = getelementptr i16, i16* %a, i32 8
%vector_ptr0 = bitcast i16* %scevgep0 to <4 x i16>*		%vector_ptr0 = bitcast i16* %scevgep0 to <4 x i16>*
%vec0 = load <4 x i16>, <4 x i16>* %vector_ptr0, align 8		%vec0 = load <4 x i16>, <4 x i16>* %vector_ptr0, align 8
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
Show All 29 Lines	entry:
%v4 = mul <4 x i32> %v3, %v2		%v4 = mul <4 x i32> %v3, %v2
%v5 = trunc <4 x i32> %v4 to <4 x i16>		%v5 = trunc <4 x i32> %v4 to <4 x i16>
ret <4 x i16> %v5		ret <4 x i16> %v5
}		}

define <4 x i32> @addmuli16_and(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {		define <4 x i32> @addmuli16_and(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {
; CHECK-LABEL: addmuli16_and:		; CHECK-LABEL: addmuli16_and:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: umull v1.4s, v1.4h, v2.4h		; CHECK-NEXT: smull v1.4s, v1.4h, v2.4h
; CHECK-NEXT: umlal v1.4s, v0.4h, v2.4h		; CHECK-NEXT: smlal v1.4s, v0.4h, v2.4h
; CHECK-NEXT: movi v0.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v0.2d, #0x00ffff0000ffff
; CHECK-NEXT: and v0.16b, v1.16b, v0.16b		; CHECK-NEXT: and v0.16b, v1.16b, v0.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
%v1 = sext <4 x i16> %vec1 to <4 x i32>		%v1 = sext <4 x i16> %vec1 to <4 x i32>
%v2 = sext <4 x i16> %vec2 to <4 x i32>		%v2 = sext <4 x i16> %vec2 to <4 x i32>
%v3 = add <4 x i32> %v1, %v0		%v3 = add <4 x i32> %v1, %v0
Show All 34 Lines	entry:
store <4 x i16> %v5, <4 x i16>* %vector_ptr3, align 8		store <4 x i16> %v5, <4 x i16>* %vector_ptr3, align 8
ret void		ret void
}		}

define <2 x i32> @mlai32_trunc(<2 x i32> %vec0, <2 x i32> %vec1, <2 x i32> %vec2) {		define <2 x i32> @mlai32_trunc(<2 x i32> %vec0, <2 x i32> %vec1, <2 x i32> %vec2) {
; CHECK-LABEL: mlai32_trunc:		; CHECK-LABEL: mlai32_trunc:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: smull v0.2d, v1.2s, v0.2s		; CHECK-NEXT: smull v0.2d, v1.2s, v0.2s
; CHECK-NEXT: saddw v0.2d, v0.2d, v2.2s		; CHECK-NEXT: uaddw v0.2d, v0.2d, v2.2s
; CHECK-NEXT: xtn v0.2s, v0.2d		; CHECK-NEXT: xtn v0.2s, v0.2d
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%v0 = sext <2 x i32> %vec0 to <2 x i64>		%v0 = sext <2 x i32> %vec0 to <2 x i64>
%v1 = sext <2 x i32> %vec1 to <2 x i64>		%v1 = sext <2 x i32> %vec1 to <2 x i64>
%v2 = sext <2 x i32> %vec2 to <2 x i64>		%v2 = sext <2 x i32> %vec2 to <2 x i64>
%v3 = mul <2 x i64> %v1, %v0		%v3 = mul <2 x i64> %v1, %v0
%v4 = add <2 x i64> %v3, %v2		%v4 = add <2 x i64> %v3, %v2
%v5 = trunc <2 x i64> %v4 to <2 x i32>		%v5 = trunc <2 x i64> %v4 to <2 x i32>
ret <2 x i32> %v5		ret <2 x i32> %v5
}		}

define <2 x i64> @mlai32_and(<2 x i32> %vec0, <2 x i32> %vec1, <2 x i32> %vec2) {		define <2 x i64> @mlai32_and(<2 x i32> %vec0, <2 x i32> %vec1, <2 x i32> %vec2) {
; CHECK-LABEL: mlai32_and:		; CHECK-LABEL: mlai32_and:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: umull v0.2d, v1.2s, v0.2s		; CHECK-NEXT: smull v0.2d, v1.2s, v0.2s
; CHECK-NEXT: uaddw v0.2d, v0.2d, v2.2s		; CHECK-NEXT: uaddw v0.2d, v0.2d, v2.2s
; CHECK-NEXT: movi v1.2d, #0x000000ffffffff		; CHECK-NEXT: movi v1.2d, #0x000000ffffffff
; CHECK-NEXT: and v0.16b, v0.16b, v1.16b		; CHECK-NEXT: and v0.16b, v0.16b, v1.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%v0 = sext <2 x i32> %vec0 to <2 x i64>		%v0 = sext <2 x i32> %vec0 to <2 x i64>
%v1 = sext <2 x i32> %vec1 to <2 x i64>		%v1 = sext <2 x i32> %vec1 to <2 x i64>
%v2 = sext <2 x i32> %vec2 to <2 x i64>		%v2 = sext <2 x i32> %vec2 to <2 x i64>
%v3 = mul <2 x i64> %v1, %v0		%v3 = mul <2 x i64> %v1, %v0
%v4 = add <2 x i64> %v3, %v2		%v4 = add <2 x i64> %v3, %v2
%v5 = and <2 x i64> %v4, <i64 4294967295, i64 4294967295>		%v5 = and <2 x i64> %v4, <i64 4294967295, i64 4294967295>
ret <2 x i64> %v5		ret <2 x i64> %v5
}		}

define void @mlai32_loadstore(i32* %a, i32* %b, i32* %c) {		define void @mlai32_loadstore(i32* %a, i32* %b, i32* %c) {
; CHECK-LABEL: mlai32_loadstore:		; CHECK-LABEL: mlai32_loadstore:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: ldr d0, [x0, #32]		; CHECK-NEXT: ldr d0, [x0, #32]
; CHECK-NEXT: ldr d1, [x1, #32]		; CHECK-NEXT: ldr d1, [x1, #32]
; CHECK-NEXT: ldr d2, [x2, #32]		; CHECK-NEXT: ldr d2, [x2, #32]
; CHECK-NEXT: smull v0.2d, v1.2s, v0.2s		; CHECK-NEXT: smull v0.2d, v1.2s, v0.2s
; CHECK-NEXT: saddw v0.2d, v0.2d, v2.2s		; CHECK-NEXT: uaddw v0.2d, v0.2d, v2.2s
; CHECK-NEXT: xtn v0.2s, v0.2d		; CHECK-NEXT: xtn v0.2s, v0.2d
; CHECK-NEXT: str d0, [x0, #32]		; CHECK-NEXT: str d0, [x0, #32]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%scevgep0 = getelementptr i32, i32* %a, i32 8		%scevgep0 = getelementptr i32, i32* %a, i32 8
%vector_ptr0 = bitcast i32* %scevgep0 to <2 x i32>*		%vector_ptr0 = bitcast i32* %scevgep0 to <2 x i32>*
%vec0 = load <2 x i32>, <2 x i32>* %vector_ptr0, align 8		%vec0 = load <2 x i32>, <2 x i32>* %vector_ptr0, align 8
%v0 = sext <2 x i32> %vec0 to <2 x i64>		%v0 = sext <2 x i32> %vec0 to <2 x i64>
Show All 29 Lines	entry:
%v4 = mul <2 x i64> %v3, %v2		%v4 = mul <2 x i64> %v3, %v2
%v5 = trunc <2 x i64> %v4 to <2 x i32>		%v5 = trunc <2 x i64> %v4 to <2 x i32>
ret <2 x i32> %v5		ret <2 x i32> %v5
}		}

define <2 x i64> @addmuli32_and(<2 x i32> %vec0, <2 x i32> %vec1, <2 x i32> %vec2) {		define <2 x i64> @addmuli32_and(<2 x i32> %vec0, <2 x i32> %vec1, <2 x i32> %vec2) {
; CHECK-LABEL: addmuli32_and:		; CHECK-LABEL: addmuli32_and:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: umull v1.2d, v1.2s, v2.2s		; CHECK-NEXT: smull v1.2d, v1.2s, v2.2s
; CHECK-NEXT: umlal v1.2d, v0.2s, v2.2s		; CHECK-NEXT: smlal v1.2d, v0.2s, v2.2s
; CHECK-NEXT: movi v0.2d, #0x000000ffffffff		; CHECK-NEXT: movi v0.2d, #0x000000ffffffff
; CHECK-NEXT: and v0.16b, v1.16b, v0.16b		; CHECK-NEXT: and v0.16b, v1.16b, v0.16b
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%v0 = sext <2 x i32> %vec0 to <2 x i64>		%v0 = sext <2 x i32> %vec0 to <2 x i64>
%v1 = sext <2 x i32> %vec1 to <2 x i64>		%v1 = sext <2 x i32> %vec1 to <2 x i64>
%v2 = sext <2 x i32> %vec2 to <2 x i64>		%v2 = sext <2 x i32> %vec2 to <2 x i64>
%v3 = add <2 x i64> %v1, %v0		%v3 = add <2 x i64> %v1, %v0
▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
; CHECK-NEXT: str d1, [x0, #16]		; CHECK-NEXT: str d1, [x0, #16]
; CHECK-NEXT: ldr d1, [x2, #16]		; CHECK-NEXT: ldr d1, [x2, #16]
; CHECK-NEXT: sshll v1.4s, v1.4h, #0		; CHECK-NEXT: sshll v1.4s, v1.4h, #0
; CHECK-NEXT: mul v0.4s, v1.4s, v0.4s		; CHECK-NEXT: mul v0.4s, v1.4s, v0.4s
; CHECK-NEXT: xtn v1.4h, v0.4s		; CHECK-NEXT: xtn v1.4h, v0.4s
; CHECK-NEXT: str d1, [x1, #16]		; CHECK-NEXT: str d1, [x1, #16]
; CHECK-NEXT: ldr d1, [x2, #16]		; CHECK-NEXT: ldr d1, [x2, #16]
; CHECK-NEXT: smlal v0.4s, v1.4h, v2.4h		; CHECK-NEXT: smlal v0.4s, v1.4h, v2.4h
; CHECK-NEXT: saddw v0.4s, v0.4s, v2.4h		; CHECK-NEXT: uaddw v0.4s, v0.4s, v2.4h
		RKSimonAuthorUnsubmitted Done Reply Inline Actions @dmgreen What do you think is the best way to extend D93833 to handle multiply-add/sub as well? Handle in DAG or refactor the isel patterns to accept sanyext/zanyext (I didn't get very far with my initial attempt with this approach as a lot of the patfrags were hardcodded)? RKSimon: @dmgreen What do you think is the best way to extend D93833 to handle multiply-add/sub as well?
; CHECK-NEXT: xtn v0.4h, v0.4s		; CHECK-NEXT: xtn v0.4h, v0.4s
; CHECK-NEXT: str d0, [x0, #16]		; CHECK-NEXT: str d0, [x0, #16]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
; The test case trying to vectorize the pseudo code below.		; The test case trying to vectorize the pseudo code below.
; a[i] = b[i] + c[i];		; a[i] = b[i] + c[i];
; b[i] = a[i] * c[i];		; b[i] = a[i] * c[i];
; a[i] = b[i] + a[i] * c[i] + a[i];		; a[i] = b[i] + a[i] * c[i] + a[i];
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

	Show First 20 Lines • Show All 234 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dword s0, s[0:1], 0x0			; VI-NEXT: s_load_dword s0, s[0:1], 0x0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_and_b32 s1, s0, 0xffff			; VI-NEXT: s_and_b32 s1, s0, 0xffff
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: s_add_i32 s1, s1, 12			; VI-NEXT: s_add_i32 s1, s1, 12
	; VI-NEXT: v_add_u32_sdwa v0, vcc, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1			; VI-NEXT: v_add_u32_sdwa v0, vcc, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; VI-NEXT: s_or_b32 s0, s1, 4			; VI-NEXT: s_or_b32 s0, s1, 4
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: s_and_b32 s0, s0, 0xff			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_or_b32_e32 v2, s0, v0			; VI-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; VI-NEXT: v_mov_b32_e32 v0, 0			; VI-NEXT: v_mov_b32_e32 v0, 0
	; VI-NEXT: v_mov_b32_e32 v1, 0			; VI-NEXT: v_mov_b32_e32 v1, 0
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%load = load <2 x i8>, <2 x i8> addrspace(4)* %arg, align 4			%load = load <2 x i8>, <2 x i8> addrspace(4)* %arg, align 4
	%add = add <2 x i8> %load, <i8 12, i8 44>			%add = add <2 x i8> %load, <i8 12, i8 44>
	%or = or <2 x i8> %add, <i8 4, i8 3>			%or = or <2 x i8> %add, <i8 4, i8 3>
	store <2 x i8> %or, <2 x i8> addrspace(1)* null			store <2 x i8> %or, <2 x i8> addrspace(1)* null
	▲ Show 20 Lines • Show All 242 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/lowerMUL-newload.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=arm-eabi -mcpu=krait \| FileCheck %s		; RUN: llc < %s -mtriple=arm-eabi -mcpu=krait \| FileCheck %s

define arm_aapcs_vfpcc <4 x i16> @mla_args(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {		define arm_aapcs_vfpcc <4 x i16> @mla_args(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {
; CHECK-LABEL: mla_args:		; CHECK-LABEL: mla_args:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmull.s16 q8, d1, d0		; CHECK-NEXT: vmull.u16 q8, d1, d0
; CHECK-NEXT: vaddw.s16 q8, q8, d2		; CHECK-NEXT: vaddw.u16 q8, q8, d2
; CHECK-NEXT: vmovn.i32 d0, q8		; CHECK-NEXT: vmovn.i32 d0, q8
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
%v1 = sext <4 x i16> %vec1 to <4 x i32>		%v1 = sext <4 x i16> %vec1 to <4 x i32>
%v2 = sext <4 x i16> %vec2 to <4 x i32>		%v2 = sext <4 x i16> %vec2 to <4 x i32>
%v3 = mul <4 x i32> %v1, %v0		%v3 = mul <4 x i32> %v1, %v0
%v4 = add <4 x i32> %v3, %v2		%v4 = add <4 x i32> %v3, %v2
%v5 = trunc <4 x i32> %v4 to <4 x i16>		%v5 = trunc <4 x i32> %v4 to <4 x i16>
ret <4 x i16> %v5		ret <4 x i16> %v5
}		}

define void @mla_loadstore(i16* %a, i16* %b, i16* %c) {		define void @mla_loadstore(i16* %a, i16* %b, i16* %c) {
; CHECK-LABEL: mla_loadstore:		; CHECK-LABEL: mla_loadstore:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldr d16, [r0, #16]		; CHECK-NEXT: vldr d16, [r0, #16]
; CHECK-NEXT: vldr d17, [r1, #16]		; CHECK-NEXT: vldr d17, [r1, #16]
; CHECK-NEXT: vldr d18, [r2, #16]		; CHECK-NEXT: vldr d18, [r2, #16]
; CHECK-NEXT: vmull.s16 q8, d17, d16		; CHECK-NEXT: vmull.u16 q8, d17, d16
; CHECK-NEXT: vaddw.s16 q8, q8, d18		; CHECK-NEXT: vaddw.u16 q8, q8, d18
; CHECK-NEXT: vmovn.i32 d16, q8		; CHECK-NEXT: vmovn.i32 d16, q8
; CHECK-NEXT: vstr d16, [r0, #16]		; CHECK-NEXT: vstr d16, [r0, #16]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%scevgep0 = getelementptr i16, i16* %a, i32 8		%scevgep0 = getelementptr i16, i16* %a, i32 8
%vector_ptr0 = bitcast i16* %scevgep0 to <4 x i16>*		%vector_ptr0 = bitcast i16* %scevgep0 to <4 x i16>*
%vec0 = load <4 x i16>, <4 x i16>* %vector_ptr0, align 8		%vec0 = load <4 x i16>, <4 x i16>* %vector_ptr0, align 8
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
Show All 12 Lines	entry:
%vector_ptr3 = bitcast i16* %scevgep3 to <4 x i16>*		%vector_ptr3 = bitcast i16* %scevgep3 to <4 x i16>*
store <4 x i16> %v5, <4 x i16>* %vector_ptr3, align 8		store <4 x i16> %v5, <4 x i16>* %vector_ptr3, align 8
ret void		ret void
}		}

define arm_aapcs_vfpcc <4 x i16> @addmul_args(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {		define arm_aapcs_vfpcc <4 x i16> @addmul_args(<4 x i16> %vec0, <4 x i16> %vec1, <4 x i16> %vec2) {
; CHECK-LABEL: addmul_args:		; CHECK-LABEL: addmul_args:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmull.s16 q8, d1, d2		; CHECK-NEXT: vmull.u16 q8, d1, d2
; CHECK-NEXT: vmlal.s16 q8, d0, d2		; CHECK-NEXT: vmlal.u16 q8, d0, d2
; CHECK-NEXT: vmovn.i32 d0, q8		; CHECK-NEXT: vmovn.i32 d0, q8
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
%v1 = sext <4 x i16> %vec1 to <4 x i32>		%v1 = sext <4 x i16> %vec1 to <4 x i32>
%v2 = sext <4 x i16> %vec2 to <4 x i32>		%v2 = sext <4 x i16> %vec2 to <4 x i32>
%v3 = add <4 x i32> %v1, %v0		%v3 = add <4 x i32> %v1, %v0
%v4 = mul <4 x i32> %v3, %v2		%v4 = mul <4 x i32> %v3, %v2
%v5 = trunc <4 x i32> %v4 to <4 x i16>		%v5 = trunc <4 x i32> %v4 to <4 x i16>
ret <4 x i16> %v5		ret <4 x i16> %v5
}		}

define void @addmul_loadstore(i16* %a, i16* %b, i16* %c) {		define void @addmul_loadstore(i16* %a, i16* %b, i16* %c) {
; CHECK-LABEL: addmul_loadstore:		; CHECK-LABEL: addmul_loadstore:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldr d16, [r2, #16]		; CHECK-NEXT: vldr d16, [r2, #16]
; CHECK-NEXT: vldr d17, [r1, #16]		; CHECK-NEXT: vldr d17, [r1, #16]
; CHECK-NEXT: vmull.s16 q9, d17, d16		; CHECK-NEXT: vmull.u16 q9, d17, d16
; CHECK-NEXT: vldr d17, [r0, #16]		; CHECK-NEXT: vldr d17, [r0, #16]
; CHECK-NEXT: vmlal.s16 q9, d17, d16		; CHECK-NEXT: vmlal.u16 q9, d17, d16
; CHECK-NEXT: vmovn.i32 d16, q9		; CHECK-NEXT: vmovn.i32 d16, q9
; CHECK-NEXT: vstr d16, [r0, #16]		; CHECK-NEXT: vstr d16, [r0, #16]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%scevgep0 = getelementptr i16, i16* %a, i32 8		%scevgep0 = getelementptr i16, i16* %a, i32 8
%vector_ptr0 = bitcast i16* %scevgep0 to <4 x i16>*		%vector_ptr0 = bitcast i16* %scevgep0 to <4 x i16>*
%vec0 = load <4 x i16>, <4 x i16>* %vector_ptr0, align 8		%vec0 = load <4 x i16>, <4 x i16>* %vector_ptr0, align 8
%v0 = sext <4 x i16> %vec0 to <4 x i32>		%v0 = sext <4 x i16> %vec0 to <4 x i32>
Show All 16 Lines

define void @func1(i16* %a, i16* %b, i16* %c) {		define void @func1(i16* %a, i16* %b, i16* %c) {
; CHECK-LABEL: func1:		; CHECK-LABEL: func1:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: add r3, r1, #16		; CHECK-NEXT: add r3, r1, #16
; CHECK-NEXT: vldr d18, [r2, #16]		; CHECK-NEXT: vldr d18, [r2, #16]
; CHECK-NEXT: vld1.16 {d16}, [r3:64]		; CHECK-NEXT: vld1.16 {d16}, [r3:64]
; CHECK-NEXT: vmovl.u16 q8, d16		; CHECK-NEXT: vmovl.u16 q8, d16
; CHECK-NEXT: vaddw.s16 q10, q8, d18		; CHECK-NEXT: vaddw.u16 q10, q8, d18
; CHECK-NEXT: vmovn.i32 d19, q10		; CHECK-NEXT: vmovn.i32 d19, q10
; CHECK-NEXT: vldr d20, [r0, #16]		; CHECK-NEXT: vldr d20, [r0, #16]
; CHECK-NEXT: vstr d19, [r0, #16]		; CHECK-NEXT: vstr d19, [r0, #16]
; CHECK-NEXT: vldr d19, [r2, #16]		; CHECK-NEXT: vldr d19, [r2, #16]
; CHECK-NEXT: vmull.s16 q11, d18, d19		; CHECK-NEXT: vmull.s16 q11, d18, d19
; CHECK-NEXT: vmovl.s16 q9, d19		; CHECK-NEXT: vmovl.s16 q9, d19
; CHECK-NEXT: vmla.i32 q11, q8, q9		; CHECK-NEXT: vmla.i32 q11, q8, q9
; CHECK-NEXT: vmovn.i32 d16, q11		; CHECK-NEXT: vmovn.i32 d16, q11
; CHECK-NEXT: vstr d16, [r1, #16]		; CHECK-NEXT: vstr d16, [r1, #16]
; CHECK-NEXT: vldr d16, [r2, #16]		; CHECK-NEXT: vldr d16, [r2, #16]
; CHECK-NEXT: vmlal.s16 q11, d16, d20		; CHECK-NEXT: vmlal.u16 q11, d16, d20
; CHECK-NEXT: vmovn.i32 d16, q11		; CHECK-NEXT: vmovn.i32 d16, q11
; CHECK-NEXT: vstr d16, [r0, #16]		; CHECK-NEXT: vstr d16, [r0, #16]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
; The test case trying to vectorize the pseudo code below.		; The test case trying to vectorize the pseudo code below.
; a[i] = b[i] + c[i];		; a[i] = b[i] + c[i];
; b[i] = a[i] * c[i];		; b[i] = a[i] * c[i];
; a[i] = b[i] + a[i] * c[i];		; a[i] = b[i] + a[i] * c[i];
Show All 39 Lines	; lowerMUL for the new created Load SDNode.
%vector_ptr7 = bitcast i16* %scevgep3 to <4 x i16>*		%vector_ptr7 = bitcast i16* %scevgep3 to <4 x i16>*
store <4 x i16> %7, <4 x i16>* %vector_ptr7, align 8		store <4 x i16> %7, <4 x i16>* %vector_ptr7, align 8
ret void		ret void
}		}

define void @func2(i16* %a, i16* %b, i16* %c) {		define void @func2(i16* %a, i16* %b, i16* %c) {
; CHECK-LABEL: func2:		; CHECK-LABEL: func2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: add r3, r1, #16		; CHECK-NEXT: vldr d16, [r1, #16]
		; CHECK-NEXT: add r3, r0, #16
		; CHECK-NEXT: vldr d17, [r2, #16]
		; CHECK-NEXT: vaddl.u16 q9, d17, d16
		; CHECK-NEXT: vmovn.i32 d18, q9
		; CHECK-NEXT: vld1.16 {d19}, [r3:64]
		; CHECK-NEXT: vstr d18, [r0, #16]
; CHECK-NEXT: vldr d18, [r2, #16]		; CHECK-NEXT: vldr d18, [r2, #16]
; CHECK-NEXT: vld1.16 {d16}, [r3:64]		; CHECK-NEXT: vmull.s16 q10, d17, d18
		; CHECK-NEXT: vmovl.s16 q11, d18
; CHECK-NEXT: vmovl.u16 q8, d16		; CHECK-NEXT: vmovl.u16 q8, d16
; CHECK-NEXT: vaddw.s16 q10, q8, d18
; CHECK-NEXT: vmovn.i32 d19, q10
; CHECK-NEXT: vldr d20, [r0, #16]
; CHECK-NEXT: vstr d19, [r0, #16]
; CHECK-NEXT: vldr d19, [r2, #16]
; CHECK-NEXT: vmull.s16 q11, d18, d19
; CHECK-NEXT: vmovl.s16 q9, d19		; CHECK-NEXT: vmovl.s16 q9, d19
; CHECK-NEXT: vmla.i32 q11, q8, q9		; CHECK-NEXT: vmla.i32 q10, q8, q11
; CHECK-NEXT: vmovn.i32 d16, q11		; CHECK-NEXT: vmovn.i32 d16, q10
; CHECK-NEXT: vstr d16, [r1, #16]		; CHECK-NEXT: vstr d16, [r1, #16]
; CHECK-NEXT: vldr d16, [r2, #16]		; CHECK-NEXT: add r1, r2, #16
; CHECK-NEXT: vmlal.s16 q11, d16, d20		; CHECK-NEXT: vld1.16 {d16}, [r1:64]
; CHECK-NEXT: vaddw.s16 q8, q11, d20		; CHECK-NEXT: vmovl.u16 q8, d16
		; CHECK-NEXT: vmla.i32 q10, q8, q9
		; CHECK-NEXT: vadd.i32 q8, q10, q9
; CHECK-NEXT: vmovn.i32 d16, q8		; CHECK-NEXT: vmovn.i32 d16, q8
; CHECK-NEXT: vstr d16, [r0, #16]		; CHECK-NEXT: vstr d16, [r0, #16]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
; The test case trying to vectorize the pseudo code below.		; The test case trying to vectorize the pseudo code below.
; a[i] = b[i] + c[i];		; a[i] = b[i] + c[i];
; b[i] = a[i] * c[i];		; b[i] = a[i] * c[i];
; a[i] = b[i] + a[i] * c[i] + a[i];		; a[i] = b[i] + a[i] * c[i] + a[i];
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-satmul-loops.ll

	Show First 20 Lines • Show All 1,497 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vdup.32 q2, r3			; CHECK-NEXT: vdup.32 q2, r3
	; CHECK-NEXT: adds r3, #4			; CHECK-NEXT: adds r3, #4
	; CHECK-NEXT: vorr q2, q2, q0			; CHECK-NEXT: vorr q2, q2, q0
	; CHECK-NEXT: vptt.u32 cs, q1, q2			; CHECK-NEXT: vptt.u32 cs, q1, q2
	; CHECK-NEXT: vldrht.s32 q2, [r0], #8			; CHECK-NEXT: vldrht.s32 q2, [r0], #8
	; CHECK-NEXT: vldrht.s32 q3, [r1], #8			; CHECK-NEXT: vldrht.s32 q3, [r1], #8
	; CHECK-NEXT: vmul.i32 q2, q3, q2			; CHECK-NEXT: vmul.i32 q2, q3, q2
	; CHECK-NEXT: vqshrnb.s32 q2, q2, #15			; CHECK-NEXT: vqshrnb.s32 q2, q2, #15
	; CHECK-NEXT: vmovlb.s16 q2, q2
	; CHECK-NEXT: vpst			; CHECK-NEXT: vpst
	; CHECK-NEXT: vstrht.32 q2, [r2], #8			; CHECK-NEXT: vstrht.32 q2, [r2], #8
	; CHECK-NEXT: le lr, .LBB8_2			; CHECK-NEXT: le lr, .LBB8_2
	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	; CHECK-NEXT: .p2align 4			; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.4:			; CHECK-NEXT: @ %bb.4:
	; CHECK-NEXT: .LCPI8_0:			; CHECK-NEXT: .LCPI8_0:
	▲ Show 20 Lines • Show All 1,197 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.16 q5[6], r4			; CHECK-NEXT: vmov.16 q5[6], r4
	; CHECK-NEXT: vmov r4, s27			; CHECK-NEXT: vmov r4, s27
	; CHECK-NEXT: vmov.16 q5[7], r4			; CHECK-NEXT: vmov.16 q5[7], r4
	; CHECK-NEXT: vptt.i16 ne, q5, zr			; CHECK-NEXT: vptt.i16 ne, q5, zr
	; CHECK-NEXT: vldrbt.s16 q5, [r0], #8			; CHECK-NEXT: vldrbt.s16 q5, [r0], #8
	; CHECK-NEXT: vldrbt.s16 q6, [r1], #8			; CHECK-NEXT: vldrbt.s16 q6, [r1], #8
	; CHECK-NEXT: vmul.i16 q5, q6, q5			; CHECK-NEXT: vmul.i16 q5, q6, q5
	; CHECK-NEXT: vqshrnb.s16 q5, q5, #7			; CHECK-NEXT: vqshrnb.s16 q5, q5, #7
	; CHECK-NEXT: vmovlb.s8 q5, q5
	; CHECK-NEXT: vpst			; CHECK-NEXT: vpst
	; CHECK-NEXT: vstrbt.16 q5, [r2], #8			; CHECK-NEXT: vstrbt.16 q5, [r2], #8
	; CHECK-NEXT: le lr, .LBB17_2			; CHECK-NEXT: le lr, .LBB17_2
	; CHECK-NEXT: .LBB17_3: @ %for.cond.cleanup			; CHECK-NEXT: .LBB17_3: @ %for.cond.cleanup
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	; CHECK-NEXT: .p2align 4			; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.4:			; CHECK-NEXT: @ %bb.4:
	▲ Show 20 Lines • Show All 840 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vmulh.ll

	Show First 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.u16 r0, q0[2]			; CHECK-NEXT: vmov.u16 r0, q0[2]
	; CHECK-NEXT: vmov.u16 r1, q0[0]			; CHECK-NEXT: vmov.u16 r1, q0[0]
	; CHECK-NEXT: vmov q3[2], q3[0], r1, r0			; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
	; CHECK-NEXT: vmov.u16 r0, q0[3]			; CHECK-NEXT: vmov.u16 r0, q0[3]
	; CHECK-NEXT: vmov.u16 r1, q0[1]			; CHECK-NEXT: vmov.u16 r1, q0[1]
	; CHECK-NEXT: vmov q3[3], q3[1], r1, r0			; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
	; CHECK-NEXT: vmov.u16 r1, q1[4]			; CHECK-NEXT: vmov.u16 r1, q1[4]
	; CHECK-NEXT: vmullb.s16 q2, q3, q2			; CHECK-NEXT: vmullb.s16 q2, q3, q2
	; CHECK-NEXT: vshr.s32 q3, q2, #16			; CHECK-NEXT: vshr.u32 q3, q2, #16
	; CHECK-NEXT: vmov r0, s12			; CHECK-NEXT: vmov r0, s12
	; CHECK-NEXT: vmov.16 q2[0], r0			; CHECK-NEXT: vmov.16 q2[0], r0
	; CHECK-NEXT: vmov r0, s13			; CHECK-NEXT: vmov r0, s13
	; CHECK-NEXT: vmov.16 q2[1], r0			; CHECK-NEXT: vmov.16 q2[1], r0
	; CHECK-NEXT: vmov r0, s14			; CHECK-NEXT: vmov r0, s14
	; CHECK-NEXT: vmov.16 q2[2], r0			; CHECK-NEXT: vmov.16 q2[2], r0
	; CHECK-NEXT: vmov r0, s15			; CHECK-NEXT: vmov r0, s15
	; CHECK-NEXT: vmov.16 q2[3], r0			; CHECK-NEXT: vmov.16 q2[3], r0
	; CHECK-NEXT: vmov.u16 r0, q1[6]			; CHECK-NEXT: vmov.u16 r0, q1[6]
	; CHECK-NEXT: vmov q3[2], q3[0], r1, r0			; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
	; CHECK-NEXT: vmov.u16 r0, q1[7]			; CHECK-NEXT: vmov.u16 r0, q1[7]
	; CHECK-NEXT: vmov.u16 r1, q1[5]			; CHECK-NEXT: vmov.u16 r1, q1[5]
	; CHECK-NEXT: vmov q3[3], q3[1], r1, r0			; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
	; CHECK-NEXT: vmov.u16 r0, q0[6]			; CHECK-NEXT: vmov.u16 r0, q0[6]
	; CHECK-NEXT: vmov.u16 r1, q0[4]			; CHECK-NEXT: vmov.u16 r1, q0[4]
	; CHECK-NEXT: vmov q1[2], q1[0], r1, r0			; CHECK-NEXT: vmov q1[2], q1[0], r1, r0
	; CHECK-NEXT: vmov.u16 r0, q0[7]			; CHECK-NEXT: vmov.u16 r0, q0[7]
	; CHECK-NEXT: vmov.u16 r1, q0[5]			; CHECK-NEXT: vmov.u16 r1, q0[5]
	; CHECK-NEXT: vmov q1[3], q1[1], r1, r0			; CHECK-NEXT: vmov q1[3], q1[1], r1, r0
	; CHECK-NEXT: vmullb.s16 q0, q1, q3			; CHECK-NEXT: vmullb.s16 q0, q1, q3
	; CHECK-NEXT: vshr.s32 q0, q0, #16			; CHECK-NEXT: vshr.u32 q0, q0, #16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q2[4], r0			; CHECK-NEXT: vmov.16 q2[4], r0
	; CHECK-NEXT: vmov r0, s1			; CHECK-NEXT: vmov r0, s1
	; CHECK-NEXT: vmov.16 q2[5], r0			; CHECK-NEXT: vmov.16 q2[5], r0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s2
	; CHECK-NEXT: vmov.16 q2[6], r0			; CHECK-NEXT: vmov.16 q2[6], r0
	; CHECK-NEXT: vmov r0, s3			; CHECK-NEXT: vmov r0, s3
	; CHECK-NEXT: vmov.16 q2[7], r0			; CHECK-NEXT: vmov.16 q2[7], r0
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.16 q3[4], r0			; CHECK-NEXT: vmov.16 q3[4], r0
	; CHECK-NEXT: vmov.u8 r0, q0[5]			; CHECK-NEXT: vmov.u8 r0, q0[5]
	; CHECK-NEXT: vmov.16 q3[5], r0			; CHECK-NEXT: vmov.16 q3[5], r0
	; CHECK-NEXT: vmov.u8 r0, q0[6]			; CHECK-NEXT: vmov.u8 r0, q0[6]
	; CHECK-NEXT: vmov.16 q3[6], r0			; CHECK-NEXT: vmov.16 q3[6], r0
	; CHECK-NEXT: vmov.u8 r0, q0[7]			; CHECK-NEXT: vmov.u8 r0, q0[7]
	; CHECK-NEXT: vmov.16 q3[7], r0			; CHECK-NEXT: vmov.16 q3[7], r0
	; CHECK-NEXT: vmullb.s8 q2, q3, q2			; CHECK-NEXT: vmullb.s8 q2, q3, q2
	; CHECK-NEXT: vshr.s16 q3, q2, #8			; CHECK-NEXT: vshr.u16 q3, q2, #8
	; CHECK-NEXT: vmov.u16 r0, q3[0]			; CHECK-NEXT: vmov.u16 r0, q3[0]
	; CHECK-NEXT: vmov.8 q2[0], r0			; CHECK-NEXT: vmov.8 q2[0], r0
	; CHECK-NEXT: vmov.u16 r0, q3[1]			; CHECK-NEXT: vmov.u16 r0, q3[1]
	; CHECK-NEXT: vmov.8 q2[1], r0			; CHECK-NEXT: vmov.8 q2[1], r0
	; CHECK-NEXT: vmov.u16 r0, q3[2]			; CHECK-NEXT: vmov.u16 r0, q3[2]
	; CHECK-NEXT: vmov.8 q2[2], r0			; CHECK-NEXT: vmov.8 q2[2], r0
	; CHECK-NEXT: vmov.u16 r0, q3[3]			; CHECK-NEXT: vmov.u16 r0, q3[3]
	; CHECK-NEXT: vmov.8 q2[3], r0			; CHECK-NEXT: vmov.8 q2[3], r0
	Show All 33 Lines
	; CHECK-NEXT: vmov.16 q1[4], r0			; CHECK-NEXT: vmov.16 q1[4], r0
	; CHECK-NEXT: vmov.u8 r0, q0[13]			; CHECK-NEXT: vmov.u8 r0, q0[13]
	; CHECK-NEXT: vmov.16 q1[5], r0			; CHECK-NEXT: vmov.16 q1[5], r0
	; CHECK-NEXT: vmov.u8 r0, q0[14]			; CHECK-NEXT: vmov.u8 r0, q0[14]
	; CHECK-NEXT: vmov.16 q1[6], r0			; CHECK-NEXT: vmov.16 q1[6], r0
	; CHECK-NEXT: vmov.u8 r0, q0[15]			; CHECK-NEXT: vmov.u8 r0, q0[15]
	; CHECK-NEXT: vmov.16 q1[7], r0			; CHECK-NEXT: vmov.16 q1[7], r0
	; CHECK-NEXT: vmullb.s8 q0, q1, q3			; CHECK-NEXT: vmullb.s8 q0, q1, q3
	; CHECK-NEXT: vshr.s16 q0, q0, #8			; CHECK-NEXT: vshr.u16 q0, q0, #8
	; CHECK-NEXT: vmov.u16 r0, q0[0]			; CHECK-NEXT: vmov.u16 r0, q0[0]
	; CHECK-NEXT: vmov.8 q2[8], r0			; CHECK-NEXT: vmov.8 q2[8], r0
	; CHECK-NEXT: vmov.u16 r0, q0[1]			; CHECK-NEXT: vmov.u16 r0, q0[1]
	; CHECK-NEXT: vmov.8 q2[9], r0			; CHECK-NEXT: vmov.8 q2[9], r0
	; CHECK-NEXT: vmov.u16 r0, q0[2]			; CHECK-NEXT: vmov.u16 r0, q0[2]
	; CHECK-NEXT: vmov.8 q2[10], r0			; CHECK-NEXT: vmov.8 q2[10], r0
	; CHECK-NEXT: vmov.u16 r0, q0[3]			; CHECK-NEXT: vmov.u16 r0, q0[3]
	; CHECK-NEXT: vmov.8 q2[11], r0			; CHECK-NEXT: vmov.8 q2[11], r0
	▲ Show 20 Lines • Show All 132 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-sra.ll

	Show First 20 Lines • Show All 239 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; SSE-NEXT: movdqa %xmm2, %xmm0			; SSE-NEXT: movdqa %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_ashr:			; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_ashr:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
	; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
				lebedev.riUnsubmitted Not Done Reply Inline Actions Appears to be a regression lebedev.ri: Appears to be a regression
				xbolva00Unsubmitted Not Done Reply Inline Actions @RKSimon xbolva00: @RKSimon
				RKSimonAuthorUnsubmitted Done Reply Inline Actions Looking at this now - the set of combines that was necessary to get to the old codegen is pretty impressive..... RKSimon: Looking at this now - the set of combines that was necessary to get to the old codegen is…
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: combine_vec_ashr_trunc_ashr:			; AVX2-FAST-LABEL: combine_vec_ashr_trunc_ashr:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = <1,3,5,7,u,u,u,u>			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm1 = [1,3,5,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	; AVX2-FAST-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	%1 = ashr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>			%1 = ashr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>
	%2 = trunc <4 x i64> %1 to <4 x i32>			%2 = trunc <4 x i64> %1 to <4 x i32>
	%3 = ashr <4 x i32> %2, <i32 0, i32 1, i32 2, i32 3>			%3 = ashr <4 x i32> %2, <i32 0, i32 1, i32 2, i32 3>
	ret <4 x i32> %3			ret <4 x i32> %3
	▲ Show 20 Lines • Show All 48 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/known-signbits-vector.ll

Show First 20 Lines • Show All 245 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%5 = extractelement <2 x i64> %4, i32 0		%5 = extractelement <2 x i64> %4, i32 0
%6 = sitofp i64 %5 to float		%6 = sitofp i64 %5 to float
ret float %6		ret float %6
}		}

define <4 x double> @signbits_sext_shuffle_sitofp(<4 x i32> %a0, <4 x i64> %a1) nounwind {		define <4 x double> @signbits_sext_shuffle_sitofp(<4 x i32> %a0, <4 x i64> %a1) nounwind {
; X86-LABEL: signbits_sext_shuffle_sitofp:		; X86-LABEL: signbits_sext_shuffle_sitofp:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: vpmovsxdq %xmm0, %xmm1		; X86-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]		; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
; X86-NEXT: vpmovsxdq %xmm0, %xmm0
; X86-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; X86-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; X86-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; X86-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[0,2]		; X86-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[0,2]
; X86-NEXT: vcvtdq2pd %xmm0, %ymm0		; X86-NEXT: vcvtdq2pd %xmm0, %ymm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-AVX1-LABEL: signbits_sext_shuffle_sitofp:		; X64-AVX1-LABEL: signbits_sext_shuffle_sitofp:
; X64-AVX1: # %bb.0:		; X64-AVX1: # %bb.0:
; X64-AVX1-NEXT: vpmovsxdq %xmm0, %xmm1		; X64-AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
; X64-AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]		; X64-AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
; X64-AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
; X64-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; X64-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; X64-AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; X64-AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[0,2]		; X64-AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[0,2]
; X64-AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0		; X64-AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0
; X64-AVX1-NEXT: retq		; X64-AVX1-NEXT: retq
;		;
; X64-AVX2-LABEL: signbits_sext_shuffle_sitofp:		; X64-AVX2-LABEL: signbits_sext_shuffle_sitofp:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpmovsxdq %xmm0, %ymm0		; X64-AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; X64-AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,2,1,0]		; X64-AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,2,1,0]
; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; X64-AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]		; X64-AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X64-AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0		; X64-AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
%1 = sext <4 x i32> %a0 to <4 x i64>		%1 = sext <4 x i32> %a0 to <4 x i64>
%2 = shufflevector <4 x i64> %1, <4 x i64>%a1, <4 x i32> <i32 3, i32 2, i32 1, i32 0>		%2 = shufflevector <4 x i64> %1, <4 x i64>%a1, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
%3 = sitofp <4 x i64> %2 to <4 x double>		%3 = sitofp <4 x i64> %2 to <4 x double>
▲ Show 20 Lines • Show All 514 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/min-legal-vector-width.ll

Show First 20 Lines • Show All 914 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%b = ashr <8 x i64> %a, <i64 48, i64 48, i64 48, i64 48, i64 48, i64 48, i64 48, i64 48>		%b = ashr <8 x i64> %a, <i64 48, i64 48, i64 48, i64 48, i64 48, i64 48, i64 48, i64 48>
%c = trunc <8 x i64> %b to <8 x i32>		%c = trunc <8 x i64> %b to <8 x i32>
ret <8 x i32> %c		ret <8 x i32> %c
}		}

define <16 x i16> @trunc_v16i32_v16i16_sign(<16 x i32>* %x) nounwind "min-legal-vector-width"="256" {		define <16 x i16> @trunc_v16i32_v16i16_sign(<16 x i32>* %x) nounwind "min-legal-vector-width"="256" {
; CHECK-LABEL: trunc_v16i32_v16i16_sign:		; CHECK-LABEL: trunc_v16i32_v16i16_sign:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpsrad $16, 32(%rdi), %ymm0		; CHECK-NEXT: vmovdqa (%rdi), %ymm1
; CHECK-NEXT: vpsrad $16, (%rdi), %ymm1		; CHECK-NEXT: vmovdqa {{.*#+}} ymm0 = [1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31]
; CHECK-NEXT: vpackssdw %ymm0, %ymm1, %ymm0		; CHECK-NEXT: vpermi2w 32(%rdi), %ymm1, %ymm0
; CHECK-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%a = load <16 x i32>, <16 x i32>* %x		%a = load <16 x i32>, <16 x i32>* %x
%b = ashr <16 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>		%b = ashr <16 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
%c = trunc <16 x i32> %b to <16 x i16>		%c = trunc <16 x i32> %b to <16 x i16>
ret <16 x i16> %c		ret <16 x i16> %c
}		}

define <32 x i8> @trunc_v32i16_v32i8_sign(<32 x i16>* %x) nounwind "min-legal-vector-width"="256" {		define <32 x i8> @trunc_v32i16_v32i8_sign(<32 x i16>* %x) nounwind "min-legal-vector-width"="256" {
; CHECK-LABEL: trunc_v32i16_v32i8_sign:		; CHECK-AVX512-LABEL: trunc_v32i16_v32i8_sign:
; CHECK: # %bb.0:		; CHECK-AVX512: # %bb.0:
; CHECK-NEXT: vpsraw $8, 32(%rdi), %ymm0		; CHECK-AVX512-NEXT: vpsrlw $8, 32(%rdi), %ymm0
; CHECK-NEXT: vpsraw $8, (%rdi), %ymm1		; CHECK-AVX512-NEXT: vpsrlw $8, (%rdi), %ymm1
; CHECK-NEXT: vpacksswb %ymm0, %ymm1, %ymm0		; CHECK-AVX512-NEXT: vpackuswb %ymm0, %ymm1, %ymm0
; CHECK-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; CHECK-AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; CHECK-NEXT: retq		; CHECK-AVX512-NEXT: retq
		;
		; CHECK-VBMI-LABEL: trunc_v32i16_v32i8_sign:
		; CHECK-VBMI: # %bb.0:
		; CHECK-VBMI-NEXT: vmovdqa (%rdi), %ymm1
		; CHECK-VBMI-NEXT: vmovdqa {{.*#+}} ymm0 = [1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63]
		; CHECK-VBMI-NEXT: vpermi2b 32(%rdi), %ymm1, %ymm0
		; CHECK-VBMI-NEXT: retq
%a = load <32 x i16>, <32 x i16>* %x		%a = load <32 x i16>, <32 x i16>* %x
%b = ashr <32 x i16> %a, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>		%b = ashr <32 x i16> %a, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%c = trunc <32 x i16> %b to <32 x i8>		%c = trunc <32 x i16> %b to <32 x i8>
ret <32 x i8> %c		ret <32 x i8> %c
}		}

define dso_local void @zext_v16i8_v16i64(<16 x i8> %x, <16 x i64>* %y) nounwind "min-legal-vector-width"="256" {		define dso_local void @zext_v16i8_v16i64(<16 x i8> %x, <16 x i64>* %y) nounwind "min-legal-vector-width"="256" {
; CHECK-LABEL: zext_v16i8_v16i64:		; CHECK-LABEL: zext_v16i8_v16i64:
▲ Show 20 Lines • Show All 865 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc.ll

Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]		; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:		; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:
; AVX2-SLOW: # %bb.0: # %entry		; AVX2-SLOW: # %bb.0: # %entry
; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]		; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]		; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]
; AVX2-SLOW-NEXT: retq		; AVX2-SLOW-NEXT: retq
		lebedev.riUnsubmitted Not Done Reply Inline Actions Appears to be a regression lebedev.ri: Appears to be a regression
;		;
; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:		; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:
; AVX2-FAST: # %bb.0: # %entry		; AVX2-FAST: # %bb.0: # %entry
; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [1,3,5,7,5,7,6,7]		; AVX2-FAST-NEXT: vmovaps {{.*#+}} xmm2 = [1,3,5,7]
; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0		; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1		; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
; AVX2-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-FAST-NEXT: retq		; AVX2-FAST-NEXT: retq
;		;
; AVX512-LABEL: trunc8i64_8i32_ashr:		; AVX512-LABEL: trunc8i64_8i32_ashr:
; AVX512: # %bb.0: # %entry		; AVX512: # %bb.0: # %entry
; AVX512-NEXT: vpsraq $32, %zmm0, %zmm0		; AVX512-NEXT: vpsrlq $32, %zmm0, %zmm0
; AVX512-NEXT: vpmovqd %zmm0, %ymm0		; AVX512-NEXT: vpmovqd %zmm0, %ymm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%0 = ashr <8 x i64> %a, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>		%0 = ashr <8 x i64> %a, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>
%1 = trunc <8 x i64> %0 to <8 x i32>		%1 = trunc <8 x i64> %0 to <8 x i32>
ret <8 x i32> %1		ret <8 x i32> %1
}		}

▲ Show 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
; AVX512BWVL-NEXT: vzeroupper		; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
entry:		entry:
%0 = trunc <8 x i32> %a to <8 x i16>		%0 = trunc <8 x i32> %a to <8 x i16>
ret <8 x i16> %0		ret <8 x i16> %0
}		}

define <8 x i16> @trunc8i32_8i16_ashr(<8 x i32> %a) {		define <8 x i16> @trunc8i32_8i16_ashr(<8 x i32> %a) {
; SSE-LABEL: trunc8i32_8i16_ashr:		; SSE2-LABEL: trunc8i32_8i16_ashr:
; SSE: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm1
; SSE-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm0
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packssdw %xmm1, %xmm0
; SSE-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSSE3-LABEL: trunc8i32_8i16_ashr:
		; SSSE3: # %bb.0: # %entry
		; SSSE3-NEXT: psrad $16, %xmm1
		; SSSE3-NEXT: psrad $16, %xmm0
		; SSSE3-NEXT: packssdw %xmm1, %xmm0
		; SSSE3-NEXT: retq
		;
		lebedev.riUnsubmitted Not Done Reply Inline Actions I'm not very sure it's an improvement lebedev.ri: I'm not very sure it's an improvement
		lebedev.riUnsubmitted Not Done Reply Inline Actions Looks like for pre-SSE41 we still fail to detect high bits as zeros? lebedev.ri: Looks like for pre-SSE41 we still fail to detect high bits as zeros?
		RKSimonAuthorUnsubmitted Done Reply Inline Actions pre-SSE41 we don't have packusdw (I've no idea why this wasn't included in SSE2 with the rest of them...) so we have a fallback to continue to use packssdw RKSimon: pre-SSE41 we don't have packusdw (I've no idea why this wasn't included in SSE2 with the rest…
		; SSE41-LABEL: trunc8i32_8i16_ashr:
		; SSE41: # %bb.0: # %entry
		; SSE41-NEXT: psrld $16, %xmm1
		; SSE41-NEXT: psrld $16, %xmm0
		; SSE41-NEXT: packusdw %xmm1, %xmm0
		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: trunc8i32_8i16_ashr:		; AVX1-LABEL: trunc8i32_8i16_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1		; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
; AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc8i32_8i16_ashr:		; AVX2-LABEL: trunc8i32_8i16_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpackssdw %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: trunc8i32_8i16_ashr:		; AVX512F-LABEL: trunc8i32_8i16_ashr:
; AVX512F: # %bb.0: # %entry		; AVX512F: # %bb.0: # %entry
; AVX512F-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512F-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512F-NEXT: vpmovdw %zmm0, %ymm0		; AVX512F-NEXT: vpmovdw %zmm0, %ymm0
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: trunc8i32_8i16_ashr:		; AVX512VL-LABEL: trunc8i32_8i16_ashr:
; AVX512VL: # %bb.0: # %entry		; AVX512VL: # %bb.0: # %entry
; AVX512VL-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512VL-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512VL-NEXT: vpmovdw %ymm0, %xmm0		; AVX512VL-NEXT: vpmovdw %ymm0, %xmm0
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: trunc8i32_8i16_ashr:		; AVX512BW-LABEL: trunc8i32_8i16_ashr:
; AVX512BW: # %bb.0: # %entry		; AVX512BW: # %bb.0: # %entry
; AVX512BW-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512BW-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512BW-NEXT: vpmovdw %zmm0, %ymm0		; AVX512BW-NEXT: vpmovdw %zmm0, %ymm0
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: trunc8i32_8i16_ashr:		; AVX512BWVL-LABEL: trunc8i32_8i16_ashr:
; AVX512BWVL: # %bb.0: # %entry		; AVX512BWVL: # %bb.0: # %entry
; AVX512BWVL-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512BWVL-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512BWVL-NEXT: vpmovdw %ymm0, %xmm0		; AVX512BWVL-NEXT: vpmovdw %ymm0, %xmm0
; AVX512BWVL-NEXT: vzeroupper		; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
entry:		entry:
%0 = ashr <8 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>		%0 = ashr <8 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
%1 = trunc <8 x i32> %0 to <8 x i16>		%1 = trunc <8 x i32> %0 to <8 x i16>
ret <8 x i16> %1		ret <8 x i16> %1
}		}
▲ Show 20 Lines • Show All 235 Lines • ▼ Show 20 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%0 = trunc <16 x i32> %a to <16 x i16>		%0 = trunc <16 x i32> %a to <16 x i16>
store <16 x i16> %0, <16 x i16>* undef, align 4		store <16 x i16> %0, <16 x i16>* undef, align 4
ret void		ret void
}		}

define void @trunc16i32_16i16_ashr(<16 x i32> %a) {		define void @trunc16i32_16i16_ashr(<16 x i32> %a) {
; SSE-LABEL: trunc16i32_16i16_ashr:		; SSE2-LABEL: trunc16i32_16i16_ashr:
; SSE: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE-NEXT: psrad $16, %xmm3		; SSE2-NEXT: psrad $16, %xmm1
; SSE-NEXT: psrad $16, %xmm2		; SSE2-NEXT: psrad $16, %xmm0
; SSE-NEXT: packssdw %xmm3, %xmm2		; SSE2-NEXT: packssdw %xmm1, %xmm0
; SSE-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm3
; SSE-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm2
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packssdw %xmm3, %xmm2
; SSE-NEXT: movdqu %xmm2, (%rax)		; SSE2-NEXT: movdqu %xmm2, (%rax)
; SSE-NEXT: movdqu %xmm0, (%rax)		; SSE2-NEXT: movdqu %xmm0, (%rax)
; SSE-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSSE3-LABEL: trunc16i32_16i16_ashr:
		; SSSE3: # %bb.0: # %entry
		; SSSE3-NEXT: psrad $16, %xmm1
		; SSSE3-NEXT: psrad $16, %xmm0
		; SSSE3-NEXT: packssdw %xmm1, %xmm0
		; SSSE3-NEXT: psrad $16, %xmm3
		; SSSE3-NEXT: psrad $16, %xmm2
		; SSSE3-NEXT: packssdw %xmm3, %xmm2
		; SSSE3-NEXT: movdqu %xmm2, (%rax)
		; SSSE3-NEXT: movdqu %xmm0, (%rax)
		; SSSE3-NEXT: retq
		;
		; SSE41-LABEL: trunc16i32_16i16_ashr:
		; SSE41: # %bb.0: # %entry
		; SSE41-NEXT: psrld $16, %xmm3
		; SSE41-NEXT: psrld $16, %xmm2
		; SSE41-NEXT: packusdw %xmm3, %xmm2
		; SSE41-NEXT: psrld $16, %xmm1
		; SSE41-NEXT: psrld $16, %xmm0
		; SSE41-NEXT: packusdw %xmm1, %xmm0
		; SSE41-NEXT: movdqu %xmm2, (%rax)
		; SSE41-NEXT: movdqu %xmm0, (%rax)
		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: trunc16i32_16i16_ashr:		; AVX1-LABEL: trunc16i32_16i16_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1		; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vmovdqu %xmm1, (%rax)		; AVX1-NEXT: vmovdqu %xmm1, (%rax)
; AVX1-NEXT: vmovdqu %xmm0, (%rax)		; AVX1-NEXT: vmovdqu %xmm0, (%rax)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc16i32_16i16_ashr:		; AVX2-LABEL: trunc16i32_16i16_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1		; AVX2-NEXT: vpsrld $16, %ymm1, %ymm1
; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX2-NEXT: vmovdqu %ymm0, (%rax)		; AVX2-NEXT: vmovdqu %ymm0, (%rax)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: trunc16i32_16i16_ashr:		; AVX512-LABEL: trunc16i32_16i16_ashr:
; AVX512: # %bb.0: # %entry		; AVX512: # %bb.0: # %entry
; AVX512-NEXT: vpsrld $16, %zmm0, %zmm0		; AVX512-NEXT: vpsrld $16, %zmm0, %zmm0
▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%0 = trunc <16 x i32> %a to <16 x i8>		%0 = trunc <16 x i32> %a to <16 x i8>
store <16 x i8> %0, <16 x i8>* undef, align 4		store <16 x i8> %0, <16 x i8>* undef, align 4
ret void		ret void
}		}

define void @trunc16i32_16i8_ashr(<16 x i32> %a) {		define void @trunc16i32_16i8_ashr(<16 x i32> %a) {
; SSE-LABEL: trunc16i32_16i8_ashr:		; SSE2-LABEL: trunc16i32_16i8_ashr:
; SSE: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE-NEXT: psrad $24, %xmm1		; SSE2-NEXT: psrld $24, %xmm1
; SSE-NEXT: psrad $24, %xmm0		; SSE2-NEXT: psrld $24, %xmm0
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packuswb %xmm1, %xmm0
; SSE-NEXT: psrad $24, %xmm3		; SSE2-NEXT: psrld $24, %xmm3
; SSE-NEXT: psrad $24, %xmm2		; SSE2-NEXT: psrld $24, %xmm2
; SSE-NEXT: packssdw %xmm3, %xmm2		; SSE2-NEXT: packuswb %xmm3, %xmm2
; SSE-NEXT: packsswb %xmm2, %xmm0		; SSE2-NEXT: packuswb %xmm2, %xmm0
; SSE-NEXT: movdqu %xmm0, (%rax)		; SSE2-NEXT: movdqu %xmm0, (%rax)
; SSE-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSSE3-LABEL: trunc16i32_16i8_ashr:
		; SSSE3: # %bb.0: # %entry
		; SSSE3-NEXT: psrld $24, %xmm1
		; SSSE3-NEXT: psrld $24, %xmm0
		; SSSE3-NEXT: packuswb %xmm1, %xmm0
		; SSSE3-NEXT: psrld $24, %xmm3
		; SSSE3-NEXT: psrld $24, %xmm2
		; SSSE3-NEXT: packuswb %xmm3, %xmm2
		; SSSE3-NEXT: packuswb %xmm2, %xmm0
		; SSSE3-NEXT: movdqu %xmm0, (%rax)
		; SSSE3-NEXT: retq
		;
		; SSE41-LABEL: trunc16i32_16i8_ashr:
		; SSE41: # %bb.0: # %entry
		; SSE41-NEXT: psrld $24, %xmm1
		; SSE41-NEXT: psrld $24, %xmm0
		; SSE41-NEXT: packusdw %xmm1, %xmm0
		; SSE41-NEXT: psrld $24, %xmm3
		; SSE41-NEXT: psrld $24, %xmm2
		; SSE41-NEXT: packusdw %xmm3, %xmm2
		; SSE41-NEXT: packuswb %xmm2, %xmm0
		; SSE41-NEXT: movdqu %xmm0, (%rax)
		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: trunc16i32_16i8_ashr:		; AVX1-LABEL: trunc16i32_16i8_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $24, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $24, %xmm0, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $24, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm1, %xmm1		; AVX1-NEXT: vpsrld $24, %xmm1, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovdqu %xmm0, (%rax)		; AVX1-NEXT: vmovdqu %xmm0, (%rax)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc16i32_16i8_ashr:		; AVX2-LABEL: trunc16i32_16i8_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsrad $24, %ymm1, %ymm1		; AVX2-NEXT: vpsrld $24, %ymm1, %ymm1
; AVX2-NEXT: vpsrad $24, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $24, %ymm0, %ymm0
; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]		; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
; AVX2-NEXT: vmovdqu %xmm0, (%rax)		; AVX2-NEXT: vmovdqu %xmm0, (%rax)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: trunc16i32_16i8_ashr:		; AVX512-LABEL: trunc16i32_16i8_ashr:
; AVX512: # %bb.0: # %entry		; AVX512: # %bb.0: # %entry
; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0		; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	entry:
%0 = trunc <16 x i16> %a to <16 x i8>		%0 = trunc <16 x i16> %a to <16 x i8>
store <16 x i8> %0, <16 x i8>* undef, align 4		store <16 x i8> %0, <16 x i8>* undef, align 4
ret void		ret void
}		}

define void @trunc16i16_16i8_ashr(<16 x i16> %a) {		define void @trunc16i16_16i8_ashr(<16 x i16> %a) {
; SSE-LABEL: trunc16i16_16i8_ashr:		; SSE-LABEL: trunc16i16_16i8_ashr:
; SSE: # %bb.0: # %entry		; SSE: # %bb.0: # %entry
; SSE-NEXT: psraw $8, %xmm1		; SSE-NEXT: psrlw $8, %xmm1
; SSE-NEXT: psraw $8, %xmm0		; SSE-NEXT: psrlw $8, %xmm0
; SSE-NEXT: packsswb %xmm1, %xmm0		; SSE-NEXT: packuswb %xmm1, %xmm0
; SSE-NEXT: movdqu %xmm0, (%rax)		; SSE-NEXT: movdqu %xmm0, (%rax)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: trunc16i16_16i8_ashr:		; AVX1-LABEL: trunc16i16_16i8_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpsraw $8, %xmm1, %xmm1		; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
; AVX1-NEXT: vpsraw $8, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovdqu %xmm0, (%rax)		; AVX1-NEXT: vmovdqu %xmm0, (%rax)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc16i16_16i8_ashr:		; AVX2-LABEL: trunc16i16_16i8_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsraw $8, %ymm0, %ymm0		; AVX2-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vmovdqu %xmm0, (%rax)		; AVX2-NEXT: vmovdqu %xmm0, (%rax)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: trunc16i16_16i8_ashr:		; AVX512F-LABEL: trunc16i16_16i8_ashr:
; AVX512F: # %bb.0: # %entry		; AVX512F: # %bb.0: # %entry
; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0		; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero		; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512F-NEXT: vpmovdb %zmm0, (%rax)		; AVX512F-NEXT: vpmovdb %zmm0, (%rax)
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: trunc16i16_16i8_ashr:		; AVX512VL-LABEL: trunc16i16_16i8_ashr:
; AVX512VL: # %bb.0: # %entry		; AVX512VL: # %bb.0: # %entry
; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0		; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero		; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512VL-NEXT: vpmovdb %zmm0, (%rax)		; AVX512VL-NEXT: vpmovdb %zmm0, (%rax)
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: trunc16i16_16i8_ashr:		; AVX512BW-LABEL: trunc16i16_16i8_ashr:
; AVX512BW: # %bb.0: # %entry		; AVX512BW: # %bb.0: # %entry
; AVX512BW-NEXT: vpsraw $8, %ymm0, %ymm0		; AVX512BW-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0		; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
; AVX512BW-NEXT: vmovdqu %xmm0, (%rax)		; AVX512BW-NEXT: vmovdqu %xmm0, (%rax)
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: trunc16i16_16i8_ashr:		; AVX512BWVL-LABEL: trunc16i16_16i8_ashr:
; AVX512BWVL: # %bb.0: # %entry		; AVX512BWVL: # %bb.0: # %entry
; AVX512BWVL-NEXT: vpsrlw $8, %ymm0, %ymm0		; AVX512BWVL-NEXT: vpsrlw $8, %ymm0, %ymm0
▲ Show 20 Lines • Show All 985 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATEClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 317874

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

llvm/test/CodeGen/AArch64/aarch64-smull.ll

llvm/test/CodeGen/AArch64/lowerMUL-newload.ll

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

llvm/test/CodeGen/ARM/lowerMUL-newload.ll

llvm/test/CodeGen/Thumb2/mve-satmul-loops.ll

llvm/test/CodeGen/Thumb2/mve-vmulh.ll

llvm/test/CodeGen/X86/combine-sra.ll

llvm/test/CodeGen/X86/known-signbits-vector.ll

llvm/test/CodeGen/X86/min-legal-vector-width.ll

llvm/test/CodeGen/X86/vector-trunc.ll

[DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE
ClosedPublic