This is an archive of the discontinued LLVM Phabricator instance.

test/CodeGen/ARM/lowerMUL-newload.ll
28 ↗	(On Diff #180459)	This just looks like we're missing something for the ARMISD::VMULL lowering
test/CodeGen/X86/avx512-any_extend_load.ll
53 ↗	(On Diff #180459)	Simplifying to ANY_EXTEND prevents PACKSS/PACKUS from working
test/CodeGen/X86/combine-sra.ll
252 ↗	(On Diff #180459)	We'd been relying on the v4i64 ashr expansion
test/CodeGen/X86/vector-blend.ll
956 ↗	(On Diff #180459)	Haven't worked out the problem here yet
test/CodeGen/X86/vector-trunc-widen.ll
77 ↗	(On Diff #180459)	We'd been relying on the v8i64 ashr expansion

easyaspi314 added a subscriber: easyaspi314.Jan 7 2019, 8:34 AM

craig.topper added inline comments.Jan 7 2019, 4:33 PM

test/CodeGen/X86/vector-blend.ll
956 ↗	(On Diff #180459)	I think we need to call SimplifyDemandedBits on Conditions of SHRUNKBLEND. We only do it when we convert from VSELECT to SHRUNKBLEND.

craig.topper mentioned this in D56421: [X86] Call SimplifyDemandedBits on conditions of X86ISD::SHRUNKBLEND.Jan 7 2019, 5:00 PM

craig.topper added inline comments.

test/CodeGen/X86/vector-blend.ll
956 ↗	(On Diff #180459)	Patch here D56421

Diffusion mentioned this in rL350875: [X86] Call SimplifyDemandedBits on conditions of X86ISD::SHRUNKBLEND.Jan 10 2019, 11:09 AM

RKSimon updated this revision to Diff 181284.Jan 11 2019, 8:28 AM

rebase after D56421

huihuiz added a subscriber: huihuiz.Jan 23 2019, 11:59 AM

huihuiz added inline comments.

test/CodeGen/ARM/lowerMUL-newload.ll
28 ↗	(On Diff #180459)	Using "CHECK-NEXT" and matching with the exact register names will make this test cast very sensitive to scheduling and register allocation changes. Use pattern matching should be a better approach.

RKSimon added inline comments.Jan 23 2019, 1:20 PM

test/CodeGen/ARM/lowerMUL-newload.ll
28 ↗	(On Diff #180459)	But it stops people missing/hiding codegen changes that need to be kept an eye on, including register allocation changes. This argument has been going on for years now, and we've tended to see that the benefits of update_llc_test_checks.py outweighs any difficulties. More importantly, do you have any insights as to how to improve ARMISD::VMULL lowering?

rebase - still showing a number of regressions that are proving tricky to fix

Herald added a project: Restricted Project. · View Herald TranscriptApr 22 2019, 7:29 AM

rebase

rebase + vector support for truncate(srl(x,c)) case

rebase - most of the remaining x86 issues should be fixed by D66004

RKSimon mentioned this in rG34769e078358: SimplifyDemandedBits - Remove duplicate getOperand() call. NFC..Dec 28 2019, 8:44 AM

rebase

Herald added a subscriber: hiraditya. · View Herald TranscriptDec 29 2019, 12:36 AM

rebase

Herald added a subscriber: kerbowa. · View Herald TranscriptMar 21 2020, 7:09 AM

Harbormaster completed remote builds in B49997: Diff 251843.Mar 21 2020, 8:01 AM

RKSimon mentioned this in rGc6e5531f9b56: [X86][AVX] Combine shuffles to TRUNCATE/VTRUNC patterns.Mar 25 2020, 10:48 AM

RKSimon added a reviewer: huihuiz.May 5 2020, 6:47 AM

Add support for ANY_EXTEND ops to ARM's LowerMUL.

This fixes the main MULL regression but I'm not sure how to fix the ADDW regression which seems to be a purely isel pattern - @t.p.northover @efriedma @huihuiz any thoughts?

Harbormaster failed remote builds in B55787: Diff 262099!May 5 2020, 7:31 AM

RKSimon mentioned this in D81791: [X86][SSE] Add SimplifyDemandedVectorEltsForTargetShuffle to handle target shuffle variable masks..Jun 20 2020, 11:34 AM

RKSimon planned changes to this revision.Jul 4 2020, 1:23 AM

Herald added a subscriber: ecnelises. · View Herald TranscriptJul 4 2020, 1:23 AM

The pattern in question comes out of https://github.com/llvm/llvm-project/blob/0fa0cf8638b0777a1a44feebf78a63865e48ecf6/llvm/lib/Target/ARM/ARMInstrNEON.td#L3100 , and it traces out to https://github.com/llvm/llvm-project/blob/0fa0cf8638b0777a1a44feebf78a63865e48ecf6/llvm/lib/Target/ARM/ARMInstrNEON.td#L4216 .

Probably we want to do what the Hexagon backend does: def asext: PatFrags<(ops node:$Rs), [(sext node:$Rs), (anyext node:$Rs)]>;.

rebase

Herald added a subscriber: dmgreen. · View Herald TranscriptSep 8 2020, 6:20 AM

Harbormaster completed remote builds in B70930: Diff 290467.Sep 8 2020, 6:51 AM

rebase - avg.ll regressions now fixed

RKSimon planned changes to this revision.Sep 15 2020, 10:41 AM

lebedev.ri added a subscriber: lebedev.ri.Sep 15 2020, 10:52 AM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/combine-sra.ll
251–254	Appears to be a regression
llvm/test/CodeGen/X86/vector-trunc.ll
69–74	Appears to be a regression
396–407	I'm not very sure it's an improvement

note: this is still a wip

RKSimon retitled this revision from [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE to [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE (WIP).Sep 15 2020, 11:00 AM

Harbormaster completed remote builds in B71762: Diff 291969.Sep 15 2020, 11:19 AM

RKSimon added a reviewer: dmgreen.Dec 27 2020, 10:47 AM

Herald added a subscriber: pengfei. · View Herald TranscriptDec 27 2020, 10:47 AM

yubing added a subscriber: yubing.Dec 27 2020, 5:49 PM

RKSimon mentioned this in D93835: [ARM] Handle any extend whilst lowering addw/addl/subw/subl.Dec 28 2020, 1:15 AM

arsenm added inline comments.Jan 4 2021, 11:28 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
8693–8695 ↗	(On Diff #291969)	return getOpcode() == ANY_EXTEND but I'm guessing this is just a placeholder function anyway

rebase (still WIP though)

RKSimon planned changes to this revision.Jan 6 2021, 5:41 AM

Harbormaster completed remote builds in B84194: Diff 314868.Jan 6 2021, 6:14 AM

foad added a subscriber: foad.Jan 7 2021, 3:27 AM

RKSimon mentioned this in rG4214ca96145c: [X86][AVX] Attempt to fold vpermf128(op(x,i),op(y,i)) -> op(vpermf128(x,y),i).Jan 11 2021, 9:09 AM

RKSimon added inline comments.Jan 18 2021, 9:07 AM

llvm/test/CodeGen/AArch64/lowerMUL-newload.ll
363 ↗	(On Diff #314868)	@dmgreen What do you think is the best way to extend D93833 to handle multiply-add/sub as well? Handle in DAG or refactor the isel patterns to accept sanyext/zanyext (I didn't get very far with my initial attempt with this approach as a lot of the patfrags were hardcodded)?

@dmgreen I've added ANY_EXTEND matching in isSignExtended to give you an indication of effect on codegen

I only looked at the ARM equivalent. From what I remember, the sequence of events was something like:

One of the two operands to the mul was converted from a sext to an anyext. The other was not due to having multiple uses.
That anyext was folded into a load to produce a zextload (we don't produce a vector anyext load)
We couldn't match anything due one operand being a sext and the other being a zextload.

So in that case we would either need to use demanded bits know the top bits are not needed when converting it to a mull, create an anyextload instead of a zextload or handle multiple uses so both inputs turn into anyext or zextloads.

I'm happy for the isSignExtended change, as far as I understand that should be fine. The ARM side may be harder to fix, and as the test seems to only added for correctness - it doesn't seem like something that should hold up this patch. We should have fixed the majority of cases and if more come up we can tackle them as needed. I would be happy with this patch so long as the X86 changes are OK.

Harbormaster completed remote builds in B85613: Diff 317383.Jan 18 2021, 10:34 AM

RKSimon mentioned this in rG5626adcd6bba: [X86][SSE] combineVectorSignBitsTruncation - fold trunc(srl(x,c)) -> packss(sra….Jan 19 2021, 3:05 AM

rebase - if we're happy with the AARCH64/ARM changes - any more comments?

xbolva00 added a subscriber: xbolva00.Jan 19 2021, 3:54 AM

xbolva00 added inline comments.

llvm/test/CodeGen/X86/combine-sra.ll
251–254	@RKSimon

Harbormaster completed remote builds in B85690: Diff 317511.Jan 19 2021, 4:11 AM

RKSimon added inline comments.Jan 19 2021, 7:38 AM

llvm/test/CodeGen/X86/combine-sra.ll
251–254	Looking at this now - the set of combines that was necessary to get to the old codegen is pretty impressive.....

RKSimon mentioned this in rG19d02842ee56: [X86][AVX] Fold extract_subvector(VSRLI/VSHLI(x,32)) -> VSRLI/VSHLI….Jan 20 2021, 6:35 AM

rebase - the last x86 regression (combine-sra.ll) should now be fixed.

Seems fine to me, thanks.

llvm/test/CodeGen/X86/vector-trunc.ll
396–407	Looks like for pre-SSE41 we still fail to detect high bits as zeros?

RKSimon added inline comments.Jan 20 2021, 7:12 AM

llvm/test/CodeGen/X86/vector-trunc.ll
396–407	pre-SSE41 we don't have packusdw (I've no idea why this wasn't included in SSE2 with the rest of them...) so we have a fallback to continue to use packssdw

Yes, looks good now.

lebedev.ri accepted this revision.Jan 20 2021, 7:22 AM

This revision is now accepted and ready to land.Jan 20 2021, 7:22 AM

xbolva00 accepted this revision.Jan 20 2021, 7:22 AM

This revision was landed with ongoing or failed builds.Jan 20 2021, 7:40 AM

Closed by commit rGcad4275d697c: [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE (authored by RKSimon). · Explain Why

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rGcad4275d697c: [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE.

Harbormaster completed remote builds in B85885: Diff 317867.Jan 20 2021, 8:24 AM

hans added a reverting change: rGa51226057fc3: Revert "[DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE".Jan 20 2021, 11:07 AM

This caused asserts in Chromium. See https://bugs.chromium.org/p/chromium/issues/detail?id=1168629#c2 for a reproducer.

I've reverted in a51226057fc30510ac86b32a36a9769ddbf4c318 in the meantime.

RKSimon mentioned this in rG935bacd3a724: [DAG] SimplifyDemandedBits - correctly adjust truncated shift amount type.Jan 21 2021, 4:39 AM

RKSimon mentioned this in rG0ca81b90d19d: [X86][SSE] Add uitofp(trunc(and(lshr(x,c)))) vector test.

RKSimon added a commit: rG69bc0990a918: [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE….Jan 21 2021, 5:01 AM

RKSimon mentioned this in rG7ad0c573bd4a: [DAG] Fix shift amount limit in SimplifyDemandedBits trunc(shift(x,c)) to….Feb 13 2021, 4:00 AM

Seems it still causes crash https://bugs.llvm.org/show_bug.cgi?id=50609

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

3 lines

TargetLowering.cpp

5 lines

test/

CodeGen/

AMDGPU/

widen-smrd-loads.ll

4 lines

ARM/

lowerMUL-newload.ll

59 lines

X86/

avg.ll

281 lines

combine-sra.ll

8 lines

known-signbits-vector.ll

30 lines

min-legal-vector-width.ll

6 lines

vector-trunc.ll

215 lines

Diff 251843

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 11,157 Lines • ▼ Show 20 Lines	if (VecSrcVT.isVector() && VecSrcVT.getScalarType() == VT &&

unsigned Idx = isLE ? 0 : VecSrcVT.getVectorNumElements() - 1;		unsigned Idx = isLE ? 0 : VecSrcVT.getVectorNumElements() - 1;
return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, VT, VecSrc,		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, VT, VecSrc,
DAG.getVectorIdxConstant(Idx, SL));		DAG.getVectorIdxConstant(Idx, SL));
}		}
}		}

// Simplify the operands using demanded-bits information.		// Simplify the operands using demanded-bits information.
if (!VT.isVector() &&		if (SimplifyDemandedBits(SDValue(N, 0)))
SimplifyDemandedBits(SDValue(N, 0)))
return SDValue(N, 0);		return SDValue(N, 0);

// (trunc adde(X, Y, Carry)) -> (adde trunc(X), trunc(Y), Carry)		// (trunc adde(X, Y, Carry)) -> (adde trunc(X), trunc(Y), Carry)
// (trunc addcarry(X, Y, Carry)) -> (addcarry trunc(X), trunc(Y), Carry)		// (trunc addcarry(X, Y, Carry)) -> (addcarry trunc(X), trunc(Y), Carry)
// When the adde's carry is not used.		// When the adde's carry is not used.
if ((N0.getOpcode() == ISD::ADDE \|\| N0.getOpcode() == ISD::ADDCARRY) &&		if ((N0.getOpcode() == ISD::ADDE \|\| N0.getOpcode() == ISD::ADDCARRY) &&
N0.hasOneUse() && !N0.getNode()->hasAnyUseOfValue(1) &&		N0.hasOneUse() && !N0.getNode()->hasAnyUseOfValue(1) &&
// We only do for addcarry before legalize operation		// We only do for addcarry before legalize operation
▲ Show 20 Lines • Show All 10,488 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 1,874 Lines • ▼ Show 20 Lines
	}			}
	case ISD::TRUNCATE: {			case ISD::TRUNCATE: {
	SDValue Src = Op.getOperand(0);			SDValue Src = Op.getOperand(0);

	// Simplify the input, using demanded bit information, and compute the known			// Simplify the input, using demanded bit information, and compute the known
	// zero/one bits live out.			// zero/one bits live out.
	unsigned OperandBitWidth = Src.getScalarValueSizeInBits();			unsigned OperandBitWidth = Src.getScalarValueSizeInBits();
	APInt TruncMask = DemandedBits.zext(OperandBitWidth);			APInt TruncMask = DemandedBits.zext(OperandBitWidth);
	if (SimplifyDemandedBits(Src, TruncMask, Known, TLO, Depth + 1))			if (SimplifyDemandedBits(Src, TruncMask, DemandedElts, Known, TLO,
				Depth + 1))
	return true;			return true;
	Known = Known.trunc(BitWidth);			Known = Known.trunc(BitWidth);

	// Attempt to avoid multi-use ops if we don't need anything from them.			// Attempt to avoid multi-use ops if we don't need anything from them.
	if (SDValue NewSrc = SimplifyMultipleUseDemandedBits(			if (SDValue NewSrc = SimplifyMultipleUseDemandedBits(
	Src, TruncMask, DemandedElts, TLO.DAG, Depth + 1))			Src, TruncMask, DemandedElts, TLO.DAG, Depth + 1))
	return TLO.CombineTo(Op, TLO.DAG.getNode(ISD::TRUNCATE, dl, VT, NewSrc));			return TLO.CombineTo(Op, TLO.DAG.getNode(ISD::TRUNCATE, dl, VT, NewSrc));

	// If the input is only used by this truncate, see if we can shrink it based			// If the input is only used by this truncate, see if we can shrink it based
	// on the known demanded bits.			// on the known demanded bits.
	if (Src.getNode()->hasOneUse()) {			if (Src.getNode()->hasOneUse()) {
	switch (Src.getOpcode()) {			switch (Src.getOpcode()) {
	default:			default:
	break;			break;
	case ISD::SRL:			case ISD::SRL:
	// Shrink SRL by a constant if none of the high bits shifted in are			// Shrink SRL by a constant if none of the high bits shifted in are
	// demanded.			// demanded.
	if (TLO.LegalTypes() && !isTypeDesirableForOp(ISD::SRL, VT))			if (TLO.LegalTypes() && !isTypeDesirableForOp(ISD::SRL, VT))
	// Do not turn (vt1 truncate (vt2 srl)) into (vt1 srl) if vt1 is			// Do not turn (vt1 truncate (vt2 srl)) into (vt1 srl) if vt1 is
	// undesirable.			// undesirable.
	break;			break;

	SDValue ShAmt = Src.getOperand(1);			SDValue ShAmt = Src.getOperand(1);
	auto *ShAmtC = dyn_cast<ConstantSDNode>(ShAmt);			ConstantSDNode *ShAmtC = isConstOrConstSplat(ShAmt, DemandedElts);
	if (!ShAmtC \|\| ShAmtC->getAPIntValue().uge(BitWidth))			if (!ShAmtC \|\| ShAmtC->getAPIntValue().uge(BitWidth))
	break;			break;
	uint64_t ShVal = ShAmtC->getZExtValue();			uint64_t ShVal = ShAmtC->getZExtValue();

	APInt HighBits =			APInt HighBits =
	APInt::getHighBitsSet(OperandBitWidth, OperandBitWidth - BitWidth);			APInt::getHighBitsSet(OperandBitWidth, OperandBitWidth - BitWidth);
	HighBits.lshrInPlace(ShVal);			HighBits.lshrInPlace(ShVal);
	HighBits = HighBits.trunc(BitWidth);			HighBits = HighBits.trunc(BitWidth);
	▲ Show 20 Lines • Show All 5,807 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

	Show First 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dword s0, s[0:1], 0x0			; VI-NEXT: s_load_dword s0, s[0:1], 0x0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_and_b32 s1, s0, 0xffff			; VI-NEXT: s_and_b32 s1, s0, 0xffff
	; VI-NEXT: v_mov_b32_e32 v2, s0			; VI-NEXT: v_mov_b32_e32 v2, s0
	; VI-NEXT: s_add_i32 s1, s1, 12			; VI-NEXT: s_add_i32 s1, s1, 12
	; VI-NEXT: v_add_u32_sdwa v0, vcc, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1			; VI-NEXT: v_add_u32_sdwa v0, vcc, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; VI-NEXT: s_or_b32 s0, s1, 4			; VI-NEXT: s_or_b32 s0, s1, 4
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: s_and_b32 s0, s0, 0xff			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_or_b32_e32 v2, s0, v0			; VI-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; VI-NEXT: v_mov_b32_e32 v0, 0			; VI-NEXT: v_mov_b32_e32 v0, 0
	; VI-NEXT: v_mov_b32_e32 v1, 0			; VI-NEXT: v_mov_b32_e32 v1, 0
	; VI-NEXT: flat_store_short v[0:1], v2			; VI-NEXT: flat_store_short v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%load = load <2 x i8>, <2 x i8> addrspace(4)* %arg, align 4			%load = load <2 x i8>, <2 x i8> addrspace(4)* %arg, align 4
	%add = add <2 x i8> %load, <i8 12, i8 44>			%add = add <2 x i8> %load, <i8 12, i8 44>
	%or = or <2 x i8> %add, <i8 4, i8 3>			%or = or <2 x i8> %add, <i8 4, i8 3>
	store <2 x i8> %or, <2 x i8> addrspace(1)* null			store <2 x i8> %or, <2 x i8> addrspace(1)* null
	▲ Show 20 Lines • Show All 242 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/lowerMUL-newload.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=arm-eabi -mcpu=krait \| FileCheck %s		; RUN: llc < %s -mtriple=arm-eabi -mcpu=krait \| FileCheck %s

define void @func1(i16* %a, i16* %b, i16* %c) {		define void @func1(i16* %a, i16* %b, i16* %c) {
; CHECK-LABEL: func1:		; CHECK-LABEL: func1:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: add r3, r1, #16		; CHECK-NEXT: vldr d16, [r2, #16]
		; CHECK-NEXT: vldr d17, [r1, #16]
		; CHECK-NEXT: vmovl.u16 q9, d16
		; CHECK-NEXT: vaddw.u16 q9, q9, d17
		; CHECK-NEXT: vmovn.i32 d18, q9
		; CHECK-NEXT: vldr d19, [r0, #16]
		; CHECK-NEXT: vstr d18, [r0, #16]
; CHECK-NEXT: vldr d18, [r2, #16]		; CHECK-NEXT: vldr d18, [r2, #16]
; CHECK-NEXT: vld1.16 {d16}, [r3:64]		; CHECK-NEXT: vmull.s16 q10, d16, d18
; CHECK-NEXT: vmovl.u16 q8, d16		; CHECK-NEXT: vmovl.s16 q11, d18
; CHECK-NEXT: vaddw.s16 q10, q8, d18		; CHECK-NEXT: vmovl.u16 q8, d17
; CHECK-NEXT: vmovn.i32 d19, q10		; CHECK-NEXT: vmovl.u16 q9, d19
; CHECK-NEXT: vldr d20, [r0, #16]		; CHECK-NEXT: vmla.i32 q10, q8, q11
; CHECK-NEXT: vstr d19, [r0, #16]		; CHECK-NEXT: vmovn.i32 d16, q10
; CHECK-NEXT: vldr d19, [r2, #16]
; CHECK-NEXT: vmull.s16 q11, d18, d19
; CHECK-NEXT: vmovl.s16 q9, d19
; CHECK-NEXT: vmla.i32 q11, q8, q9
; CHECK-NEXT: vmovn.i32 d16, q11
; CHECK-NEXT: vstr d16, [r1, #16]		; CHECK-NEXT: vstr d16, [r1, #16]
; CHECK-NEXT: vldr d16, [r2, #16]		; CHECK-NEXT: vldr d16, [r2, #16]
; CHECK-NEXT: vmlal.s16 q11, d16, d20		; CHECK-NEXT: vmovl.u16 q8, d16
; CHECK-NEXT: vmovn.i32 d16, q11		; CHECK-NEXT: vmla.i32 q10, q8, q9
		; CHECK-NEXT: vmovn.i32 d16, q10
; CHECK-NEXT: vstr d16, [r0, #16]		; CHECK-NEXT: vstr d16, [r0, #16]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
; The test case trying to vectorize the pseudo code below.		; The test case trying to vectorize the pseudo code below.
; a[i] = b[i] + c[i];		; a[i] = b[i] + c[i];
; b[i] = a[i] * c[i];		; b[i] = a[i] * c[i];
; a[i] = b[i] + a[i] * c[i];		; a[i] = b[i] + a[i] * c[i];
; Checking that vector load a[i] for "a[i] = b[i] + a[i] * c[i]" is		; Checking that vector load a[i] for "a[i] = b[i] + a[i] * c[i]" is
Show All 38 Lines	; lowerMUL for the new created Load SDNode.
%vector_ptr7 = bitcast i16* %scevgep3 to <4 x i16>*		%vector_ptr7 = bitcast i16* %scevgep3 to <4 x i16>*
store <4 x i16> %7, <4 x i16>* %vector_ptr7, align 8		store <4 x i16> %7, <4 x i16>* %vector_ptr7, align 8
ret void		ret void
}		}

define void @func2(i16* %a, i16* %b, i16* %c) {		define void @func2(i16* %a, i16* %b, i16* %c) {
; CHECK-LABEL: func2:		; CHECK-LABEL: func2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: add r3, r1, #16		; CHECK-NEXT: vldr d16, [r2, #16]
		; CHECK-NEXT: add r3, r0, #16
		; CHECK-NEXT: vldr d17, [r1, #16]
		; CHECK-NEXT: vmovl.u16 q9, d16
		; CHECK-NEXT: vaddw.u16 q9, q9, d17
		; CHECK-NEXT: vmovn.i32 d18, q9
		; CHECK-NEXT: vld1.16 {d19}, [r3:64]
		; CHECK-NEXT: vstr d18, [r0, #16]
; CHECK-NEXT: vldr d18, [r2, #16]		; CHECK-NEXT: vldr d18, [r2, #16]
; CHECK-NEXT: vld1.16 {d16}, [r3:64]		; CHECK-NEXT: vmull.s16 q10, d16, d18
; CHECK-NEXT: vmovl.u16 q8, d16		; CHECK-NEXT: vmovl.s16 q11, d18
; CHECK-NEXT: vaddw.s16 q10, q8, d18		; CHECK-NEXT: vmovl.u16 q8, d17
; CHECK-NEXT: vmovn.i32 d19, q10
; CHECK-NEXT: vldr d20, [r0, #16]
; CHECK-NEXT: vstr d19, [r0, #16]
; CHECK-NEXT: vldr d19, [r2, #16]
; CHECK-NEXT: vmull.s16 q11, d18, d19
; CHECK-NEXT: vmovl.s16 q9, d19		; CHECK-NEXT: vmovl.s16 q9, d19
; CHECK-NEXT: vmla.i32 q11, q8, q9		; CHECK-NEXT: vmla.i32 q10, q8, q11
; CHECK-NEXT: vmovn.i32 d16, q11		; CHECK-NEXT: vmovn.i32 d16, q10
; CHECK-NEXT: vstr d16, [r1, #16]		; CHECK-NEXT: vstr d16, [r1, #16]
; CHECK-NEXT: vldr d16, [r2, #16]		; CHECK-NEXT: vldr d16, [r2, #16]
; CHECK-NEXT: vmlal.s16 q11, d16, d20		; CHECK-NEXT: vmovl.u16 q8, d16
; CHECK-NEXT: vaddw.s16 q8, q11, d20		; CHECK-NEXT: vmla.i32 q10, q8, q9
		; CHECK-NEXT: vadd.i32 q8, q10, q9
; CHECK-NEXT: vmovn.i32 d16, q8		; CHECK-NEXT: vmovn.i32 d16, q8
; CHECK-NEXT: vstr d16, [r0, #16]		; CHECK-NEXT: vstr d16, [r0, #16]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
; The test case trying to vectorize the pseudo code below.		; The test case trying to vectorize the pseudo code below.
; a[i] = b[i] + c[i];		; a[i] = b[i] + c[i];
; b[i] = a[i] * c[i];		; b[i] = a[i] * c[i];
; a[i] = b[i] + a[i] * c[i] + a[i];		; a[i] = b[i] + a[i] * c[i] + a[i];
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avg.ll

	Show First 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: movdqu %xmm13, (%rax)			; SSE2-NEXT: movdqu %xmm13, (%rax)
	; SSE2-NEXT: movdqu %xmm12, (%rax)			; SSE2-NEXT: movdqu %xmm12, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v48i8:			; AVX1-LABEL: avg_v48i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %xmm0			; AVX1-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rdi), %xmm4			; AVX1-NEXT: vmovdqa 16(%rdi), %xmm3
	; AVX1-NEXT: vmovdqa 32(%rdi), %xmm1			; AVX1-NEXT: vmovdqa 32(%rdi), %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm15 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm11 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm14 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm13 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm4
	; AVX1-NEXT: vmovdqa 32(%rsi), %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm12			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[3,3,0,1]			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm5, %xmm6, %xmm10			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[2,3,0,1]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm15 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
				; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[3,3,0,1]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm13 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
				; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm12 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm14 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
				; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[2,3,0,1]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm11 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
				; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[3,3,0,1]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm10 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm9 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm6, %xmm7, %xmm9			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm8 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vmovdqa (%rsi), %xmm6
	; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm8			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vmovdqa 32(%rsi), %xmm0
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm3, %xmm15, %xmm15			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
				; AVX1-NEXT: vpaddd %xmm5, %xmm7, %xmm5
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm7, %xmm11, %xmm7			; AVX1-NEXT: vpaddd %xmm7, %xmm2, %xmm2
				; AVX1-NEXT: vpackusdw %xmm2, %xmm5, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm2, %xmm14, %xmm14			; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm0, %xmm13, %xmm13			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[2,3,0,1]			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm6[2,3,0,1]
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm5, %xmm5 # 16-byte Folded Reload
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm4[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm6, %xmm6 # 16-byte Folded Reload
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm4[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload			; AVX1-NEXT: vpaddd %xmm1, %xmm15, %xmm1
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm6[3,3,0,1]
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm4, %xmm4 # 16-byte Folded Reload			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpaddd %xmm2, %xmm13, %xmm2
	; AVX1-NEXT: vpsubd %xmm3, %xmm12, %xmm11			; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubd %xmm3, %xmm10, %xmm10			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm6[1,1,2,3]
	; AVX1-NEXT: vpsubd %xmm3, %xmm9, %xmm9			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm3, %xmm8, %xmm8			; AVX1-NEXT: vpaddd %xmm2, %xmm12, %xmm2
	; AVX1-NEXT: vpsubd %xmm3, %xmm15, %xmm12			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm3, %xmm7, %xmm7			; AVX1-NEXT: vpaddd %xmm4, %xmm14, %xmm4
	; AVX1-NEXT: vpsubd %xmm3, %xmm14, %xmm0
	; AVX1-NEXT: vpsubd %xmm3, %xmm13, %xmm2
	; AVX1-NEXT: vpsubd %xmm3, %xmm5, %xmm5
	; AVX1-NEXT: vpsubd %xmm3, %xmm6, %xmm6
	; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpsubd %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm1, %xmm1
	; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsrld $1, %xmm6, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm5, %xmm4
	; AVX1-NEXT: vpackusdw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpsrld $1, %xmm7, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm12, %xmm4
	; AVX1-NEXT: vpackusdw %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpackusdw %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm8, %xmm4			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[2,3,0,1]
	; AVX1-NEXT: vpsrld $1, %xmm9, %xmm5			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
				; AVX1-NEXT: vpaddd %xmm4, %xmm11, %xmm4
				; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[3,3,0,1]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
				; AVX1-NEXT: vpaddd %xmm5, %xmm10, %xmm5
	; AVX1-NEXT: vpackusdw %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpackusdw %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsrld $1, %xmm10, %xmm5			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[1,1,2,3]
	; AVX1-NEXT: vpsrld $1, %xmm11, %xmm6			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
	; AVX1-NEXT: vpackusdw %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vpaddd %xmm5, %xmm9, %xmm5
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpaddd %xmm3, %xmm8, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpackusdw %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpsubw %xmm5, %xmm7, %xmm6
	; AVX1-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpsrlw $1, %xmm6, %xmm6
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm2			; AVX1-NEXT: vpand %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpsubw %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $1, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0
				; AVX1-NEXT: vpackuswb %xmm6, %xmm0, %xmm0
				; AVX1-NEXT: vpsubw %xmm5, %xmm1, %xmm1
				; AVX1-NEXT: vpsrlw $1, %xmm1, %xmm1
				; AVX1-NEXT: vpand %xmm7, %xmm1, %xmm1
				; AVX1-NEXT: vpsubw %xmm5, %xmm2, %xmm2
				; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2
				; AVX1-NEXT: vpand %xmm7, %xmm2, %xmm2
				; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
				; AVX1-NEXT: vpsubw %xmm5, %xmm4, %xmm2
				; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2
				; AVX1-NEXT: vpand %xmm7, %xmm2, %xmm2
				; AVX1-NEXT: vpsubw %xmm5, %xmm3, %xmm3
				; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3
				; AVX1-NEXT: vpand %xmm7, %xmm3, %xmm3
				; AVX1-NEXT: vpackuswb %xmm2, %xmm3, %xmm2
				; AVX1-NEXT: vmovdqu %xmm2, (%rax)
	; AVX1-NEXT: vmovdqu %xmm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vmovdqu %xmm4, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v48i8:			; AVX2-LABEL: avg_v48i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastq 24(%rdi), %xmm0			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpbroadcastq 8(%rdi), %xmm2			; AVX2-NEXT: vpbroadcastq 24(%rdi), %xmm2
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpbroadcastq 8(%rdi), %xmm3
	; AVX2-NEXT: vpbroadcastq 40(%rdi), %xmm4			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpbroadcastq 40(%rdi), %xmm5
	; AVX2-NEXT: vpbroadcastq 24(%rsi), %xmm6			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm0, %ymm0
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm6, %ymm0, %ymm6
	; AVX2-NEXT: vpbroadcastq 8(%rsi), %xmm6			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm7
	; AVX2-NEXT: vpaddd %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpbroadcastq 24(%rsi), %xmm0
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm3, %ymm3			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm8
	; AVX2-NEXT: vpbroadcastq 40(%rsi), %xmm6			; AVX2-NEXT: vpbroadcastq 8(%rsi), %xmm0
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm4, %ymm4			; AVX2-NEXT: vpaddd %ymm0, %ymm3, %ymm9
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm5, %ymm5			; AVX2-NEXT: vpaddd %ymm0, %ymm4, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm6, %ymm6			; AVX2-NEXT: vpbroadcastq 40(%rsi), %xmm0
	; AVX2-NEXT: vpsubd %ymm6, %ymm0, %ymm0			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm6, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm5, %ymm0
	; AVX2-NEXT: vpsubd %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vextracti128 $1, %ymm6, %xmm2
	; AVX2-NEXT: vpsubd %ymm6, %ymm3, %ymm3			; AVX2-NEXT: vpackusdw %xmm2, %xmm6, %xmm3
	; AVX2-NEXT: vpsubd %ymm6, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpsubd %ymm6, %ymm5, %ymm5			; AVX2-NEXT: vpsubw %xmm2, %xmm3, %xmm3
	; AVX2-NEXT: vpsrld $1, %ymm5, %ymm5			; AVX2-NEXT: vpsrlw $1, %xmm3, %xmm4
	; AVX2-NEXT: vpsrld $1, %ymm4, %ymm4			; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpsrld $1, %ymm3, %ymm3			; AVX2-NEXT: vpand %xmm3, %xmm4, %xmm4
	; AVX2-NEXT: vpsrld $1, %ymm2, %ymm2			; AVX2-NEXT: vextracti128 $1, %ymm7, %xmm5
	; AVX2-NEXT: vpsrld $1, %ymm1, %ymm1			; AVX2-NEXT: vpackusdw %xmm5, %xmm7, %xmm5
	; AVX2-NEXT: vpsrld $1, %ymm0, %ymm0			; AVX2-NEXT: vpsubw %xmm2, %xmm5, %xmm5
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm6 = ymm1[2,3],ymm0[2,3]			; AVX2-NEXT: vpsrlw $1, %xmm5, %xmm5
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX2-NEXT: vpand %xmm3, %xmm5, %xmm5
	; AVX2-NEXT: vpackusdw %ymm6, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm5, %ymm4
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vextracti128 $1, %ymm8, %xmm5
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %xmm5, %xmm8, %xmm5
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm6 = ymm3[2,3],ymm2[2,3]			; AVX2-NEXT: vpsubw %xmm2, %xmm5, %xmm5
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm3, %ymm2			; AVX2-NEXT: vpsrlw $1, %xmm5, %xmm5
	; AVX2-NEXT: vpackusdw %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpand %xmm3, %xmm5, %xmm5
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vextracti128 $1, %ymm9, %xmm6
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm3 = ymm2[2,3],ymm0[2,3]			; AVX2-NEXT: vpackusdw %xmm6, %xmm9, %xmm6
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0			; AVX2-NEXT: vpsubw %xmm2, %xmm6, %xmm6
	; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpsrlw $1, %xmm6, %xmm6
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm5[2,3],ymm4[2,3]			; AVX2-NEXT: vpand %xmm3, %xmm6, %xmm6
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm5, %ymm3			; AVX2-NEXT: vinserti128 $1, %xmm5, %ymm6, %ymm5
	; AVX2-NEXT: vpackusdw %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpackuswb %ymm5, %ymm4, %ymm4
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm5
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpackusdw %xmm5, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpsubw %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovdqu %xmm1, (%rax)			; AVX2-NEXT: vpsrlw $1, %xmm1, %xmm1
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1
				; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm5
				; AVX2-NEXT: vpackusdw %xmm5, %xmm0, %xmm0
				; AVX2-NEXT: vpsubw %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vpsrlw $1, %xmm0, %xmm0
				; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
				; AVX2-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: vmovdqu %xmm0, (%rax)
				; AVX2-NEXT: vmovdqu %ymm4, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: avg_v48i8:			; AVX512F-LABEL: avg_v48i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqa (%rdi), %xmm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2			; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2
	▲ Show 20 Lines • Show All 2,474 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-sra.ll

	Show First 20 Lines • Show All 242 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $1, %xmm2			; SSE-NEXT: psrad $1, %xmm2
	; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]
	; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_ashr:			; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_ashr:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
				; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
				lebedev.riUnsubmitted Not Done Reply Inline Actions Appears to be a regression lebedev.ri: Appears to be a regression
				xbolva00Unsubmitted Not Done Reply Inline Actions @RKSimon xbolva00: @RKSimon
				RKSimonAuthorUnsubmitted Done Reply Inline Actions Looking at this now - the set of combines that was necessary to get to the old codegen is pretty impressive..... RKSimon: Looking at this now - the set of combines that was necessary to get to the old codegen is…
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: combine_vec_ashr_trunc_ashr:			; AVX2-FAST-LABEL: combine_vec_ashr_trunc_ashr:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [1,3,5,7,5,7,6,7]			; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0
				; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	; AVX2-FAST-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	%1 = ashr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>			%1 = ashr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>
	%2 = trunc <4 x i64> %1 to <4 x i32>			%2 = trunc <4 x i64> %1 to <4 x i32>
	%3 = ashr <4 x i32> %2, <i32 0, i32 1, i32 2, i32 3>			%3 = ashr <4 x i32> %2, <i32 0, i32 1, i32 2, i32 3>
	ret <4 x i32> %3			ret <4 x i32> %3
	▲ Show 20 Lines • Show All 48 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/known-signbits-vector.ll

Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%5 = extractelement <2 x i64> %4, i32 0		%5 = extractelement <2 x i64> %4, i32 0
%6 = sitofp i64 %5 to float		%6 = sitofp i64 %5 to float
ret float %6		ret float %6
}		}

define <4 x double> @signbits_sext_shuffle_sitofp(<4 x i32> %a0, <4 x i64> %a1) nounwind {		define <4 x double> @signbits_sext_shuffle_sitofp(<4 x i32> %a0, <4 x i64> %a1) nounwind {
; X86-LABEL: signbits_sext_shuffle_sitofp:		; X86-LABEL: signbits_sext_shuffle_sitofp:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: vpmovsxdq %xmm0, %xmm1		; X86-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
; X86-NEXT: vpmovsxdq %xmm0, %xmm0
; X86-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; X86-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; X86-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; X86-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; X86-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]		; X86-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]		; X86-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X86-NEXT: vcvtdq2pd %xmm0, %ymm0		; X86-NEXT: vcvtdq2pd %xmm0, %ymm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-AVX1-LABEL: signbits_sext_shuffle_sitofp:		; X64-AVX1-LABEL: signbits_sext_shuffle_sitofp:
; X64-AVX1: # %bb.0:		; X64-AVX1: # %bb.0:
; X64-AVX1-NEXT: vpmovsxdq %xmm0, %xmm1		; X64-AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
; X64-AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; X64-AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
; X64-AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
; X64-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; X64-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; X64-AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; X64-AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]		; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]		; X64-AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X64-AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0		; X64-AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0
; X64-AVX1-NEXT: retq		; X64-AVX1-NEXT: retq
;		;
; X64-AVX2-LABEL: signbits_sext_shuffle_sitofp:		; X64-AVX2-LABEL: signbits_sext_shuffle_sitofp:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpmovsxdq %xmm0, %ymm0		; X64-AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; X64-AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,2,1,0]		; X64-AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,2,1,0]
; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; X64-AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]		; X64-AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X64-AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0		; X64-AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
%1 = sext <4 x i32> %a0 to <4 x i64>		%1 = sext <4 x i32> %a0 to <4 x i64>
%2 = shufflevector <4 x i64> %1, <4 x i64>%a1, <4 x i32> <i32 3, i32 2, i32 1, i32 0>		%2 = shufflevector <4 x i64> %1, <4 x i64>%a1, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
%3 = sitofp <4 x i64> %2 to <4 x double>		%3 = sitofp <4 x i64> %2 to <4 x double>
Show All 31 Lines	; X64-AVX2-NEXT: retq
%1 = sext <2 x i16> %a0 to <2 x i64>		%1 = sext <2 x i16> %a0 to <2 x i64>
%2 = shl <2 x i64> %1, <i64 11, i64 5>		%2 = shl <2 x i64> %1, <i64 11, i64 5>
%3 = sitofp <2 x i64> %2 to <2 x double>		%3 = sitofp <2 x i64> %2 to <2 x double>
ret <2 x double> %3		ret <2 x double> %3
}		}

; TODO: Fix vpshufd+vpsrlq -> vpshufd/vpermilps		; TODO: Fix vpshufd+vpsrlq -> vpshufd/vpermilps
define <2 x double> @signbits_ashr_concat_ashr_extract_sitofp(<2 x i64> %a0, <4 x i64> %a1) nounwind {		define <2 x double> @signbits_ashr_concat_ashr_extract_sitofp(<2 x i64> %a0, <4 x i64> %a1) nounwind {
; X86-LABEL: signbits_ashr_concat_ashr_extract_sitofp:		; CHECK-LABEL: signbits_ashr_concat_ashr_extract_sitofp:
; X86: # %bb.0:		; CHECK: # %bb.0:
; X86-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]		; CHECK-NEXT: vpsrlq $32, %xmm0, %xmm0
; X86-NEXT: vcvtdq2pd %xmm0, %xmm0		; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X86-NEXT: retl		; CHECK-NEXT: vcvtdq2pd %xmm0, %xmm0
;		; CHECK-NEXT: ret{{[l\|q]}}
; X64-LABEL: signbits_ashr_concat_ashr_extract_sitofp:
; X64: # %bb.0:
; X64-NEXT: vpsrlq $32, %xmm0, %xmm0
; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-NEXT: vcvtdq2pd %xmm0, %xmm0
; X64-NEXT: retq
%1 = ashr <2 x i64> %a0, <i64 16, i64 16>		%1 = ashr <2 x i64> %a0, <i64 16, i64 16>
%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>		%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
%3 = shufflevector <4 x i64> %a1, <4 x i64> %2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>		%3 = shufflevector <4 x i64> %a1, <4 x i64> %2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
%4 = ashr <4 x i64> %3, <i64 16, i64 16, i64 16, i64 16>		%4 = ashr <4 x i64> %3, <i64 16, i64 16, i64 16, i64 16>
%5 = shufflevector <4 x i64> %4, <4 x i64> undef, <2 x i32> <i32 2, i32 3>		%5 = shufflevector <4 x i64> %4, <4 x i64> undef, <2 x i32> <i32 2, i32 3>
%6 = sitofp <2 x i64> %5 to <2 x double>		%6 = sitofp <2 x i64> %5 to <2 x double>
ret <2 x double> %6		ret <2 x double> %6
}		}
▲ Show 20 Lines • Show All 466 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/min-legal-vector-width.ll

Show First 20 Lines • Show All 928 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%b = ashr <16 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>		%b = ashr <16 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
%c = trunc <16 x i32> %b to <16 x i16>		%c = trunc <16 x i32> %b to <16 x i16>
ret <16 x i16> %c		ret <16 x i16> %c
}		}

define <32 x i8> @trunc_v32i16_v32i8_sign(<32 x i16>* %x) nounwind "min-legal-vector-width"="256" {		define <32 x i8> @trunc_v32i16_v32i8_sign(<32 x i16>* %x) nounwind "min-legal-vector-width"="256" {
; CHECK-AVX512-LABEL: trunc_v32i16_v32i8_sign:		; CHECK-AVX512-LABEL: trunc_v32i16_v32i8_sign:
; CHECK-AVX512: # %bb.0:		; CHECK-AVX512: # %bb.0:
; CHECK-AVX512-NEXT: vpsraw $8, 32(%rdi), %ymm0		; CHECK-AVX512-NEXT: vpsrlw $8, 32(%rdi), %ymm0
; CHECK-AVX512-NEXT: vpsraw $8, (%rdi), %ymm1		; CHECK-AVX512-NEXT: vpsrlw $8, (%rdi), %ymm1
; CHECK-AVX512-NEXT: vpacksswb %ymm0, %ymm1, %ymm0		; CHECK-AVX512-NEXT: vpackuswb %ymm0, %ymm1, %ymm0
; CHECK-AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; CHECK-AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; CHECK-AVX512-NEXT: retq		; CHECK-AVX512-NEXT: retq
;		;
; CHECK-VBMI-LABEL: trunc_v32i16_v32i8_sign:		; CHECK-VBMI-LABEL: trunc_v32i16_v32i8_sign:
; CHECK-VBMI: # %bb.0:		; CHECK-VBMI: # %bb.0:
; CHECK-VBMI-NEXT: vmovdqa (%rdi), %ymm1		; CHECK-VBMI-NEXT: vmovdqa (%rdi), %ymm1
; CHECK-VBMI-NEXT: vmovdqa {{.*#+}} ymm0 = [1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63]		; CHECK-VBMI-NEXT: vmovdqa {{.*#+}} ymm0 = [1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63]
; CHECK-VBMI-NEXT: vpermi2b 32(%rdi), %ymm1, %ymm0		; CHECK-VBMI-NEXT: vpermi2b 32(%rdi), %ymm1, %ymm0
▲ Show 20 Lines • Show All 655 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc.ll

Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]		; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:		; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:
; AVX2-SLOW: # %bb.0: # %entry		; AVX2-SLOW: # %bb.0: # %entry
; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]		; AVX2-SLOW-NEXT: vpsrlq $32, %ymm1, %ymm1
; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0
; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]		; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
		; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
		; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]
; AVX2-SLOW-NEXT: retq		; AVX2-SLOW-NEXT: retq
		lebedev.riUnsubmitted Not Done Reply Inline Actions Appears to be a regression lebedev.ri: Appears to be a regression
;		;
; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:		; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:
; AVX2-FAST: # %bb.0: # %entry		; AVX2-FAST: # %bb.0: # %entry
; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [1,3,5,7,5,7,6,7]		; AVX2-FAST-NEXT: vpsrlq $32, %ymm1, %ymm1
; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0		; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0
; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1		; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
; AVX2-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
		; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
		; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-FAST-NEXT: retq		; AVX2-FAST-NEXT: retq
;		;
; AVX512-LABEL: trunc8i64_8i32_ashr:		; AVX512-LABEL: trunc8i64_8i32_ashr:
; AVX512: # %bb.0: # %entry		; AVX512: # %bb.0: # %entry
; AVX512-NEXT: vpsraq $32, %zmm0, %zmm0		; AVX512-NEXT: vpsrlq $32, %zmm0, %zmm0
; AVX512-NEXT: vpmovqd %zmm0, %ymm0		; AVX512-NEXT: vpmovqd %zmm0, %ymm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%0 = ashr <8 x i64> %a, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>		%0 = ashr <8 x i64> %a, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>
%1 = trunc <8 x i64> %0 to <8 x i32>		%1 = trunc <8 x i64> %0 to <8 x i32>
ret <8 x i32> %1		ret <8 x i32> %1
}		}

▲ Show 20 Lines • Show All 289 Lines • ▼ Show 20 Lines
; AVX512BWVL-NEXT: vzeroupper		; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
entry:		entry:
%0 = trunc <8 x i32> %a to <8 x i16>		%0 = trunc <8 x i32> %a to <8 x i16>
ret <8 x i16> %0		ret <8 x i16> %0
}		}

define <8 x i16> @trunc8i32_8i16_ashr(<8 x i32> %a) {		define <8 x i16> @trunc8i32_8i16_ashr(<8 x i32> %a) {
; SSE-LABEL: trunc8i32_8i16_ashr:		; SSE2-LABEL: trunc8i32_8i16_ashr:
; SSE: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm1
; SSE-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm0
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packssdw %xmm1, %xmm0
; SSE-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSSE3-LABEL: trunc8i32_8i16_ashr:
		; SSSE3: # %bb.0: # %entry
		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2,3,6,7,10,11,14,15,10,11,14,15,14,15,255,255]
		; SSSE3-NEXT: pshufb %xmm2, %xmm1
		; SSSE3-NEXT: pshufb %xmm2, %xmm0
		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
		; SSSE3-NEXT: retq
		lebedev.riUnsubmitted Not Done Reply Inline Actions I'm not very sure it's an improvement lebedev.ri: I'm not very sure it's an improvement
		lebedev.riUnsubmitted Not Done Reply Inline Actions Looks like for pre-SSE41 we still fail to detect high bits as zeros? lebedev.ri: Looks like for pre-SSE41 we still fail to detect high bits as zeros?
		RKSimonAuthorUnsubmitted Done Reply Inline Actions pre-SSE41 we don't have packusdw (I've no idea why this wasn't included in SSE2 with the rest of them...) so we have a fallback to continue to use packssdw RKSimon: pre-SSE41 we don't have packusdw (I've no idea why this wasn't included in SSE2 with the rest…
		;
		; SSE41-LABEL: trunc8i32_8i16_ashr:
		; SSE41: # %bb.0: # %entry
		; SSE41-NEXT: psrld $16, %xmm1
		; SSE41-NEXT: psrld $16, %xmm0
		; SSE41-NEXT: packusdw %xmm1, %xmm0
		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: trunc8i32_8i16_ashr:		; AVX1-LABEL: trunc8i32_8i16_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1		; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
; AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc8i32_8i16_ashr:		; AVX2-LABEL: trunc8i32_8i16_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpackssdw %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: trunc8i32_8i16_ashr:		; AVX512F-LABEL: trunc8i32_8i16_ashr:
; AVX512F: # %bb.0: # %entry		; AVX512F: # %bb.0: # %entry
; AVX512F-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512F-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512F-NEXT: vpmovdw %zmm0, %ymm0		; AVX512F-NEXT: vpmovdw %zmm0, %ymm0
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: trunc8i32_8i16_ashr:		; AVX512VL-LABEL: trunc8i32_8i16_ashr:
; AVX512VL: # %bb.0: # %entry		; AVX512VL: # %bb.0: # %entry
; AVX512VL-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512VL-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512VL-NEXT: vpmovdw %ymm0, %xmm0		; AVX512VL-NEXT: vpmovdw %ymm0, %xmm0
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: trunc8i32_8i16_ashr:		; AVX512BW-LABEL: trunc8i32_8i16_ashr:
; AVX512BW: # %bb.0: # %entry		; AVX512BW: # %bb.0: # %entry
; AVX512BW-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512BW-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512BW-NEXT: vpmovdw %zmm0, %ymm0		; AVX512BW-NEXT: vpmovdw %zmm0, %ymm0
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: trunc8i32_8i16_ashr:		; AVX512BWVL-LABEL: trunc8i32_8i16_ashr:
; AVX512BWVL: # %bb.0: # %entry		; AVX512BWVL: # %bb.0: # %entry
; AVX512BWVL-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX512BWVL-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX512BWVL-NEXT: vpmovdw %ymm0, %xmm0		; AVX512BWVL-NEXT: vpmovdw %ymm0, %xmm0
; AVX512BWVL-NEXT: vzeroupper		; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
entry:		entry:
%0 = ashr <8 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>		%0 = ashr <8 x i32> %a, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
%1 = trunc <8 x i32> %0 to <8 x i16>		%1 = trunc <8 x i32> %0 to <8 x i16>
ret <8 x i16> %1		ret <8 x i16> %1
}		}
▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%0 = trunc <16 x i32> %a to <16 x i16>		%0 = trunc <16 x i32> %a to <16 x i16>
store <16 x i16> %0, <16 x i16>* undef, align 4		store <16 x i16> %0, <16 x i16>* undef, align 4
ret void		ret void
}		}

define void @trunc16i32_16i16_ashr(<16 x i32> %a) {		define void @trunc16i32_16i16_ashr(<16 x i32> %a) {
; SSE-LABEL: trunc16i32_16i16_ashr:		; SSE2-LABEL: trunc16i32_16i16_ashr:
; SSE: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE-NEXT: psrad $16, %xmm3		; SSE2-NEXT: psrad $16, %xmm1
; SSE-NEXT: psrad $16, %xmm2		; SSE2-NEXT: psrad $16, %xmm0
; SSE-NEXT: packssdw %xmm3, %xmm2		; SSE2-NEXT: packssdw %xmm1, %xmm0
; SSE-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm3
; SSE-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm2
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packssdw %xmm3, %xmm2
; SSE-NEXT: movdqu %xmm2, (%rax)		; SSE2-NEXT: movdqu %xmm2, (%rax)
; SSE-NEXT: movdqu %xmm0, (%rax)		; SSE2-NEXT: movdqu %xmm0, (%rax)
; SSE-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSSE3-LABEL: trunc16i32_16i16_ashr:
		; SSSE3: # %bb.0: # %entry
		; SSSE3-NEXT: psrad $16, %xmm1
		; SSSE3-NEXT: psrad $16, %xmm0
		; SSSE3-NEXT: packssdw %xmm1, %xmm0
		; SSSE3-NEXT: psrad $16, %xmm3
		; SSSE3-NEXT: psrad $16, %xmm2
		; SSSE3-NEXT: packssdw %xmm3, %xmm2
		; SSSE3-NEXT: movdqu %xmm2, (%rax)
		; SSSE3-NEXT: movdqu %xmm0, (%rax)
		; SSSE3-NEXT: retq
		;
		; SSE41-LABEL: trunc16i32_16i16_ashr:
		; SSE41: # %bb.0: # %entry
		; SSE41-NEXT: psrld $16, %xmm3
		; SSE41-NEXT: psrld $16, %xmm2
		; SSE41-NEXT: packusdw %xmm3, %xmm2
		; SSE41-NEXT: psrld $16, %xmm1
		; SSE41-NEXT: psrld $16, %xmm0
		; SSE41-NEXT: packusdw %xmm1, %xmm0
		; SSE41-NEXT: movdqu %xmm2, (%rax)
		; SSE41-NEXT: movdqu %xmm0, (%rax)
		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: trunc16i32_16i16_ashr:		; AVX1-LABEL: trunc16i32_16i16_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1		; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vmovdqu %xmm1, (%rax)		; AVX1-NEXT: vmovdqu %xmm1, (%rax)
; AVX1-NEXT: vmovdqu %xmm0, (%rax)		; AVX1-NEXT: vmovdqu %xmm0, (%rax)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc16i32_16i16_ashr:		; AVX2-LABEL: trunc16i32_16i16_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1		; AVX2-NEXT: vpsrld $16, %ymm1, %ymm1
; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX2-NEXT: vmovdqu %ymm0, (%rax)		; AVX2-NEXT: vmovdqu %ymm0, (%rax)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: trunc16i32_16i16_ashr:		; AVX512-LABEL: trunc16i32_16i16_ashr:
; AVX512: # %bb.0: # %entry		; AVX512: # %bb.0: # %entry
; AVX512-NEXT: vpsrld $16, %zmm0, %zmm0		; AVX512-NEXT: vpsrld $16, %zmm0, %zmm0
▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%0 = trunc <16 x i32> %a to <16 x i8>		%0 = trunc <16 x i32> %a to <16 x i8>
store <16 x i8> %0, <16 x i8>* undef, align 4		store <16 x i8> %0, <16 x i8>* undef, align 4
ret void		ret void
}		}

define void @trunc16i32_16i8_ashr(<16 x i32> %a) {		define void @trunc16i32_16i8_ashr(<16 x i32> %a) {
; SSE-LABEL: trunc16i32_16i8_ashr:		; SSE2-LABEL: trunc16i32_16i8_ashr:
; SSE: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE-NEXT: psrad $24, %xmm1		; SSE2-NEXT: psrld $24, %xmm1
; SSE-NEXT: psrad $24, %xmm0		; SSE2-NEXT: psrld $24, %xmm0
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packuswb %xmm1, %xmm0
; SSE-NEXT: psrad $24, %xmm3		; SSE2-NEXT: psrld $24, %xmm3
; SSE-NEXT: psrad $24, %xmm2		; SSE2-NEXT: psrld $24, %xmm2
; SSE-NEXT: packssdw %xmm3, %xmm2		; SSE2-NEXT: packuswb %xmm3, %xmm2
; SSE-NEXT: packsswb %xmm2, %xmm0		; SSE2-NEXT: packuswb %xmm2, %xmm0
; SSE-NEXT: movdqu %xmm0, (%rax)		; SSE2-NEXT: movdqu %xmm0, (%rax)
; SSE-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSSE3-LABEL: trunc16i32_16i8_ashr:
		; SSSE3: # %bb.0: # %entry
		; SSSE3-NEXT: psrld $24, %xmm1
		; SSSE3-NEXT: psrld $24, %xmm0
		; SSSE3-NEXT: packuswb %xmm1, %xmm0
		; SSSE3-NEXT: psrld $24, %xmm3
		; SSSE3-NEXT: psrld $24, %xmm2
		; SSSE3-NEXT: packuswb %xmm3, %xmm2
		; SSSE3-NEXT: packuswb %xmm2, %xmm0
		; SSSE3-NEXT: movdqu %xmm0, (%rax)
		; SSSE3-NEXT: retq
		;
		; SSE41-LABEL: trunc16i32_16i8_ashr:
		; SSE41: # %bb.0: # %entry
		; SSE41-NEXT: psrld $24, %xmm1
		; SSE41-NEXT: psrld $24, %xmm0
		; SSE41-NEXT: packusdw %xmm1, %xmm0
		; SSE41-NEXT: psrld $24, %xmm3
		; SSE41-NEXT: psrld $24, %xmm2
		; SSE41-NEXT: packusdw %xmm3, %xmm2
		; SSE41-NEXT: packuswb %xmm2, %xmm0
		; SSE41-NEXT: movdqu %xmm0, (%rax)
		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: trunc16i32_16i8_ashr:		; AVX1-LABEL: trunc16i32_16i8_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $24, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $24, %xmm0, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $24, %xmm2, %xmm2
; AVX1-NEXT: vpsrad $24, %xmm1, %xmm1		; AVX1-NEXT: vpsrld $24, %xmm1, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovdqu %xmm0, (%rax)		; AVX1-NEXT: vmovdqu %xmm0, (%rax)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc16i32_16i8_ashr:		; AVX2-LABEL: trunc16i32_16i8_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsrad $24, %ymm1, %ymm1		; AVX2-NEXT: vpsrld $24, %ymm1, %ymm1
; AVX2-NEXT: vpsrad $24, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $24, %ymm0, %ymm0
; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vmovdqu %xmm0, (%rax)		; AVX2-NEXT: vmovdqu %xmm0, (%rax)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: trunc16i32_16i8_ashr:		; AVX512-LABEL: trunc16i32_16i8_ashr:
; AVX512: # %bb.0: # %entry		; AVX512: # %bb.0: # %entry
; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0		; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0
; AVX512-NEXT: vpmovdb %zmm0, (%rax)		; AVX512-NEXT: vpmovdb %zmm0, (%rax)
▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines	entry:
%0 = trunc <16 x i16> %a to <16 x i8>		%0 = trunc <16 x i16> %a to <16 x i8>
store <16 x i8> %0, <16 x i8>* undef, align 4		store <16 x i8> %0, <16 x i8>* undef, align 4
ret void		ret void
}		}

define void @trunc16i16_16i8_ashr(<16 x i16> %a) {		define void @trunc16i16_16i8_ashr(<16 x i16> %a) {
; SSE-LABEL: trunc16i16_16i8_ashr:		; SSE-LABEL: trunc16i16_16i8_ashr:
; SSE: # %bb.0: # %entry		; SSE: # %bb.0: # %entry
; SSE-NEXT: psraw $8, %xmm1		; SSE-NEXT: psrlw $8, %xmm1
; SSE-NEXT: psraw $8, %xmm0		; SSE-NEXT: psrlw $8, %xmm0
; SSE-NEXT: packsswb %xmm1, %xmm0		; SSE-NEXT: packuswb %xmm1, %xmm0
; SSE-NEXT: movdqu %xmm0, (%rax)		; SSE-NEXT: movdqu %xmm0, (%rax)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: trunc16i16_16i8_ashr:		; AVX1-LABEL: trunc16i16_16i8_ashr:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpsraw $8, %xmm1, %xmm1		; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
; AVX1-NEXT: vpsraw $8, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovdqu %xmm0, (%rax)		; AVX1-NEXT: vmovdqu %xmm0, (%rax)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc16i16_16i8_ashr:		; AVX2-LABEL: trunc16i16_16i8_ashr:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vpsraw $8, %ymm0, %ymm0		; AVX2-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vmovdqu %xmm0, (%rax)		; AVX2-NEXT: vmovdqu %xmm0, (%rax)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: trunc16i16_16i8_ashr:		; AVX512F-LABEL: trunc16i16_16i8_ashr:
; AVX512F: # %bb.0: # %entry		; AVX512F: # %bb.0: # %entry
; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0		; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero		; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512F-NEXT: vpmovdb %zmm0, (%rax)		; AVX512F-NEXT: vpmovdb %zmm0, (%rax)
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: trunc16i16_16i8_ashr:		; AVX512VL-LABEL: trunc16i16_16i8_ashr:
; AVX512VL: # %bb.0: # %entry		; AVX512VL: # %bb.0: # %entry
; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0		; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero		; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512VL-NEXT: vpmovdb %zmm0, (%rax)		; AVX512VL-NEXT: vpmovdb %zmm0, (%rax)
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: trunc16i16_16i8_ashr:		; AVX512BW-LABEL: trunc16i16_16i8_ashr:
; AVX512BW: # %bb.0: # %entry		; AVX512BW: # %bb.0: # %entry
; AVX512BW-NEXT: vpsraw $8, %ymm0, %ymm0		; AVX512BW-NEXT: vpsrlw $8, %ymm0, %ymm0
; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0		; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
; AVX512BW-NEXT: vmovdqu %xmm0, (%rax)		; AVX512BW-NEXT: vmovdqu %xmm0, (%rax)
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: trunc16i16_16i8_ashr:		; AVX512BWVL-LABEL: trunc16i16_16i8_ashr:
; AVX512BWVL: # %bb.0: # %entry		; AVX512BWVL: # %bb.0: # %entry
; AVX512BWVL-NEXT: vpsrlw $8, %ymm0, %ymm0		; AVX512BWVL-NEXT: vpsrlw $8, %ymm0, %ymm0
▲ Show 20 Lines • Show All 949 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATEClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 251843

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

llvm/test/CodeGen/ARM/lowerMUL-newload.ll

llvm/test/CodeGen/X86/avg.ll

llvm/test/CodeGen/X86/combine-sra.ll

llvm/test/CodeGen/X86/known-signbits-vector.ll

llvm/test/CodeGen/X86/min-legal-vector-width.ll

llvm/test/CodeGen/X86/vector-trunc.ll

[DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE
ClosedPublic