This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
lib/Target/X86/
-
Target/
-
X86/
-
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
avx-cvt-2.ll
-
avx2-shift.ll
-
avx2-vbroadcast.ll
-
avx2-vector-shifts.ll
-
avx512-any_extend_load.ll
-
avx512-trunc.ll
-
bitcast-and-setcc-256.ll
-
bitcast-and-setcc-512.ll
-
bitcast-setcc-128.ll
-
psubus.ll
-
shuffle-strided-with-offset-256.ll
-
vector-compare-results.ll
-
vector-shift-ashr-128.ll
-
vector-trunc.ll
-
vselect-avx.ll
-
widen_arith-2.ll

Differential D38472

[X86][SSE] Add support for lowering shuffles to PACKSS/PACKUS
ClosedPublic

Authored by RKSimon on Oct 2 2017, 11:02 AM.

Download Raw Diff

Details

Reviewers

craig.topper
zvi
spatel
andreadb
rob.lougher
pcordes

Commits

rGf5f291d12915: [X86][SSE] Add support for lowering shuffles to PACKSS/PACKUS
rL314788: [X86][SSE] Add support for lowering shuffles to PACKSS/PACKUS

Summary

If the upper bits of a truncation shuffle patterns have at least the minimum number of sign/zero bits on their inputs then we can safely use PACKSS/PACKUS as shuffles.

Partial fix for https://bugs.llvm.org/show_bug.cgi?id=34773

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Oct 2 2017, 11:02 AM

Looks like many significant improvements, but a couple possible regressions where we now get a shift+pack instead of a single pshufb. e.g. in trunc16i32_16i8_lshr, trunc8i32_8i16_lshr, and a couple other cases.

test/CodeGen/X86/shuffle-strided-with-offset-256.ll
92 ↗	(On Diff #117394)	Possible regression here, if this happens in a loop. Saving a pshufb vector constant may be worth it for a one-off, but vpsrld + vpackusdw is pretty much always worse for throughput than vpshufb.
test/CodeGen/X86/sse2-intrinsics-x86.ll
687 ↗	(On Diff #117394)	Apparently constant propagation through packssdw-with-zero wasn't working before, but this fixes it.
test/CodeGen/X86/vector-compare-results.ll
3553 ↗	(On Diff #117394)	packing into a single vector is a waste if we're still going to pextrb each element separately, and do a bunch of dead stores to `2(%rdi)`... what the heck is going on here? Surely the pextr/and/mov asm is total garbage that we really don't want, right? BTW, `psrlw $15, %xmm6` before packing from words to bytes will avoid the need for `and $1`, so you could extract directly to memory.
test/CodeGen/X86/vector-trunc.ll
409 ↗	(On Diff #117394)	If I'm understanding this function right, there's still a big missed optimization: psrad $16, %xmm0 # get the words we want aligned with the garbage in xmm1 pblendw $alternating, %xmm1, %xmm0 pshufb (fix the order), %xmm0 ret But this patch isn't trying to fix that. TODO: report this separately.
495 ↗	(On Diff #117394)	This is questionable. 2x shift + 2x pack + punpck is probably worse than 2x pshufb / punpck. Even better (if register pressure allows) would be 2x pshufb / POR, with 2 different shuffle-masks that leave the data high or low and zero the other half.

This revision is now accepted and ready to land.Oct 2 2017, 5:58 PM

RKSimon mentioned this in rL314776: [X86][SSE] Add support for PACKSS/PACKUS constant folding.Oct 3 2017, 2:42 AM

RKSimon mentioned this in rL314777: [X86][SSE] Add support for shuffle combining from PACKSS/PACKUS.Oct 3 2017, 2:55 AM

Added comments before I commit, the remaining regressions should be handled when we enable shuffle combining to create PACKSS/PACKUS as well as combine from them. But that can only be done once lowering has landed.

test/CodeGen/X86/shuffle-strided-with-offset-256.ll
92 ↗	(On Diff #117394)	This is a typical example of the separate shuffle (and shuffle like) instructions now falling below the "3-ops" limit before combining to a shuffle with variable masks. This needs to be driven by the scheduler model but we're no where close to supporting that yet.
test/CodeGen/X86/sse2-intrinsics-x86.ll
687 ↗	(On Diff #117394)	I pushed this as a separate commit at rL314776
test/CodeGen/X86/vector-compare-results.ll
3553 ↗	(On Diff #117394)	This codegen is still a joke - its doing nothing but demonstrating how bad we handle boolean vectors - if you look below you'll see that every single extracted value is stored to the same byte of memory..... See https://bugs.llvm.org/show_bug.cgi?id=31265
test/CodeGen/X86/vector-trunc.ll
409 ↗	(On Diff #117394)	Even better it should just combine to: psrad $16, %xmm0 psrad $16, %xmm1 packssdw %xmm1, %xmm0 That should be handled when we enable shuffle combining to create PACKSS/PACKUS nodes (and not just lowering).
495 ↗	(On Diff #117394)	I reckon we should be able to combine to psrld $16, %xmm0 psrld $16, %xmm1 packusdw %xmm1, %xmm0

Closed by commit rL314788: [X86][SSE] Add support for lowering shuffles to PACKSS/PACKUS (authored by RKSimon). · Explain WhyOct 3 2017, 5:03 AM

This revision was automatically updated to reflect the committed changes.

Some CPUs have good pblendw throughput, it's not always a win to do 2 shifts. (But I guess that's the same problem you mentioned in https://reviews.llvm.org/D38472?id=117394#inline-335636, that the scheduler model isn't close to figuring out when to use a variable-shuffle to reduce port pressure?)

I hope clang isn't going to start compiling _mm_shuffle_epi8 into psrlw $8, %xmm0 / packsswb %xmm0,%xmm0 in cases where that's not a win, when the shuffle control constant lets it do that.

I guess it's a tricky tradeoff between aggressive optimization of intrinsics helping novices (or code tuned for a uarch that isn't the target) vs. defeating deliberate tuning choices. I think it's good to have at least one compiler (clang) that does aggressively optimize, since we can always use gcc instead or for comparison.

test/CodeGen/X86/vector-trunc.ll
409 ↗	(On Diff #117394)	@RKSimon: Yeah, that's usually better on Skylake, where immediate vector shifts have 0.5c throughput (running on ports 0 or 1) but pblendw and pshufb compete for port 5. It would only be worse in a loop with lots of p01 pressure and very low p5 pressure. On Haswell, pblendw and pshufb still compete for port 5, but shifts compete for port 0. So depending on the surrounding code, it's worth considering both options to use the one that uses more of the port with lower demand. On Ryzen, pblendw has 0.33c throughput (ports p013). pshufb and packss run on p12 (0.5c throughput). psrad runs on p2 only (1c throughput), so it's a potential throughput bottleneck in a loop that isn't doing other stuff on other ports. My sequence has twice the throughput, both bottlencked on port 2 for shift uops. On Sandybridge: pblendw and pshufb/pack: p15. psrad: p0. So like Ryzen, we get 2x the throughput from my sequence (if used on its own). On Nehalem, psrad, packss, pshufb, and pblendw all run on p05.

RKSimon mentioned this in rL314901: [X86][SSE] Add support for lowering unary shuffles to PACKSS/PACKUS.Oct 4 2017, 6:14 AM

RKSimon mentioned this in rL314916: [X86][SSE] Add support for lowering v8i16 binary shuffles to PACKSS/PACKUS.Oct 4 2017, 10:33 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

53 lines

test/

CodeGen/

X86/

avx-cvt-2.ll

4 lines

avx2-shift.ll

4 lines

avx2-vbroadcast.ll

8 lines

avx2-vector-shifts.ll

4 lines

avx512-any_extend_load.ll

2 lines

avx512-trunc.ll

2 lines

bitcast-and-setcc-256.ll

82 lines

bitcast-and-setcc-512.ll

61 lines

bitcast-setcc-128.ll

62 lines

psubus.ll

173 lines

shuffle-strided-with-offset-256.ll

3 lines

vector-compare-results.ll

287 lines

vector-shift-ashr-128.ll

4 lines

vector-trunc.ll

146 lines

vselect-avx.ll

10 lines

widen_arith-2.ll

11 lines

Diff 117502

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 8,658 Lines • ▼ Show 20 Lines	static SDValue lowerVectorShuffleWithUNPCK(const SDLoc &DL, MVT VT,

ShuffleVectorSDNode::commuteMask(Unpckh);		ShuffleVectorSDNode::commuteMask(Unpckh);
if (isShuffleEquivalent(V1, V2, Mask, Unpckh))		if (isShuffleEquivalent(V1, V2, Mask, Unpckh))
return DAG.getNode(X86ISD::UNPCKH, DL, VT, V2, V1);		return DAG.getNode(X86ISD::UNPCKH, DL, VT, V2, V1);

return SDValue();		return SDValue();
}		}

		// X86 has dedicated pack instructions that can handle specific truncation
		// operations: PACKSS and PACKUS.
		static SDValue lowerVectorShuffleWithPACK(const SDLoc &DL, MVT VT,
		ArrayRef<int> Mask, SDValue V1,
		SDValue V2, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
		unsigned NumElts = VT.getVectorNumElements();
		unsigned BitSize = VT.getScalarSizeInBits();
		MVT PackSVT = MVT::getIntegerVT(BitSize * 2);
		MVT PackVT = MVT::getVectorVT(PackSVT, NumElts / 2);

		// TODO - Add support for unary packs.
		SmallVector<int, 32> BinaryMask;
		createPackShuffleMask(VT, BinaryMask, false);

		if (isShuffleEquivalent(V1, V2, Mask, BinaryMask)) {
		SDValue VV1 = DAG.getBitcast(PackVT, V1);
		SDValue VV2 = DAG.getBitcast(PackVT, V2);
		if ((V1.isUndef() \|\| DAG.ComputeNumSignBits(VV1) > BitSize) &&
		(V2.isUndef() \|\| DAG.ComputeNumSignBits(VV2) > BitSize))
		return DAG.getNode(X86ISD::PACKSS, DL, VT, VV1, VV2);

		if (Subtarget.hasSSE41() \|\| PackSVT == MVT::i16) {
		APInt ZeroMask = APInt::getHighBitsSet(BitSize * 2, BitSize);
		if ((V1.isUndef() \|\| DAG.MaskedValueIsZero(VV1, ZeroMask)) &&
		(V2.isUndef() \|\| DAG.MaskedValueIsZero(VV2, ZeroMask)))
		return DAG.getNode(X86ISD::PACKUS, DL, VT, VV1, VV2);
		}
		}

		return SDValue();
		}

/// \brief Try to emit a bitmask instruction for a shuffle.		/// \brief Try to emit a bitmask instruction for a shuffle.
///		///
/// This handles cases where we can model a blend exactly as a bitmask due to		/// This handles cases where we can model a blend exactly as a bitmask due to
/// one of the inputs being zeroable.		/// one of the inputs being zeroable.
static SDValue lowerVectorShuffleAsBitMask(const SDLoc &DL, MVT VT, SDValue V1,		static SDValue lowerVectorShuffleAsBitMask(const SDLoc &DL, MVT VT, SDValue V1,
SDValue V2, ArrayRef<int> Mask,		SDValue V2, ArrayRef<int> Mask,
const APInt &Zeroable,		const APInt &Zeroable,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
▲ Show 20 Lines • Show All 2,723 Lines • ▼ Show 20 Lines	if (SDValue Shift = lowerVectorShuffleAsShift(DL, MVT::v8i16, V1, V1, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return Shift;		return Shift;

// Use dedicated unpack instructions for masks that match their pattern.		// Use dedicated unpack instructions for masks that match their pattern.
if (SDValue V =		if (SDValue V =
lowerVectorShuffleWithUNPCK(DL, MVT::v8i16, Mask, V1, V2, DAG))		lowerVectorShuffleWithUNPCK(DL, MVT::v8i16, Mask, V1, V2, DAG))
return V;		return V;

		// Use dedicated pack instructions for masks that match their pattern.
		if (SDValue V = lowerVectorShuffleWithPACK(DL, MVT::v8i16, Mask, V1, V2,
		DAG, Subtarget))
		return V;

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(DL, MVT::v8i16, V1, V1,		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(DL, MVT::v8i16, V1, V1,
Mask, Subtarget, DAG))		Mask, Subtarget, DAG))
return Rotate;		return Rotate;

// Make a copy of the mask so it can be modified.		// Make a copy of the mask so it can be modified.
SmallVector<int, 8> MutableMask(Mask.begin(), Mask.end());		SmallVector<int, 8> MutableMask(Mask.begin(), Mask.end());
return lowerV8I16GeneralSingleInputVectorShuffle(DL, MVT::v8i16, V1,		return lowerV8I16GeneralSingleInputVectorShuffle(DL, MVT::v8i16, V1,
▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines	if (SDValue Shift = lowerVectorShuffleAsShift(DL, MVT::v16i8, V1, V2, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return Shift;		return Shift;

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(
DL, MVT::v16i8, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v16i8, V1, V2, Mask, Subtarget, DAG))
return Rotate;		return Rotate;

		// Use dedicated pack instructions for masks that match their pattern.
		if (SDValue V = lowerVectorShuffleWithPACK(DL, MVT::v16i8, Mask, V1, V2, DAG,
		Subtarget))
		return V;

// Try to use a zext lowering.		// Try to use a zext lowering.
if (SDValue ZExt = lowerVectorShuffleAsZeroOrAnyExtend(		if (SDValue ZExt = lowerVectorShuffleAsZeroOrAnyExtend(
DL, MVT::v16i8, V1, V2, Mask, Zeroable, Subtarget, DAG))		DL, MVT::v16i8, V1, V2, Mask, Zeroable, Subtarget, DAG))
return ZExt;		return ZExt;

// See if we can use SSE4A Extraction / Insertion.		// See if we can use SSE4A Extraction / Insertion.
if (Subtarget.hasSSE4A())		if (Subtarget.hasSSE4A())
if (SDValue V = lowerVectorShuffleWithSSE4A(DL, MVT::v16i8, V1, V2, Mask,		if (SDValue V = lowerVectorShuffleWithSSE4A(DL, MVT::v16i8, V1, V2, Mask,
▲ Show 20 Lines • Show All 1,478 Lines • ▼ Show 20 Lines	if (SDValue Blend = lowerVectorShuffleAsBlend(DL, MVT::v16i16, V1, V2, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return Blend;		return Blend;

// Use dedicated unpack instructions for masks that match their pattern.		// Use dedicated unpack instructions for masks that match their pattern.
if (SDValue V =		if (SDValue V =
lowerVectorShuffleWithUNPCK(DL, MVT::v16i16, Mask, V1, V2, DAG))		lowerVectorShuffleWithUNPCK(DL, MVT::v16i16, Mask, V1, V2, DAG))
return V;		return V;

		// Use dedicated pack instructions for masks that match their pattern.
		if (SDValue V = lowerVectorShuffleWithPACK(DL, MVT::v16i16, Mask, V1, V2, DAG,
		Subtarget))
		return V;

// Try to use shift instructions.		// Try to use shift instructions.
if (SDValue Shift = lowerVectorShuffleAsShift(DL, MVT::v16i16, V1, V2, Mask,		if (SDValue Shift = lowerVectorShuffleAsShift(DL, MVT::v16i16, V1, V2, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return Shift;		return Shift;

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(
DL, MVT::v16i16, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v16i16, V1, V2, Mask, Subtarget, DAG))
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	if (SDValue Blend = lowerVectorShuffleAsBlend(DL, MVT::v32i8, V1, V2, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return Blend;		return Blend;

// Use dedicated unpack instructions for masks that match their pattern.		// Use dedicated unpack instructions for masks that match their pattern.
if (SDValue V =		if (SDValue V =
lowerVectorShuffleWithUNPCK(DL, MVT::v32i8, Mask, V1, V2, DAG))		lowerVectorShuffleWithUNPCK(DL, MVT::v32i8, Mask, V1, V2, DAG))
return V;		return V;

		// Use dedicated pack instructions for masks that match their pattern.
		if (SDValue V = lowerVectorShuffleWithPACK(DL, MVT::v32i8, Mask, V1, V2, DAG,
		Subtarget))
		return V;

// Try to use shift instructions.		// Try to use shift instructions.
if (SDValue Shift = lowerVectorShuffleAsShift(DL, MVT::v32i8, V1, V2, Mask,		if (SDValue Shift = lowerVectorShuffleAsShift(DL, MVT::v32i8, V1, V2, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return Shift;		return Shift;

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(
DL, MVT::v32i8, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v32i8, V1, V2, Mask, Subtarget, DAG))
▲ Show 20 Lines • Show All 24,098 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx-cvt-2.ll

	Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: fptoui8:			; CHECK-LABEL: fptoui8:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vcvttps2dq %ymm0, %ymm0			; CHECK-NEXT: vcvttps2dq %ymm0, %ymm0
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; CHECK-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; CHECK-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; CHECK-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; CHECK-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; CHECK-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]			; CHECK-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vmovq %xmm0, (%rdi)			; CHECK-NEXT: vmovq %xmm0, (%rdi)
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%b = fptoui %f32vec_t %a to %i8vec_t			%b = fptoui %f32vec_t %a to %i8vec_t
	store %i8vec_t %b, %i8vec_t * %p			store %i8vec_t %b, %i8vec_t * %p
	ret void			ret void
	}			}

	define void @fptosi8(%f32vec_t %a, %i8vec_t *%p) {			define void @fptosi8(%f32vec_t %a, %i8vec_t *%p) {
	; CHECK-LABEL: fptosi8:			; CHECK-LABEL: fptosi8:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vcvttps2dq %ymm0, %ymm0			; CHECK-NEXT: vcvttps2dq %ymm0, %ymm0
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; CHECK-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; CHECK-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; CHECK-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; CHECK-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; CHECK-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]			; CHECK-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vmovq %xmm0, (%rdi)			; CHECK-NEXT: vmovq %xmm0, (%rdi)
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%b = fptosi %f32vec_t %a to %i8vec_t			%b = fptosi %f32vec_t %a to %i8vec_t
	store %i8vec_t %b, %i8vec_t * %p			store %i8vec_t %b, %i8vec_t * %p
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/avx2-shift.ll

	Show First 20 Lines • Show All 550 Lines • ▼ Show 20 Lines
	}			}

	define <8 x i16> @variable_ashr16(<8 x i16> %lhs, <8 x i16> %rhs) {			define <8 x i16> @variable_ashr16(<8 x i16> %lhs, <8 x i16> %rhs) {
	; X32-LABEL: variable_ashr16:			; X32-LABEL: variable_ashr16:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; X32-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; X32-NEXT: vpmovsxwd %xmm0, %ymm0			; X32-NEXT: vpmovsxwd %xmm0, %ymm0
	; X32-NEXT: vpsravd %ymm1, %ymm0, %ymm0			; X32-NEXT: vpsravd %ymm1, %ymm0, %ymm0
	; X32-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; X32-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; X32-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; X32-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; X32-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; X32-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; X32-NEXT: vzeroupper			; X32-NEXT: vzeroupper
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: variable_ashr16:			; X64-LABEL: variable_ashr16:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; X64-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; X64-NEXT: vpmovsxwd %xmm0, %ymm0			; X64-NEXT: vpmovsxwd %xmm0, %ymm0
	; X64-NEXT: vpsravd %ymm1, %ymm0, %ymm0			; X64-NEXT: vpsravd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; X64-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; X64-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; X64-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; X64-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; X64-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	%res = ashr <8 x i16> %lhs, %rhs			%res = ashr <8 x i16> %lhs, %rhs
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

	Show All 25 Lines

llvm/trunk/test/CodeGen/X86/avx2-vbroadcast.ll

Show First 20 Lines • Show All 261 Lines • ▼ Show 20 Lines	; X64-AVX512VL-NEXT: retq
%shuf = shufflevector <4 x i16> %load, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>		%shuf = shufflevector <4 x i16> %load, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
ret <8 x i16> %shuf		ret <8 x i16> %shuf
}		}

define <16 x i16> @broadcast_mem_v4i16_v16i16(<4 x i16>* %ptr) {		define <16 x i16> @broadcast_mem_v4i16_v16i16(<4 x i16>* %ptr) {
; X32-AVX2-LABEL: broadcast_mem_v4i16_v16i16:		; X32-AVX2-LABEL: broadcast_mem_v4i16_v16i16:
; X32-AVX2: ## BB#0:		; X32-AVX2: ## BB#0:
; X32-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; X32-AVX2-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
; X32-AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6,7,4,5,6,7,6,7],zero,zero		; X32-AVX2-NEXT: vpackusdw %xmm0, %xmm0, %xmm0
; X32-AVX2-NEXT: vpbroadcastq %xmm0, %ymm0		; X32-AVX2-NEXT: vpbroadcastq %xmm0, %ymm0
; X32-AVX2-NEXT: retl		; X32-AVX2-NEXT: retl
;		;
; X64-AVX2-LABEL: broadcast_mem_v4i16_v16i16:		; X64-AVX2-LABEL: broadcast_mem_v4i16_v16i16:
; X64-AVX2: ## BB#0:		; X64-AVX2: ## BB#0:
; X64-AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
; X64-AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6,7,4,5,6,7,6,7],zero,zero		; X64-AVX2-NEXT: vpackusdw %xmm0, %xmm0, %xmm0
; X64-AVX2-NEXT: vpbroadcastq %xmm0, %ymm0		; X64-AVX2-NEXT: vpbroadcastq %xmm0, %ymm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
;		;
; X32-AVX512VL-LABEL: broadcast_mem_v4i16_v16i16:		; X32-AVX512VL-LABEL: broadcast_mem_v4i16_v16i16:
; X32-AVX512VL: ## BB#0:		; X32-AVX512VL: ## BB#0:
; X32-AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX512VL-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero		; X32-AVX512VL-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
; X32-AVX512VL-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]		; X32-AVX512VL-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
▲ Show 20 Lines • Show All 1,290 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx2-vector-shifts.ll

	Show First 20 Lines • Show All 493 Lines • ▼ Show 20 Lines
	}			}

	define <8 x i16> @ashr_8i16(<8 x i16> %r, <8 x i16> %a) nounwind {			define <8 x i16> @ashr_8i16(<8 x i16> %r, <8 x i16> %a) nounwind {
	; X32-LABEL: ashr_8i16:			; X32-LABEL: ashr_8i16:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; X32-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; X32-NEXT: vpmovsxwd %xmm0, %ymm0			; X32-NEXT: vpmovsxwd %xmm0, %ymm0
	; X32-NEXT: vpsravd %ymm1, %ymm0, %ymm0			; X32-NEXT: vpsravd %ymm1, %ymm0, %ymm0
	; X32-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; X32-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; X32-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; X32-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; X32-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; X32-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; X32-NEXT: vzeroupper			; X32-NEXT: vzeroupper
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: ashr_8i16:			; X64-LABEL: ashr_8i16:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; X64-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; X64-NEXT: vpmovsxwd %xmm0, %ymm0			; X64-NEXT: vpmovsxwd %xmm0, %ymm0
	; X64-NEXT: vpsravd %ymm1, %ymm0, %ymm0			; X64-NEXT: vpsravd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; X64-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; X64-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; X64-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; X64-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; X64-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	%ashr = ashr <8 x i16> %r, %a			%ashr = ashr <8 x i16> %r, %a
	ret <8 x i16> %ashr			ret <8 x i16> %ashr
	}			}

	▲ Show 20 Lines • Show All 185 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-any_extend_load.ll

Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
ret void		ret void
}		}

define void @any_extend_load_v8i16(<8 x i8> * %ptr) {		define void @any_extend_load_v8i16(<8 x i8> * %ptr) {
; KNL-LABEL: any_extend_load_v8i16:		; KNL-LABEL: any_extend_load_v8i16:
; KNL: # BB#0:		; KNL: # BB#0:
; KNL-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero		; KNL-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
; KNL-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0		; KNL-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; KNL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; KNL-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
; KNL-NEXT: vmovq %xmm0, (%rdi)		; KNL-NEXT: vmovq %xmm0, (%rdi)
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: any_extend_load_v8i16:		; SKX-LABEL: any_extend_load_v8i16:
; SKX: # BB#0:		; SKX: # BB#0:
; SKX-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero		; SKX-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
; SKX-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0		; SKX-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
; SKX-NEXT: vpmovwb %xmm0, (%rdi)		; SKX-NEXT: vpmovwb %xmm0, (%rdi)
Show All 9 Lines

llvm/trunk/test/CodeGen/X86/avx512-trunc.ll

Show First 20 Lines • Show All 578 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%x6 = trunc <16 x i16> %x5 to <16 x i8>		%x6 = trunc <16 x i16> %x5 to <16 x i8>
ret <16 x i8> %x6		ret <16 x i8> %x6
}		}

define void @usat_trunc_wb_128_mem(<8 x i16> %i, <8 x i8>* %res) {		define void @usat_trunc_wb_128_mem(<8 x i16> %i, <8 x i8>* %res) {
; KNL-LABEL: usat_trunc_wb_128_mem:		; KNL-LABEL: usat_trunc_wb_128_mem:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vpminuw {{.*}}(%rip), %xmm0, %xmm0		; KNL-NEXT: vpminuw {{.*}}(%rip), %xmm0, %xmm0
; KNL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; KNL-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
; KNL-NEXT: vmovq %xmm0, (%rdi)		; KNL-NEXT: vmovq %xmm0, (%rdi)
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: usat_trunc_wb_128_mem:		; SKX-LABEL: usat_trunc_wb_128_mem:
; SKX: ## BB#0:		; SKX: ## BB#0:
; SKX-NEXT: vpmovuswb %xmm0, (%rdi)		; SKX-NEXT: vpmovuswb %xmm0, (%rdi)
; SKX-NEXT: retq		; SKX-NEXT: retq
%x3 = icmp ult <8 x i16> %i, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%x3 = icmp ult <8 x i16> %i, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
▲ Show 20 Lines • Show All 173 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-and-setcc-256.ll

Show First 20 Lines • Show All 143 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%x0 = fcmp ogt <4 x double> %a, %b		%x0 = fcmp ogt <4 x double> %a, %b
%x1 = fcmp ogt <4 x double> %c, %d		%x1 = fcmp ogt <4 x double> %c, %d
%y = and <4 x i1> %x0, %x1		%y = and <4 x i1> %x0, %x1
%res = bitcast <4 x i1> %y to i4		%res = bitcast <4 x i1> %y to i4
ret i4 %res		ret i4 %res
}		}

define i16 @v16i16(<16 x i16> %a, <16 x i16> %b, <16 x i16> %c, <16 x i16> %d) {		define i16 @v16i16(<16 x i16> %a, <16 x i16> %b, <16 x i16> %c, <16 x i16> %d) {
; SSE2-LABEL: v16i16:		; SSE2-SSSE3-LABEL: v16i16:
; SSE2: # BB#0:		; SSE2-SSSE3: # BB#0:
; SSE2-NEXT: pcmpgtw %xmm3, %xmm1		; SSE2-SSSE3-NEXT: pcmpgtw %xmm3, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]		; SSE2-SSSE3-NEXT: pcmpgtw %xmm2, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm1		; SSE2-SSSE3-NEXT: packsswb %xmm1, %xmm0
; SSE2-NEXT: pcmpgtw %xmm2, %xmm0		; SSE2-SSSE3-NEXT: pcmpgtw %xmm7, %xmm5
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-SSSE3-NEXT: pcmpgtw %xmm6, %xmm4
; SSE2-NEXT: packuswb %xmm1, %xmm0		; SSE2-SSSE3-NEXT: packsswb %xmm5, %xmm4
; SSE2-NEXT: pcmpgtw %xmm7, %xmm5		; SSE2-SSSE3-NEXT: pand %xmm0, %xmm4
; SSE2-NEXT: pand %xmm3, %xmm5		; SSE2-SSSE3-NEXT: pmovmskb %xmm4, %eax
; SSE2-NEXT: pcmpgtw %xmm6, %xmm4		; SSE2-SSSE3-NEXT: # kill: %AX<def> %AX<kill> %EAX<kill>
; SSE2-NEXT: pand %xmm3, %xmm4		; SSE2-SSSE3-NEXT: retq
; SSE2-NEXT: packuswb %xmm5, %xmm4
; SSE2-NEXT: pand %xmm0, %xmm4
; SSE2-NEXT: pmovmskb %xmm4, %eax
; SSE2-NEXT: # kill: %AX<def> %AX<kill> %EAX<kill>
; SSE2-NEXT: retq
;
; SSSE3-LABEL: v16i16:
; SSSE3: # BB#0:
; SSSE3-NEXT: pcmpgtw %xmm3, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; SSSE3-NEXT: pshufb %xmm3, %xmm1
; SSSE3-NEXT: pcmpgtw %xmm2, %xmm0
; SSSE3-NEXT: pshufb %xmm3, %xmm0
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSSE3-NEXT: pcmpgtw %xmm7, %xmm5
; SSSE3-NEXT: pshufb %xmm3, %xmm5
; SSSE3-NEXT: pcmpgtw %xmm6, %xmm4
; SSSE3-NEXT: pshufb %xmm3, %xmm4
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSSE3-NEXT: pand %xmm0, %xmm4
; SSSE3-NEXT: pmovmskb %xmm4, %eax
; SSSE3-NEXT: # kill: %AX<def> %AX<kill> %EAX<kill>
; SSSE3-NEXT: retq
;		;
; AVX1-LABEL: v16i16:		; AVX1-LABEL: v16i16:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
; AVX1-NEXT: vpcmpgtw %xmm4, %xmm5, %xmm4		; AVX1-NEXT: vpcmpgtw %xmm4, %xmm5, %xmm4
; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpacksswb %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpacksswb %xmm4, %xmm0, %xmm0
Show All 36 Lines	; AVX512-NEXT: retq
%res = bitcast <16 x i1> %y to i16		%res = bitcast <16 x i1> %y to i16
ret i16 %res		ret i16 %res
}		}

define i8 @v8i32(<8 x i32> %a, <8 x i32> %b, <8 x i32> %c, <8 x i32> %d) {		define i8 @v8i32(<8 x i32> %a, <8 x i32> %b, <8 x i32> %c, <8 x i32> %d) {
; SSE2-LABEL: v8i32:		; SSE2-LABEL: v8i32:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: pcmpgtd %xmm3, %xmm1		; SSE2-NEXT: pcmpgtd %xmm3, %xmm1
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm1
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: pcmpgtd %xmm2, %xmm0		; SSE2-NEXT: pcmpgtd %xmm2, %xmm0
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm0
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: pcmpgtd %xmm7, %xmm5		; SSE2-NEXT: pcmpgtd %xmm7, %xmm5
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm5[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm5
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: pcmpgtd %xmm6, %xmm4		; SSE2-NEXT: pcmpgtd %xmm6, %xmm4
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm4[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm4
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; SSE2-NEXT: pand %xmm0, %xmm4
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]		; SSE2-NEXT: pand {{.*}}(%rip), %xmm4
; SSE2-NEXT: pand %xmm0, %xmm2		; SSE2-NEXT: packuswb %xmm4, %xmm4
; SSE2-NEXT: pand {{.*}}(%rip), %xmm2		; SSE2-NEXT: pmovmskb %xmm4, %eax
; SSE2-NEXT: packuswb %xmm2, %xmm2
; SSE2-NEXT: pmovmskb %xmm2, %eax
; SSE2-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>		; SSE2-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v8i32:		; SSSE3-LABEL: v8i32:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: pcmpgtd %xmm3, %xmm1		; SSSE3-NEXT: pcmpgtd %xmm3, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSSE3-NEXT: packssdw %xmm0, %xmm1
; SSSE3-NEXT: pshufb %xmm3, %xmm1
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm0		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm0
; SSSE3-NEXT: pshufb %xmm3, %xmm0		; SSSE3-NEXT: packssdw %xmm0, %xmm0
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSSE3-NEXT: pcmpgtd %xmm7, %xmm5		; SSSE3-NEXT: pcmpgtd %xmm7, %xmm5
; SSSE3-NEXT: pshufb %xmm3, %xmm5		; SSSE3-NEXT: packssdw %xmm0, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4
; SSSE3-NEXT: pshufb %xmm3, %xmm4		; SSSE3-NEXT: packssdw %xmm0, %xmm4
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSSE3-NEXT: pand %xmm0, %xmm4		; SSSE3-NEXT: pand %xmm0, %xmm4
; SSSE3-NEXT: pshufb {{.*#+}} xmm4 = xmm4[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; SSSE3-NEXT: pshufb {{.*#+}} xmm4 = xmm4[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
; SSSE3-NEXT: pmovmskb %xmm4, %eax		; SSSE3-NEXT: pmovmskb %xmm4, %eax
; SSSE3-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>		; SSSE3-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; AVX1-LABEL: v8i32:		; AVX1-LABEL: v8i32:
▲ Show 20 Lines • Show All 181 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-and-setcc-512.ll

Show All 34 Lines
; SSE-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm9		; SSE-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm9
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm9[0,2,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm9[0,2,2,3]
; SSE-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]
; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm8[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm8[4,5,6,7]
; SSE-NEXT: pand %xmm0, %xmm2		; SSE-NEXT: pand %xmm0, %xmm2
; SSE-NEXT: psllw $15, %xmm2		; SSE-NEXT: psllw $15, %xmm2
; SSE-NEXT: psraw $15, %xmm2		; SSE-NEXT: psraw $15, %xmm2
; SSE-NEXT: pshufb {{.*#+}} xmm2 = xmm2[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; SSE-NEXT: packsswb %xmm0, %xmm2
; SSE-NEXT: pmovmskb %xmm2, %eax		; SSE-NEXT: pmovmskb %xmm2, %eax
; SSE-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>		; SSE-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: v8i64:		; AVX1-LABEL: v8i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm8		; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm8
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm9		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm9
Show All 20 Lines
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm6, %xmm4, %xmm3		; AVX1-NEXT: vpcmpgtq %xmm6, %xmm4, %xmm3
; AVX1-NEXT: vpacksswb %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpacksswb %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpshufb %xmm8, %xmm2, %xmm2		; AVX1-NEXT: vpshufb %xmm8, %xmm2, %xmm2
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0		; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0
; AVX1-NEXT: vpsraw $15, %xmm0, %xmm0		; AVX1-NEXT: vpsraw $15, %xmm0, %xmm0
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; AVX1-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vpmovmskb %xmm0, %eax		; AVX1-NEXT: vpmovmskb %xmm0, %eax
; AVX1-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>		; AVX1-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v8i64:		; AVX2-LABEL: v8i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpcmpgtq %ymm3, %ymm1, %ymm1		; AVX2-NEXT: vpcmpgtq %ymm3, %ymm1, %ymm1
Show All 13 Lines
; AVX2-NEXT: vpcmpgtq %ymm6, %ymm4, %ymm2		; AVX2-NEXT: vpcmpgtq %ymm6, %ymm4, %ymm2
; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4		; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4
; AVX2-NEXT: vpacksswb %xmm4, %xmm2, %xmm2		; AVX2-NEXT: vpacksswb %xmm4, %xmm2, %xmm2
; AVX2-NEXT: vpshufb %xmm3, %xmm2, %xmm2		; AVX2-NEXT: vpshufb %xmm3, %xmm2, %xmm2
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vpsllw $15, %xmm0, %xmm0		; AVX2-NEXT: vpsllw $15, %xmm0, %xmm0
; AVX2-NEXT: vpsraw $15, %xmm0, %xmm0		; AVX2-NEXT: vpsraw $15, %xmm0, %xmm0
; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; AVX2-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vpmovmskb %xmm0, %eax		; AVX2-NEXT: vpmovmskb %xmm0, %eax
; AVX2-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>		; AVX2-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: v8i64:		; AVX512F-LABEL: v8i64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpcmpgtq %zmm1, %zmm0, %k1		; AVX512F-NEXT: vpcmpgtq %zmm1, %zmm0, %k1
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
; SSE-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm9		; SSE-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm9
; SSE-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,2,2,3]		; SSE-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,2,2,3]
; SSE-NEXT: pshuflw {{.*#+}} xmm2 = xmm9[0,2,2,3,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm2 = xmm9[0,2,2,3,4,5,6,7]
; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm8[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm8[4,5,6,7]
; SSE-NEXT: pand %xmm0, %xmm2		; SSE-NEXT: pand %xmm0, %xmm2
; SSE-NEXT: psllw $15, %xmm2		; SSE-NEXT: psllw $15, %xmm2
; SSE-NEXT: psraw $15, %xmm2		; SSE-NEXT: psraw $15, %xmm2
; SSE-NEXT: pshufb {{.*#+}} xmm2 = xmm2[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; SSE-NEXT: packsswb %xmm0, %xmm2
; SSE-NEXT: pmovmskb %xmm2, %eax		; SSE-NEXT: pmovmskb %xmm2, %eax
; SSE-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>		; SSE-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX12-LABEL: v8f64:		; AVX12-LABEL: v8f64:
; AVX12: # BB#0:		; AVX12: # BB#0:
; AVX12-NEXT: vcmpltpd %ymm1, %ymm3, %ymm1		; AVX12-NEXT: vcmpltpd %ymm1, %ymm3, %ymm1
; AVX12-NEXT: vextractf128 $1, %ymm1, %xmm3		; AVX12-NEXT: vextractf128 $1, %ymm1, %xmm3
Show All 12 Lines
; AVX12-NEXT: vcmpltpd %ymm4, %ymm6, %ymm2		; AVX12-NEXT: vcmpltpd %ymm4, %ymm6, %ymm2
; AVX12-NEXT: vextractf128 $1, %ymm2, %xmm4		; AVX12-NEXT: vextractf128 $1, %ymm2, %xmm4
; AVX12-NEXT: vpacksswb %xmm4, %xmm2, %xmm2		; AVX12-NEXT: vpacksswb %xmm4, %xmm2, %xmm2
; AVX12-NEXT: vpshufb %xmm3, %xmm2, %xmm2		; AVX12-NEXT: vpshufb %xmm3, %xmm2, %xmm2
; AVX12-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX12-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX12-NEXT: vpand %xmm1, %xmm0, %xmm0		; AVX12-NEXT: vpand %xmm1, %xmm0, %xmm0
; AVX12-NEXT: vpsllw $15, %xmm0, %xmm0		; AVX12-NEXT: vpsllw $15, %xmm0, %xmm0
; AVX12-NEXT: vpsraw $15, %xmm0, %xmm0		; AVX12-NEXT: vpsraw $15, %xmm0, %xmm0
; AVX12-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; AVX12-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
; AVX12-NEXT: vpmovmskb %xmm0, %eax		; AVX12-NEXT: vpmovmskb %xmm0, %eax
; AVX12-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>		; AVX12-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
; AVX12-NEXT: vzeroupper		; AVX12-NEXT: vzeroupper
; AVX12-NEXT: retq		; AVX12-NEXT: retq
;		;
; AVX512F-LABEL: v8f64:		; AVX512F-LABEL: v8f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vcmpltpd %zmm0, %zmm1, %k1		; AVX512F-NEXT: vcmpltpd %zmm0, %zmm1, %k1
Show All 17 Lines	; AVX512BW-NEXT: retq
%res = bitcast <8 x i1> %y to i8		%res = bitcast <8 x i1> %y to i8
ret i8 %res		ret i8 %res
}		}

define i32 @v32i16(<32 x i16> %a, <32 x i16> %b, <32 x i16> %c, <32 x i16> %d) {		define i32 @v32i16(<32 x i16> %a, <32 x i16> %b, <32 x i16> %c, <32 x i16> %d) {
; SSE-LABEL: v32i16:		; SSE-LABEL: v32i16:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9
		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11
; SSE-NEXT: pcmpgtw %xmm5, %xmm1		; SSE-NEXT: pcmpgtw %xmm5, %xmm1
; SSE-NEXT: movdqa {{.*#+}} xmm5 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; SSE-NEXT: pshufb %xmm5, %xmm1
; SSE-NEXT: pcmpgtw %xmm4, %xmm0		; SSE-NEXT: pcmpgtw %xmm4, %xmm0
; SSE-NEXT: pshufb %xmm5, %xmm0		; SSE-NEXT: packsswb %xmm1, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: pcmpgtw %xmm7, %xmm3		; SSE-NEXT: pcmpgtw %xmm7, %xmm3
; SSE-NEXT: pshufb %xmm5, %xmm3
; SSE-NEXT: pcmpgtw %xmm6, %xmm2		; SSE-NEXT: pcmpgtw %xmm6, %xmm2
; SSE-NEXT: pshufb %xmm5, %xmm2		; SSE-NEXT: packsswb %xmm3, %xmm2
; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm11		; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm11
; SSE-NEXT: pshufb %xmm5, %xmm11
; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm9
; SSE-NEXT: pshufb %xmm5, %xmm9
; SSE-NEXT: punpcklqdq {{.*#+}} xmm9 = xmm9[0],xmm11[0]
; SSE-NEXT: pand %xmm0, %xmm9
; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm10		; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm10
; SSE-NEXT: pshufb %xmm5, %xmm10		; SSE-NEXT: packsswb %xmm11, %xmm10
		; SSE-NEXT: pand %xmm0, %xmm10
		; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm9
; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm8		; SSE-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm8
; SSE-NEXT: pshufb %xmm5, %xmm8		; SSE-NEXT: packsswb %xmm9, %xmm8
; SSE-NEXT: punpcklqdq {{.*#+}} xmm8 = xmm8[0],xmm10[0]
; SSE-NEXT: pand %xmm2, %xmm8		; SSE-NEXT: pand %xmm2, %xmm8
; SSE-NEXT: pmovmskb %xmm9, %ecx		; SSE-NEXT: pmovmskb %xmm10, %ecx
; SSE-NEXT: pmovmskb %xmm8, %eax		; SSE-NEXT: pmovmskb %xmm8, %eax
; SSE-NEXT: shll $16, %eax		; SSE-NEXT: shll $16, %eax
; SSE-NEXT: orl %ecx, %eax		; SSE-NEXT: orl %ecx, %eax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: v32i16:		; AVX1-LABEL: v32i16:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm8		; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm8
▲ Show 20 Lines • Show All 361 Lines • ▼ Show 20 Lines
define i16 @v16i32(<16 x i32> %a, <16 x i32> %b, <16 x i32> %c, <16 x i32> %d) {		define i16 @v16i32(<16 x i32> %a, <16 x i32> %b, <16 x i32> %c, <16 x i32> %d) {
; SSE-LABEL: v16i32:		; SSE-LABEL: v16i32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9
; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11		; SSE-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11
; SSE-NEXT: pcmpgtd %xmm7, %xmm3		; SSE-NEXT: pcmpgtd %xmm7, %xmm3
; SSE-NEXT: movdqa {{.*#+}} xmm7 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSE-NEXT: packssdw %xmm0, %xmm3
; SSE-NEXT: pshufb %xmm7, %xmm3
; SSE-NEXT: pcmpgtd %xmm6, %xmm2		; SSE-NEXT: pcmpgtd %xmm6, %xmm2
; SSE-NEXT: pshufb %xmm7, %xmm2		; SSE-NEXT: packssdw %xmm0, %xmm2
; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
; SSE-NEXT: movdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; SSE-NEXT: pshufb %xmm3, %xmm2
; SSE-NEXT: pcmpgtd %xmm5, %xmm1		; SSE-NEXT: pcmpgtd %xmm5, %xmm1
; SSE-NEXT: pshufb %xmm7, %xmm1		; SSE-NEXT: packssdw %xmm0, %xmm1
; SSE-NEXT: pcmpgtd %xmm4, %xmm0		; SSE-NEXT: pcmpgtd %xmm4, %xmm0
; SSE-NEXT: pshufb %xmm7, %xmm0		; SSE-NEXT: packssdw %xmm0, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: pshufb %xmm3, %xmm0		; SSE-NEXT: packsswb %xmm2, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm11		; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm11
; SSE-NEXT: pshufb %xmm7, %xmm11		; SSE-NEXT: packssdw %xmm0, %xmm11
; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm9		; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm9
; SSE-NEXT: pshufb %xmm7, %xmm9		; SSE-NEXT: packssdw %xmm0, %xmm9
; SSE-NEXT: punpcklqdq {{.*#+}} xmm9 = xmm9[0],xmm11[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm9 = xmm9[0],xmm11[0]
; SSE-NEXT: pshufb %xmm3, %xmm9
; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm10		; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm10
; SSE-NEXT: pshufb %xmm7, %xmm10		; SSE-NEXT: packssdw %xmm0, %xmm10
; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm8		; SSE-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm8
; SSE-NEXT: pshufb %xmm7, %xmm8		; SSE-NEXT: packssdw %xmm0, %xmm8
; SSE-NEXT: punpcklqdq {{.*#+}} xmm8 = xmm8[0],xmm10[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm8 = xmm8[0],xmm10[0]
; SSE-NEXT: pshufb %xmm3, %xmm8		; SSE-NEXT: packsswb %xmm9, %xmm8
; SSE-NEXT: punpcklqdq {{.*#+}} xmm8 = xmm8[0],xmm9[0]
; SSE-NEXT: pand %xmm0, %xmm8		; SSE-NEXT: pand %xmm0, %xmm8
; SSE-NEXT: pmovmskb %xmm8, %eax		; SSE-NEXT: pmovmskb %xmm8, %eax
; SSE-NEXT: # kill: %AX<def> %AX<kill> %EAX<kill>		; SSE-NEXT: # kill: %AX<def> %AX<kill> %EAX<kill>
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: v16i32:		; AVX1-LABEL: v16i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm8		; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm8
▲ Show 20 Lines • Show All 913 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-setcc-128.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSSE3			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSSE3
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX12,AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX12,AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX12,AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX12,AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512vl,+avx512bw \| FileCheck %s --check-prefixes=AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512vl,+avx512bw \| FileCheck %s --check-prefixes=AVX512

	define i8 @v8i16(<8 x i16> %a, <8 x i16> %b) {			define i8 @v8i16(<8 x i16> %a, <8 x i16> %b) {
	; SSE2-LABEL: v8i16:			; SSE2-SSSE3-LABEL: v8i16:
	; SSE2: # BB#0:			; SSE2-SSSE3: # BB#0:
	; SSE2-NEXT: pcmpgtw %xmm1, %xmm0			; SSE2-SSSE3-NEXT: pcmpgtw %xmm1, %xmm0
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm0			; SSE2-SSSE3-NEXT: packsswb %xmm0, %xmm0
	; SSE2-NEXT: packuswb %xmm0, %xmm0			; SSE2-SSSE3-NEXT: pmovmskb %xmm0, %eax
	; SSE2-NEXT: pmovmskb %xmm0, %eax			; SSE2-SSSE3-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; SSE2-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; SSE2-SSSE3-NEXT: retq
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: v8i16:
	; SSSE3: # BB#0:
	; SSSE3-NEXT: pcmpgtw %xmm1, %xmm0
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; SSSE3-NEXT: pmovmskb %xmm0, %eax
	; SSSE3-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; SSSE3-NEXT: retq
	;			;
	; AVX12-LABEL: v8i16:			; AVX12-LABEL: v8i16:
	; AVX12: # BB#0:			; AVX12: # BB#0:
	; AVX12-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0			; AVX12-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
	; AVX12-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]			; AVX12-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
	; AVX12-NEXT: vpmovmskb %xmm0, %eax			; AVX12-NEXT: vpmovmskb %xmm0, %eax
	; AVX12-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; AVX12-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; AVX12-NEXT: retq			; AVX12-NEXT: retq
	;			;
	; AVX512-LABEL: v8i16:			; AVX512-LABEL: v8i16:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vpcmpgtw %xmm1, %xmm0, %k0			; AVX512-NEXT: vpcmpgtw %xmm1, %xmm0, %k0
	; AVX512-NEXT: kmovd %k0, %eax			; AVX512-NEXT: kmovd %k0, %eax
	▲ Show 20 Lines • Show All 460 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: movb -{{[0-9]+}}(%rsp), %al			; AVX512-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%x = icmp sgt <4 x i16> %a, %b			%x = icmp sgt <4 x i16> %a, %b
	%res = bitcast <4 x i1> %x to i4			%res = bitcast <4 x i1> %x to i4
	ret i4 %res			ret i4 %res
	}			}

	define i8 @v8i8(<8 x i8> %a, <8 x i8> %b) {			define i8 @v8i8(<8 x i8> %a, <8 x i8> %b) {
	; SSE2-LABEL: v8i8:			; SSE2-SSSE3-LABEL: v8i8:
	; SSE2: # BB#0:			; SSE2-SSSE3: # BB#0:
	; SSE2-NEXT: psllw $8, %xmm1			; SSE2-SSSE3-NEXT: psllw $8, %xmm1
	; SSE2-NEXT: psraw $8, %xmm1			; SSE2-SSSE3-NEXT: psraw $8, %xmm1
	; SSE2-NEXT: psllw $8, %xmm0			; SSE2-SSSE3-NEXT: psllw $8, %xmm0
	; SSE2-NEXT: psraw $8, %xmm0			; SSE2-SSSE3-NEXT: psraw $8, %xmm0
	; SSE2-NEXT: pcmpgtw %xmm1, %xmm0			; SSE2-SSSE3-NEXT: pcmpgtw %xmm1, %xmm0
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm0			; SSE2-SSSE3-NEXT: packsswb %xmm0, %xmm0
	; SSE2-NEXT: packuswb %xmm0, %xmm0			; SSE2-SSSE3-NEXT: pmovmskb %xmm0, %eax
	; SSE2-NEXT: pmovmskb %xmm0, %eax			; SSE2-SSSE3-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; SSE2-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; SSE2-SSSE3-NEXT: retq
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: v8i8:
	; SSSE3: # BB#0:
	; SSSE3-NEXT: psllw $8, %xmm1
	; SSSE3-NEXT: psraw $8, %xmm1
	; SSSE3-NEXT: psllw $8, %xmm0
	; SSSE3-NEXT: psraw $8, %xmm0
	; SSSE3-NEXT: pcmpgtw %xmm1, %xmm0
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; SSSE3-NEXT: pmovmskb %xmm0, %eax
	; SSSE3-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; SSSE3-NEXT: retq
	;			;
	; AVX12-LABEL: v8i8:			; AVX12-LABEL: v8i8:
	; AVX12: # BB#0:			; AVX12: # BB#0:
	; AVX12-NEXT: vpsllw $8, %xmm1, %xmm1			; AVX12-NEXT: vpsllw $8, %xmm1, %xmm1
	; AVX12-NEXT: vpsraw $8, %xmm1, %xmm1			; AVX12-NEXT: vpsraw $8, %xmm1, %xmm1
	; AVX12-NEXT: vpsllw $8, %xmm0, %xmm0			; AVX12-NEXT: vpsllw $8, %xmm0, %xmm0
	; AVX12-NEXT: vpsraw $8, %xmm0, %xmm0			; AVX12-NEXT: vpsraw $8, %xmm0, %xmm0
	; AVX12-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0			; AVX12-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
	; AVX12-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]			; AVX12-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
	; AVX12-NEXT: vpmovmskb %xmm0, %eax			; AVX12-NEXT: vpmovmskb %xmm0, %eax
	; AVX12-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; AVX12-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; AVX12-NEXT: retq			; AVX12-NEXT: retq
	;			;
	; AVX512-LABEL: v8i8:			; AVX512-LABEL: v8i8:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vpsllw $8, %xmm1, %xmm1			; AVX512-NEXT: vpsllw $8, %xmm1, %xmm1
	; AVX512-NEXT: vpsraw $8, %xmm1, %xmm1			; AVX512-NEXT: vpsraw $8, %xmm1, %xmm1
	Show All 10 Lines

llvm/trunk/test/CodeGen/X86/psubus.ll

Show First 20 Lines • Show All 458 Lines • ▼ Show 20 Lines
; SSE2: # BB#0: # %vector.ph		; SSE2: # BB#0: # %vector.ph
; SSE2-NEXT: pxor %xmm4, %xmm4		; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psubd %xmm2, %xmm0		; SSE2-NEXT: psubd %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm4, %xmm2		; SSE2-NEXT: movdqa %xmm2, %xmm6
		; SSE2-NEXT: pxor %xmm4, %xmm6
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: pcmpgtd %xmm5, %xmm2		; SSE2-NEXT: pcmpgtd %xmm5, %xmm6
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm6
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,2,2,3]
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: pxor %xmm4, %xmm2		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm4		; SSE2-NEXT: pxor %xmm3, %xmm4
; SSE2-NEXT: pcmpgtd %xmm4, %xmm2		; SSE2-NEXT: pcmpgtd %xmm4, %xmm2
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm2
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm6[0]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm5[0]
; SSE2-NEXT: psubd %xmm1, %xmm3		; SSE2-NEXT: psubd %xmm1, %xmm3
; SSE2-NEXT: pslld $16, %xmm0		; SSE2-NEXT: pslld $16, %xmm0
; SSE2-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: pslld $16, %xmm3		; SSE2-NEXT: pslld $16, %xmm3
; SSE2-NEXT: psrad $16, %xmm3		; SSE2-NEXT: psrad $16, %xmm3
; SSE2-NEXT: packssdw %xmm0, %xmm3		; SSE2-NEXT: packssdw %xmm0, %xmm3
; SSE2-NEXT: pandn %xmm3, %xmm2		; SSE2-NEXT: pandn %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm0		; SSE2-NEXT: movdqa %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: test13:		; SSSE3-LABEL: test13:
; SSSE3: # BB#0: # %vector.ph		; SSSE3: # BB#0: # %vector.ph
; SSSE3-NEXT: pxor %xmm4, %xmm4		; SSSE3-NEXT: pxor %xmm4, %xmm4
; SSSE3-NEXT: movdqa %xmm0, %xmm3		; SSSE3-NEXT: movdqa %xmm0, %xmm3
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]
; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm5		; SSSE3-NEXT: movdqa %xmm0, %xmm5
; SSSE3-NEXT: psubd %xmm2, %xmm0		; SSSE3-NEXT: psubd %xmm2, %xmm0
; SSSE3-NEXT: movdqa %xmm2, %xmm6		; SSSE3-NEXT: movdqa %xmm2, %xmm6
; SSSE3-NEXT: pxor %xmm4, %xmm6		; SSSE3-NEXT: pxor %xmm4, %xmm6
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm5, %xmm6		; SSSE3-NEXT: pcmpgtd %xmm5, %xmm6
; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSSE3-NEXT: packssdw %xmm0, %xmm6
; SSSE3-NEXT: pshufb %xmm5, %xmm6
; SSSE3-NEXT: movdqa %xmm1, %xmm2		; SSSE3-NEXT: movdqa %xmm1, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm2		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm4		; SSSE3-NEXT: pxor %xmm3, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm2		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm2
; SSSE3-NEXT: pshufb %xmm5, %xmm2		; SSSE3-NEXT: packssdw %xmm0, %xmm2
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm6[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm6[0]
; SSSE3-NEXT: psubd %xmm1, %xmm3		; SSSE3-NEXT: psubd %xmm1, %xmm3
; SSSE3-NEXT: pshufb %xmm5, %xmm0		; SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSSE3-NEXT: pshufb %xmm5, %xmm3		; SSSE3-NEXT: pshufb %xmm1, %xmm0
		; SSSE3-NEXT: pshufb %xmm1, %xmm3
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
; SSSE3-NEXT: pandn %xmm3, %xmm2		; SSSE3-NEXT: pandn %xmm3, %xmm2
; SSSE3-NEXT: movdqa %xmm2, %xmm0		; SSSE3-NEXT: movdqa %xmm2, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: test13:		; SSE41-LABEL: test13:
; SSE41: # BB#0: # %vector.ph		; SSE41: # BB#0: # %vector.ph
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
; SSE41-NEXT: pmovzxwd {{.*#+}} xmm4 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero		; SSE41-NEXT: pmovzxwd {{.*#+}} xmm4 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]		; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]
; SSE41-NEXT: movdqa %xmm3, %xmm6		; SSE41-NEXT: movdqa %xmm3, %xmm6
; SSE41-NEXT: psubd %xmm1, %xmm3		; SSE41-NEXT: psubd %xmm1, %xmm3
; SSE41-NEXT: movdqa %xmm1, %xmm0		; SSE41-NEXT: movdqa %xmm1, %xmm0
; SSE41-NEXT: pxor %xmm5, %xmm0		; SSE41-NEXT: pxor %xmm5, %xmm0
; SSE41-NEXT: pxor %xmm5, %xmm6		; SSE41-NEXT: pxor %xmm5, %xmm6
; SSE41-NEXT: pcmpgtd %xmm6, %xmm0		; SSE41-NEXT: pcmpgtd %xmm6, %xmm0
; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSE41-NEXT: packssdw %xmm0, %xmm0
; SSE41-NEXT: pshufb %xmm1, %xmm0		; SSE41-NEXT: movdqa %xmm2, %xmm1
; SSE41-NEXT: movdqa %xmm2, %xmm6		; SSE41-NEXT: pxor %xmm5, %xmm1
; SSE41-NEXT: pxor %xmm5, %xmm6
; SSE41-NEXT: pxor %xmm4, %xmm5		; SSE41-NEXT: pxor %xmm4, %xmm5
; SSE41-NEXT: pcmpgtd %xmm5, %xmm6		; SSE41-NEXT: pcmpgtd %xmm5, %xmm1
; SSE41-NEXT: pshufb %xmm1, %xmm6		; SSE41-NEXT: packssdw %xmm0, %xmm1
; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]		; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE41-NEXT: psubd %xmm2, %xmm4		; SSE41-NEXT: psubd %xmm2, %xmm4
		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSE41-NEXT: pshufb %xmm1, %xmm3		; SSE41-NEXT: pshufb %xmm1, %xmm3
; SSE41-NEXT: pshufb %xmm1, %xmm4		; SSE41-NEXT: pshufb %xmm1, %xmm4
; SSE41-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm4[0]		; SSE41-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm4[0]
; SSE41-NEXT: pandn %xmm3, %xmm0		; SSE41-NEXT: pandn %xmm3, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test13:		; AVX1-LABEL: test13:
; AVX1: # BB#0: # %vector.ph		; AVX1: # BB#0: # %vector.ph
▲ Show 20 Lines • Show All 301 Lines • ▼ Show 20 Lines	vector.ph:
%truncsub = trunc <16 x i32> %sub to <16 x i8>		%truncsub = trunc <16 x i32> %sub to <16 x i8>
%res = select <16 x i1> %cond, <16 x i8> zeroinitializer, <16 x i8> %truncsub		%res = select <16 x i1> %cond, <16 x i8> zeroinitializer, <16 x i8> %truncsub
ret <16 x i8> %res		ret <16 x i8> %res
}		}

define <8 x i16> @test15(<8 x i16> %x, <8 x i32> %y) nounwind {		define <8 x i16> @test15(<8 x i16> %x, <8 x i32> %y) nounwind {
; SSE2-LABEL: test15:		; SSE2-LABEL: test15:
; SSE2: # BB#0: # %vector.ph		; SSE2: # BB#0: # %vector.ph
; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]		; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]
		; SSE2-NEXT: punpckhwd {{.*#+}} xmm3 = xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm5
; SSE2-NEXT: psubd %xmm2, %xmm0		; SSE2-NEXT: psubd %xmm2, %xmm3
; SSE2-NEXT: pxor %xmm4, %xmm2		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: pcmpgtd %xmm2, %xmm5		; SSE2-NEXT: pcmpgtd %xmm2, %xmm5
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm5[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm5
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: pxor %xmm0, %xmm4
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
; SSE2-NEXT: pxor %xmm3, %xmm4		; SSE2-NEXT: packssdw %xmm0, %xmm4
; SSE2-NEXT: pcmpgtd %xmm5, %xmm4		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]		; SSE2-NEXT: psubd %xmm1, %xmm0
; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm2[0]
; SSE2-NEXT: psubd %xmm1, %xmm3
; SSE2-NEXT: pslld $16, %xmm0
; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: pslld $16, %xmm3		; SSE2-NEXT: pslld $16, %xmm3
; SSE2-NEXT: psrad $16, %xmm3		; SSE2-NEXT: psrad $16, %xmm3
; SSE2-NEXT: packssdw %xmm0, %xmm3		; SSE2-NEXT: pslld $16, %xmm0
; SSE2-NEXT: pand %xmm4, %xmm3		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: movdqa %xmm3, %xmm0		; SSE2-NEXT: packssdw %xmm3, %xmm0
		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: test15:		; SSSE3-LABEL: test15:
; SSSE3: # BB#0: # %vector.ph		; SSSE3: # BB#0: # %vector.ph
; SSSE3-NEXT: pxor %xmm4, %xmm4		; SSSE3-NEXT: pxor %xmm4, %xmm4
; SSSE3-NEXT: movdqa %xmm0, %xmm3		; SSSE3-NEXT: movdqa %xmm0, %xmm3
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]
; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm5		; SSSE3-NEXT: movdqa %xmm0, %xmm5
; SSSE3-NEXT: psubd %xmm2, %xmm0		; SSSE3-NEXT: psubd %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm4, %xmm2		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSSE3-NEXT: packssdw %xmm0, %xmm5
; SSSE3-NEXT: pshufb %xmm2, %xmm5		; SSSE3-NEXT: movdqa %xmm1, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm6		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm6
; SSSE3-NEXT: pxor %xmm3, %xmm4		; SSSE3-NEXT: pxor %xmm3, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4
; SSSE3-NEXT: pshufb %xmm2, %xmm4		; SSSE3-NEXT: packssdw %xmm0, %xmm4
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSSE3-NEXT: psubd %xmm1, %xmm3		; SSSE3-NEXT: psubd %xmm1, %xmm3
; SSSE3-NEXT: pshufb %xmm2, %xmm0		; SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSSE3-NEXT: pshufb %xmm2, %xmm3		; SSSE3-NEXT: pshufb %xmm1, %xmm0
		; SSSE3-NEXT: pshufb %xmm1, %xmm3
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
; SSSE3-NEXT: pand %xmm4, %xmm3		; SSSE3-NEXT: pand %xmm4, %xmm3
; SSSE3-NEXT: movdqa %xmm3, %xmm0		; SSSE3-NEXT: movdqa %xmm3, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: test15:		; SSE41-LABEL: test15:
; SSE41: # BB#0: # %vector.ph		; SSE41: # BB#0: # %vector.ph
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero		; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE41-NEXT: movdqa %xmm0, %xmm5		; SSE41-NEXT: movdqa %xmm0, %xmm5
; SSE41-NEXT: psubd %xmm1, %xmm0		; SSE41-NEXT: psubd %xmm1, %xmm0
; SSE41-NEXT: pxor %xmm4, %xmm1		; SSE41-NEXT: pxor %xmm4, %xmm1
; SSE41-NEXT: pxor %xmm4, %xmm5		; SSE41-NEXT: pxor %xmm4, %xmm5
; SSE41-NEXT: pcmpgtd %xmm1, %xmm5		; SSE41-NEXT: pcmpgtd %xmm1, %xmm5
; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSE41-NEXT: packssdw %xmm0, %xmm5
; SSE41-NEXT: pshufb %xmm1, %xmm5		; SSE41-NEXT: movdqa %xmm2, %xmm1
; SSE41-NEXT: movdqa %xmm2, %xmm6		; SSE41-NEXT: pxor %xmm4, %xmm1
; SSE41-NEXT: pxor %xmm4, %xmm6
; SSE41-NEXT: pxor %xmm3, %xmm4		; SSE41-NEXT: pxor %xmm3, %xmm4
; SSE41-NEXT: pcmpgtd %xmm6, %xmm4		; SSE41-NEXT: pcmpgtd %xmm1, %xmm4
; SSE41-NEXT: pshufb %xmm1, %xmm4		; SSE41-NEXT: packssdw %xmm0, %xmm4
; SSE41-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]		; SSE41-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]
; SSE41-NEXT: psubd %xmm2, %xmm3		; SSE41-NEXT: psubd %xmm2, %xmm3
		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSE41-NEXT: pshufb %xmm1, %xmm0		; SSE41-NEXT: pshufb %xmm1, %xmm0
; SSE41-NEXT: pshufb %xmm1, %xmm3		; SSE41-NEXT: pshufb %xmm1, %xmm3
; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]		; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
; SSE41-NEXT: pand %xmm5, %xmm0		; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test15:		; AVX1-LABEL: test15:
; AVX1: # BB#0: # %vector.ph		; AVX1: # BB#0: # %vector.ph
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	vector.ph:
%truncsub = trunc <8 x i32> %sub to <8 x i16>		%truncsub = trunc <8 x i32> %sub to <8 x i16>
%res = select <8 x i1> %cond, <8 x i16> %truncsub, <8 x i16> zeroinitializer		%res = select <8 x i1> %cond, <8 x i16> %truncsub, <8 x i16> zeroinitializer
ret <8 x i16> %res		ret <8 x i16> %res
}		}

define <8 x i16> @test16(<8 x i16> %x, <8 x i32> %y) nounwind {		define <8 x i16> @test16(<8 x i16> %x, <8 x i32> %y) nounwind {
; SSE2-LABEL: test16:		; SSE2-LABEL: test16:
; SSE2: # BB#0: # %vector.ph		; SSE2: # BB#0: # %vector.ph
; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]		; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]
		; SSE2-NEXT: punpckhwd {{.*#+}} xmm3 = xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm5
; SSE2-NEXT: psubd %xmm2, %xmm0		; SSE2-NEXT: psubd %xmm2, %xmm3
; SSE2-NEXT: pxor %xmm4, %xmm2		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: pcmpgtd %xmm2, %xmm5		; SSE2-NEXT: pcmpgtd %xmm2, %xmm5
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm5[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm5
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: pxor %xmm0, %xmm4
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
; SSE2-NEXT: pxor %xmm3, %xmm4		; SSE2-NEXT: packssdw %xmm0, %xmm4
; SSE2-NEXT: pcmpgtd %xmm5, %xmm4		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]		; SSE2-NEXT: psubd %xmm1, %xmm0
; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm2[0]
; SSE2-NEXT: psubd %xmm1, %xmm3
; SSE2-NEXT: pslld $16, %xmm0
; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: pslld $16, %xmm3		; SSE2-NEXT: pslld $16, %xmm3
; SSE2-NEXT: psrad $16, %xmm3		; SSE2-NEXT: psrad $16, %xmm3
; SSE2-NEXT: packssdw %xmm0, %xmm3		; SSE2-NEXT: pslld $16, %xmm0
; SSE2-NEXT: pand %xmm4, %xmm3		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: movdqa %xmm3, %xmm0		; SSE2-NEXT: packssdw %xmm3, %xmm0
		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: test16:		; SSSE3-LABEL: test16:
; SSSE3: # BB#0: # %vector.ph		; SSSE3: # BB#0: # %vector.ph
; SSSE3-NEXT: pxor %xmm4, %xmm4		; SSSE3-NEXT: pxor %xmm4, %xmm4
; SSSE3-NEXT: movdqa %xmm0, %xmm3		; SSSE3-NEXT: movdqa %xmm0, %xmm3
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]
; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm5		; SSSE3-NEXT: movdqa %xmm0, %xmm5
; SSSE3-NEXT: psubd %xmm2, %xmm0		; SSSE3-NEXT: psubd %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm4, %xmm2		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSSE3-NEXT: packssdw %xmm0, %xmm5
; SSSE3-NEXT: pshufb %xmm2, %xmm5		; SSSE3-NEXT: movdqa %xmm1, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm6		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm6
; SSSE3-NEXT: pxor %xmm3, %xmm4		; SSSE3-NEXT: pxor %xmm3, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4
; SSSE3-NEXT: pshufb %xmm2, %xmm4		; SSSE3-NEXT: packssdw %xmm0, %xmm4
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSSE3-NEXT: psubd %xmm1, %xmm3		; SSSE3-NEXT: psubd %xmm1, %xmm3
; SSSE3-NEXT: pshufb %xmm2, %xmm0		; SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSSE3-NEXT: pshufb %xmm2, %xmm3		; SSSE3-NEXT: pshufb %xmm1, %xmm0
		; SSSE3-NEXT: pshufb %xmm1, %xmm3
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
; SSSE3-NEXT: pand %xmm4, %xmm3		; SSSE3-NEXT: pand %xmm4, %xmm3
; SSSE3-NEXT: movdqa %xmm3, %xmm0		; SSSE3-NEXT: movdqa %xmm3, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: test16:		; SSE41-LABEL: test16:
; SSE41: # BB#0: # %vector.ph		; SSE41: # BB#0: # %vector.ph
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero		; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE41-NEXT: movdqa %xmm0, %xmm5		; SSE41-NEXT: movdqa %xmm0, %xmm5
; SSE41-NEXT: psubd %xmm1, %xmm0		; SSE41-NEXT: psubd %xmm1, %xmm0
; SSE41-NEXT: pxor %xmm4, %xmm1		; SSE41-NEXT: pxor %xmm4, %xmm1
; SSE41-NEXT: pxor %xmm4, %xmm5		; SSE41-NEXT: pxor %xmm4, %xmm5
; SSE41-NEXT: pcmpgtd %xmm1, %xmm5		; SSE41-NEXT: pcmpgtd %xmm1, %xmm5
; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSE41-NEXT: packssdw %xmm0, %xmm5
; SSE41-NEXT: pshufb %xmm1, %xmm5		; SSE41-NEXT: movdqa %xmm2, %xmm1
; SSE41-NEXT: movdqa %xmm2, %xmm6		; SSE41-NEXT: pxor %xmm4, %xmm1
; SSE41-NEXT: pxor %xmm4, %xmm6
; SSE41-NEXT: pxor %xmm3, %xmm4		; SSE41-NEXT: pxor %xmm3, %xmm4
; SSE41-NEXT: pcmpgtd %xmm6, %xmm4		; SSE41-NEXT: pcmpgtd %xmm1, %xmm4
; SSE41-NEXT: pshufb %xmm1, %xmm4		; SSE41-NEXT: packssdw %xmm0, %xmm4
; SSE41-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]		; SSE41-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]
; SSE41-NEXT: psubd %xmm2, %xmm3		; SSE41-NEXT: psubd %xmm2, %xmm3
		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSE41-NEXT: pshufb %xmm1, %xmm0		; SSE41-NEXT: pshufb %xmm1, %xmm0
; SSE41-NEXT: pshufb %xmm1, %xmm3		; SSE41-NEXT: pshufb %xmm1, %xmm3
; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]		; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
; SSE41-NEXT: pand %xmm5, %xmm0		; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test16:		; AVX1-LABEL: test16:
; AVX1: # BB#0: # %vector.ph		; AVX1: # BB#0: # %vector.ph
▲ Show 20 Lines • Show All 1,409 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-strided-with-offset-256.ll

	Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vmovdqa %xmm0, (%rsi)			; AVX1-NEXT: vmovdqa %xmm0, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_to_v8i16_1:			; AVX2-LABEL: shuffle_v16i16_to_v8i16_1:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[2,3,6,7,10,11,14,15,10,11,14,15,14,15],zero,zero,ymm0[18,19,22,23,26,27,30,31,26,27,30,31,30,31],zero,zero			; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
				; AVX2-NEXT: vpackusdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vmovdqa %xmm0, (%rsi)			; AVX2-NEXT: vmovdqa %xmm0, (%rsi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: shuffle_v16i16_to_v8i16_1:			; AVX512F-LABEL: shuffle_v16i16_to_v8i16_1:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa (%rdi), %ymm0			; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
	▲ Show 20 Lines • Show All 871 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-compare-results.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 880 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
%1 = icmp sgt <16 x i32> %a0, %a1		%1 = icmp sgt <16 x i32> %a0, %a1
ret <16 x i1> %1		ret <16 x i1> %1
}		}

define <32 x i1> @test_cmp_v32i16(<32 x i16> %a0, <32 x i16> %a1) nounwind {		define <32 x i1> @test_cmp_v32i16(<32 x i16> %a0, <32 x i16> %a1) nounwind {
; SSE2-LABEL: test_cmp_v32i16:		; SSE2-LABEL: test_cmp_v32i16:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: pcmpgtw %xmm5, %xmm1		; SSE2-NEXT: pcmpgtw %xmm5, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
; SSE2-NEXT: pand %xmm5, %xmm1
; SSE2-NEXT: pcmpgtw %xmm4, %xmm0		; SSE2-NEXT: pcmpgtw %xmm4, %xmm0
; SSE2-NEXT: pand %xmm5, %xmm0		; SSE2-NEXT: packsswb %xmm1, %xmm0
; SSE2-NEXT: packuswb %xmm1, %xmm0
; SSE2-NEXT: pcmpgtw %xmm7, %xmm3		; SSE2-NEXT: pcmpgtw %xmm7, %xmm3
; SSE2-NEXT: pand %xmm5, %xmm3
; SSE2-NEXT: pcmpgtw %xmm6, %xmm2		; SSE2-NEXT: pcmpgtw %xmm6, %xmm2
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE2-NEXT: packsswb %xmm3, %xmm2
; SSE2-NEXT: packuswb %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, 2(%rdi)		; SSE2-NEXT: movb %al, 2(%rdi)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, 2(%rdi)		; SSE2-NEXT: movb %al, 2(%rdi)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
▲ Show 20 Lines • Show All 2,498 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%1 = icmp sgt <16 x i64> %a0, %a1		%1 = icmp sgt <16 x i64> %a0, %a1
ret <16 x i1> %1		ret <16 x i1> %1
}		}

define <32 x i1> @test_cmp_v32i32(<32 x i32> %a0, <32 x i32> %a1) nounwind {		define <32 x i1> @test_cmp_v32i32(<32 x i32> %a0, <32 x i32> %a1) nounwind {
; SSE2-LABEL: test_cmp_v32i32:		; SSE2-LABEL: test_cmp_v32i32:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3
; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm3
; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm2		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm2
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm2
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm1		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm1
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm1
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm0		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm0
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm0
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: packsswb %xmm2, %xmm0
; SSE2-NEXT: packuswb %xmm2, %xmm0
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm7		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm7
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm7[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm7
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm6		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm6
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm6[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm6
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm7[0]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]
; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm5		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm5
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm5[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm5
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm4		; SSE2-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm4
; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]		; SSE2-NEXT: packssdw %xmm0, %xmm4
; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]		; SSE2-NEXT: packsswb %xmm6, %xmm4
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm1[0]
; SSE2-NEXT: pand %xmm3, %xmm4
; SSE2-NEXT: packuswb %xmm2, %xmm4
; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, 2(%rdi)		; SSE2-NEXT: movb %al, 2(%rdi)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, 2(%rdi)		; SSE2-NEXT: movb %al, 2(%rdi)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
; SSE2-NEXT: movb %cl, (%rdi)		; SSE2-NEXT: movb %cl, (%rdi)
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, (%rdi)		; SSE2-NEXT: movb %al, (%rdi)
; SSE2-NEXT: movq %rdi, %rax		; SSE2-NEXT: movq %rdi, %rax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: test_cmp_v32i32:		; SSE42-LABEL: test_cmp_v32i32:
; SSE42: # BB#0:		; SSE42: # BB#0:
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm0
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm1
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm2
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm4		; SSE42-NEXT: packssdw %xmm0, %xmm3
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm5		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm2
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm6		; SSE42-NEXT: packssdw %xmm0, %xmm2
		; SSE42-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm1
		; SSE42-NEXT: packssdw %xmm0, %xmm1
		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm0
		; SSE42-NEXT: packssdw %xmm0, %xmm0
		; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
		; SSE42-NEXT: packsswb %xmm2, %xmm0
; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm7		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm7
; SSE42-NEXT: pextrb $12, %xmm7, %eax		; SSE42-NEXT: packssdw %xmm0, %xmm7
		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm6
		; SSE42-NEXT: packssdw %xmm0, %xmm6
		; SSE42-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm7[0]
		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm5
		; SSE42-NEXT: packssdw %xmm0, %xmm5
		; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm4
		; SSE42-NEXT: packssdw %xmm0, %xmm4
		; SSE42-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
		; SSE42-NEXT: packsswb %xmm6, %xmm4
		; SSE42-NEXT: pextrb $15, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm7, %eax		; SSE42-NEXT: pextrb $14, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $4, %xmm7, %eax		; SSE42-NEXT: pextrb $13, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm7, %eax		; SSE42-NEXT: pextrb $12, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $12, %xmm6, %eax		; SSE42-NEXT: pextrb $11, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm6, %eax		; SSE42-NEXT: pextrb $10, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $4, %xmm6, %eax		; SSE42-NEXT: pextrb $9, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm6, %eax		; SSE42-NEXT: pextrb $8, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $12, %xmm5, %eax		; SSE42-NEXT: pextrb $7, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm5, %eax		; SSE42-NEXT: pextrb $6, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $4, %xmm5, %eax		; SSE42-NEXT: pextrb $5, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm5, %eax		; SSE42-NEXT: pextrb $4, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $12, %xmm4, %eax		; SSE42-NEXT: pextrb $3, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm4, %eax		; SSE42-NEXT: pextrb $2, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $4, %xmm4, %eax		; SSE42-NEXT: pextrb $1, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm4, %eax		; SSE42-NEXT: pextrb $0, %xmm4, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $12, %xmm3, %eax		; SSE42-NEXT: pextrb $15, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm3, %eax		; SSE42-NEXT: pextrb $14, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $4, %xmm3, %eax		; SSE42-NEXT: pextrb $13, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm3, %eax		; SSE42-NEXT: pextrb $12, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $12, %xmm2, %eax		; SSE42-NEXT: pextrb $11, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm2, %eax		; SSE42-NEXT: pextrb $10, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $4, %xmm2, %eax		; SSE42-NEXT: pextrb $9, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm2, %eax		; SSE42-NEXT: pextrb $8, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $12, %xmm1, %eax		; SSE42-NEXT: pextrb $7, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm1, %eax		; SSE42-NEXT: pextrb $6, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $4, %xmm1, %eax		; SSE42-NEXT: pextrb $5, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm1, %eax		; SSE42-NEXT: pextrb $4, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $12, %xmm0, %eax		; SSE42-NEXT: pextrb $3, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm0, %eax		; SSE42-NEXT: pextrb $2, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $4, %xmm0, %eax		; SSE42-NEXT: pextrb $1, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm0, %eax		; SSE42-NEXT: pextrb $0, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: movq %rdi, %rax		; SSE42-NEXT: movq %rdi, %rax
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
▲ Show 20 Lines • Show All 695 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
%1 = icmp sgt <32 x i32> %a0, %a1		%1 = icmp sgt <32 x i32> %a0, %a1
ret <32 x i1> %1		ret <32 x i1> %1
}		}

define <64 x i1> @test_cmp_v64i16(<64 x i16> %a0, <64 x i16> %a1) nounwind {		define <64 x i1> @test_cmp_v64i16(<64 x i16> %a0, <64 x i16> %a1) nounwind {
; SSE2-LABEL: test_cmp_v64i16:		; SSE2-LABEL: test_cmp_v64i16:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm1		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [255,255,255,255,255,255,255,255]
; SSE2-NEXT: pand %xmm8, %xmm1
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm0		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm0
; SSE2-NEXT: pand %xmm8, %xmm0		; SSE2-NEXT: packsswb %xmm1, %xmm0
; SSE2-NEXT: packuswb %xmm1, %xmm0
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm3		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm3
; SSE2-NEXT: pand %xmm8, %xmm3
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm2		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm2
; SSE2-NEXT: pand %xmm8, %xmm2		; SSE2-NEXT: packsswb %xmm3, %xmm2
; SSE2-NEXT: packuswb %xmm3, %xmm2
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm5		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm5
; SSE2-NEXT: pand %xmm8, %xmm5
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm4		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm4
; SSE2-NEXT: pand %xmm8, %xmm4		; SSE2-NEXT: packsswb %xmm5, %xmm4
; SSE2-NEXT: packuswb %xmm5, %xmm4
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm7		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm7
; SSE2-NEXT: pand %xmm8, %xmm7
; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm6		; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm6
; SSE2-NEXT: pand %xmm8, %xmm6		; SSE2-NEXT: packsswb %xmm7, %xmm6
; SSE2-NEXT: packuswb %xmm7, %xmm6
; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, 6(%rdi)		; SSE2-NEXT: movb %al, 6(%rdi)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, 6(%rdi)		; SSE2-NEXT: movb %al, 6(%rdi)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
▲ Show 20 Lines • Show All 4,957 Lines • ▼ Show 20 Lines
; SSE2-NEXT: movb %cl, 2(%rdi)		; SSE2-NEXT: movb %cl, 2(%rdi)
; SSE2-NEXT: andb $1, %al		; SSE2-NEXT: andb $1, %al
; SSE2-NEXT: movb %al, 2(%rdi)		; SSE2-NEXT: movb %al, 2(%rdi)
; SSE2-NEXT: movq %rdi, %rax		; SSE2-NEXT: movq %rdi, %rax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: test_cmp_v32i64:		; SSE42-LABEL: test_cmp_v32i64:
; SSE42: # BB#0:		; SSE42: # BB#0:
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm15
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm14
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm13
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm12
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9
		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11
; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm0		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm14
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm1		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm13
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm2		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm15
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm3		; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm12
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm4
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm5
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm6
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm7		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm7
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm8		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm6
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm9		; SSE42-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm7[0,2]
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm10		; SSE42-NEXT: movdqa {{.*#+}} xmm7 = [0,1,4,5,4,5,6,7,0,1,4,5,8,9,12,13]
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm11		; SSE42-NEXT: pshufb %xmm7, %xmm6
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm5
		; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
		; SSE42-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,2,2,3,4,5,6,7]
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm4
		; SSE42-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
		; SSE42-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]
		; SSE42-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
		; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm6[4,5,6,7]
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm3
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm2
		; SSE42-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
		; SSE42-NEXT: pshufb %xmm7, %xmm2
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm1
		; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
		; SSE42-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm0
		; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; SSE42-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
		; SSE42-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
		; SSE42-NEXT: packsswb %xmm4, %xmm0
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm12		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm12
		; SSE42-NEXT: movdqa {{.*#+}} xmm1 = [0,1,8,9,2,3,10,11,8,9,12,13,10,11,14,15]
		; SSE42-NEXT: pshufb %xmm1, %xmm12
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm15
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm13		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm13
		; SSE42-NEXT: shufps {{.*#+}} xmm13 = xmm13[0,2],xmm15[0,2]
		; SSE42-NEXT: pshufb %xmm7, %xmm13
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm14		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm14
; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm15		; SSE42-NEXT: pshufd {{.*#+}} xmm2 = xmm14[0,2,2,3]
; SSE42-NEXT: pextrb $8, %xmm15, %eax		; SSE42-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,1,0,2,4,5,6,7]
		; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm13[4,5,6,7]
		; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm12[0,1],xmm2[2,3,4,5,6,7]
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm8
		; SSE42-NEXT: pshufb %xmm1, %xmm8
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm11
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm9
		; SSE42-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,2],xmm11[0,2]
		; SSE42-NEXT: pshufb %xmm7, %xmm9
		; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm10
		; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm10[0,2,2,3]
		; SSE42-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,1,0,2,4,5,6,7]
		; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm9[4,5,6,7]
		; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm8[0,1],xmm1[2,3,4,5,6,7]
		; SSE42-NEXT: packsswb %xmm2, %xmm1
		; SSE42-NEXT: pextrb $15, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm15, %eax		; SSE42-NEXT: pextrb $14, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm14, %eax		; SSE42-NEXT: pextrb $13, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm14, %eax		; SSE42-NEXT: pextrb $12, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm13, %eax		; SSE42-NEXT: pextrb $11, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm13, %eax		; SSE42-NEXT: pextrb $10, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm12, %eax		; SSE42-NEXT: pextrb $9, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm12, %eax		; SSE42-NEXT: pextrb $8, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm11, %eax		; SSE42-NEXT: pextrb $7, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm11, %eax		; SSE42-NEXT: pextrb $6, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm10, %eax		; SSE42-NEXT: pextrb $5, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm10, %eax		; SSE42-NEXT: pextrb $4, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm9, %eax		; SSE42-NEXT: pextrb $3, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm9, %eax		; SSE42-NEXT: pextrb $2, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm8, %eax		; SSE42-NEXT: pextrb $1, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $0, %xmm8, %eax		; SSE42-NEXT: pextrb $0, %xmm1, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, 2(%rdi)		; SSE42-NEXT: movb %al, 2(%rdi)
; SSE42-NEXT: pextrb $8, %xmm7, %eax		; SSE42-NEXT: pextrb $15, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm7, %eax		; SSE42-NEXT: pextrb $14, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm6, %eax		; SSE42-NEXT: pextrb $13, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm6, %eax		; SSE42-NEXT: pextrb $12, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm5, %eax		; SSE42-NEXT: pextrb $11, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm5, %eax		; SSE42-NEXT: pextrb $10, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm4, %eax		; SSE42-NEXT: pextrb $9, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm4, %eax		; SSE42-NEXT: pextrb $8, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm3, %eax		; SSE42-NEXT: pextrb $7, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm3, %eax		; SSE42-NEXT: pextrb $6, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm2, %eax		; SSE42-NEXT: pextrb $5, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm2, %eax		; SSE42-NEXT: pextrb $4, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm1, %eax		; SSE42-NEXT: pextrb $3, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm1, %eax		; SSE42-NEXT: pextrb $2, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $8, %xmm0, %eax		; SSE42-NEXT: pextrb $1, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: pextrb $0, %xmm0, %eax		; SSE42-NEXT: pextrb $0, %xmm0, %eax
; SSE42-NEXT: andb $1, %al		; SSE42-NEXT: andb $1, %al
; SSE42-NEXT: movb %al, (%rdi)		; SSE42-NEXT: movb %al, (%rdi)
; SSE42-NEXT: movq %rdi, %rax		; SSE42-NEXT: movq %rdi, %rax
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
▲ Show 20 Lines • Show All 874 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-128.ll

	Show First 20 Lines • Show All 314 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendvb %xmm2, %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpblendvb %xmm2, %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: var_shift_v8i16:			; AVX2-LABEL: var_shift_v8i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0			; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vpsravd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsravd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: var_shift_v8i16:			; XOP-LABEL: var_shift_v8i16:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2			; XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2
	▲ Show 20 Lines • Show All 916 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsraw $1, %xmm0, %xmm1			; AVX1-NEXT: vpsraw $1, %xmm0, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v8i16:			; AVX2-LABEL: constant_shift_v8i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0			; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: constant_shift_v8i16:			; XOP-LABEL: constant_shift_v8i16:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vpxor %xmm1, %xmm1, %xmm1			; XOP-NEXT: vpxor %xmm1, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 455 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

	Show First 20 Lines • Show All 392 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psrad $16, %xmm0			; SSE2-NEXT: psrad $16, %xmm0
	; SSE2-NEXT: packssdw %xmm1, %xmm0			; SSE2-NEXT: packssdw %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: trunc8i32_8i16_ashr:			; SSSE3-LABEL: trunc8i32_8i16_ashr:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: psrad $16, %xmm0			; SSSE3-NEXT: psrad $16, %xmm0
	; SSSE3-NEXT: psrad $16, %xmm1			; SSSE3-NEXT: psrad $16, %xmm1
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSSE3-NEXT: packssdw %xmm0, %xmm1
	; SSSE3-NEXT: pshufb %xmm2, %xmm1			; SSSE3-NEXT: packssdw %xmm0, %xmm0
	; SSSE3-NEXT: pshufb %xmm2, %xmm0
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc8i32_8i16_ashr:			; SSE41-LABEL: trunc8i32_8i16_ashr:
	; SSE41: # BB#0: # %entry			; SSE41: # BB#0: # %entry
	; SSE41-NEXT: psrad $16, %xmm0			; SSE41-NEXT: psrad $16, %xmm0
	; SSE41-NEXT: psrad $16, %xmm1			; SSE41-NEXT: psrad $16, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE41-NEXT: packssdw %xmm0, %xmm1
	; SSE41-NEXT: pshufb %xmm2, %xmm1			; SSE41-NEXT: packssdw %xmm0, %xmm0
	; SSE41-NEXT: pshufb %xmm2, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc8i32_8i16_ashr:			; AVX1-LABEL: trunc8i32_8i16_ashr:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vpsrad $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrad $16, %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0			; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vpackssdw %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackssdw %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i32_8i16_ashr:			; AVX2-LABEL: trunc8i32_8i16_ashr:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0			; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc8i32_8i16_ashr:			; AVX512F-LABEL: trunc8i32_8i16_ashr:
	; AVX512F: # BB#0: # %entry			; AVX512F: # BB#0: # %entry
	; AVX512F-NEXT: vpsrad $16, %ymm0, %ymm0			; AVX512F-NEXT: vpsrad $16, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2,3,6,7,10,11,14,15,10,11,14,15,14,15,255,255]			; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2,3,6,7,10,11,14,15,10,11,14,15,14,15,255,255]
	; SSSE3-NEXT: pshufb %xmm2, %xmm1			; SSSE3-NEXT: pshufb %xmm2, %xmm1
	; SSSE3-NEXT: pshufb %xmm2, %xmm0			; SSSE3-NEXT: pshufb %xmm2, %xmm0
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc8i32_8i16_lshr:			; SSE41-LABEL: trunc8i32_8i16_lshr:
	; SSE41: # BB#0: # %entry			; SSE41: # BB#0: # %entry
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [2,3,6,7,10,11,14,15,10,11,14,15,14,15,255,255]			; SSE41-NEXT: psrld $16, %xmm0
	; SSE41-NEXT: pshufb %xmm2, %xmm1			; SSE41-NEXT: psrld $16, %xmm1
	; SSE41-NEXT: pshufb %xmm2, %xmm0			; SSE41-NEXT: packusdw %xmm0, %xmm1
				; SSE41-NEXT: packusdw %xmm0, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc8i32_8i16_lshr:			; AVX1-LABEL: trunc8i32_8i16_lshr:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2,3,6,7,10,11,14,15,10,11,14,15,14,15,255,255]			; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i32_8i16_lshr:			; AVX2-LABEL: trunc8i32_8i16_lshr:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[2,3,6,7,10,11,14,15,10,11,14,15,14,15],zero,zero,ymm0[18,19,22,23,26,27,30,31,26,27,30,31,30,31],zero,zero			; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
				; AVX2-NEXT: vpackusdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc8i32_8i16_lshr:			; AVX512F-LABEL: trunc8i32_8i16_lshr:
	; AVX512F: # BB#0: # %entry			; AVX512F: # BB#0: # %entry
	; AVX512F-NEXT: vpsrld $16, %ymm0, %ymm0			; AVX512F-NEXT: vpsrld $16, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 259 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovups %ymm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16_ashr:			; AVX2-LABEL: trunc16i32_16i16_ashr:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1			; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1
	; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0			; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpackssdw %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i16_ashr:			; AVX512-LABEL: trunc16i32_16i16_ashr:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovups %ymm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16_lshr:			; AVX2-LABEL: trunc16i32_16i16_lshr:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [2,3,6,7,10,11,14,15,10,11,14,15,14,15,255,255,18,19,22,23,26,27,30,31,26,27,30,31,30,31,255,255]			; AVX2-NEXT: vpsrld $16, %ymm1, %ymm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
				; AVX2-NEXT: vpackusdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpackusdw %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i16_lshr:			; AVX512-LABEL: trunc16i32_16i16_lshr:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i8_ashr:			; AVX2-LABEL: trunc16i32_16i8_ashr:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpsrad $24, %ymm0, %ymm0			; AVX2-NEXT: vpsrad $24, %ymm0, %ymm0
	; AVX2-NEXT: vpsrad $24, %ymm1, %ymm1			; AVX2-NEXT: vpsrad $24, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackssdw %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i8_ashr:			; AVX512-LABEL: trunc16i32_16i8_ashr:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0			; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0
	Show All 32 Lines
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i8_lshr:			; AVX2-LABEL: trunc16i32_16i8_lshr:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [3,255,7,255,11,255,15,255,11,255,15,255,15,255,255,255,19,255,23,255,27,255,31,255,27,255,31,255,31,255,255,255]			; AVX2-NEXT: vpsrld $24, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpsrld $24, %ymm1, %ymm1
				; AVX2-NEXT: vpackssdw %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i8_lshr:			; AVX512-LABEL: trunc16i32_16i8_lshr:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0			; AVX512-NEXT: vpsrld $24, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	entry:			entry:
	%0 = trunc <16 x i16> %a to <16 x i8>			%0 = trunc <16 x i16> %a to <16 x i8>
	store <16 x i8> %0, <16 x i8>* undef, align 4			store <16 x i8> %0, <16 x i8>* undef, align 4
	ret void			ret void
	}			}

	define void @trunc16i16_16i8_ashr(<16 x i16> %a) {			define void @trunc16i16_16i8_ashr(<16 x i16> %a) {
	; SSE2-LABEL: trunc16i16_16i8_ashr:			; SSE-LABEL: trunc16i16_16i8_ashr:
	; SSE2: # BB#0: # %entry			; SSE: # BB#0: # %entry
	; SSE2-NEXT: psraw $8, %xmm0			; SSE-NEXT: psraw $8, %xmm1
	; SSE2-NEXT: psraw $8, %xmm1			; SSE-NEXT: psraw $8, %xmm0
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; SSE-NEXT: packsswb %xmm1, %xmm0
	; SSE2-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: retq
	; SSE2-NEXT: packuswb %xmm1, %xmm0
	; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: trunc16i16_16i8_ashr:
	; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: psraw $8, %xmm0
	; SSSE3-NEXT: psraw $8, %xmm1
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; SSSE3-NEXT: pshufb %xmm2, %xmm1
	; SSSE3-NEXT: pshufb %xmm2, %xmm0
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: movdqu %xmm0, (%rax)
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: trunc16i16_16i8_ashr:
	; SSE41: # BB#0: # %entry
	; SSE41-NEXT: psraw $8, %xmm0
	; SSE41-NEXT: psraw $8, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; SSE41-NEXT: pshufb %xmm2, %xmm1
	; SSE41-NEXT: pshufb %xmm2, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i16_16i8_ashr:			; AVX1-LABEL: trunc16i16_16i8_ashr:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vpsraw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsraw $8, %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsraw $8, %xmm0, %xmm0			; AVX1-NEXT: vpsraw $8, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	entry:			entry:
	%0 = ashr <16 x i16> %a, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>			%0 = ashr <16 x i16> %a, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
	%1 = trunc <16 x i16> %0 to <16 x i8>			%1 = trunc <16 x i16> %0 to <16 x i8>
	store <16 x i8> %1, <16 x i8>* undef, align 4			store <16 x i8> %1, <16 x i8>* undef, align 4
	ret void			ret void
	}			}

	define void @trunc16i16_16i8_lshr(<16 x i16> %a) {			define void @trunc16i16_16i8_lshr(<16 x i16> %a) {
	; SSE2-LABEL: trunc16i16_16i8_lshr:			; SSE-LABEL: trunc16i16_16i8_lshr:
	; SSE2: # BB#0: # %entry			; SSE: # BB#0: # %entry
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE-NEXT: psrlw $8, %xmm1
	; SSE2-NEXT: psrlw $8, %xmm0			; SSE-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSSE3-LABEL: trunc16i16_16i8_lshr:
	; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = <1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u>
	; SSSE3-NEXT: pshufb %xmm2, %xmm1
	; SSSE3-NEXT: pshufb %xmm2, %xmm0
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: movdqu %xmm0, (%rax)
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: trunc16i16_16i8_lshr:
	; SSE41: # BB#0: # %entry
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = <1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u>
	; SSE41-NEXT: pshufb %xmm2, %xmm1
	; SSE41-NEXT: pshufb %xmm2, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i16_16i8_lshr:			; AVX1-LABEL: trunc16i16_16i8_lshr:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i16_16i8_lshr:			; AVX2-LABEL: trunc16i16_16i8_lshr:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpsrlw $8, %ymm0, %ymm0			; AVX2-NEXT: vpsrlw $8, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc16i16_16i8_lshr:			; AVX512F-LABEL: trunc16i16_16i8_lshr:
	; AVX512F: # BB#0: # %entry			; AVX512F: # BB#0: # %entry
	; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0			; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0
	; AVX512F-NEXT: vpmovsxwd %ymm0, %zmm0			; AVX512F-NEXT: vpmovsxwd %ymm0, %zmm0
	▲ Show 20 Lines • Show All 685 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vselect-avx.ll

	Show First 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]
	; AVX1-NEXT: vpsrld $31, %xmm3, %xmm4			; AVX1-NEXT: vpsrld $31, %xmm3, %xmm4
	; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vpackssdw %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, (%rdi)			; AVX1-NEXT: vmovq %xmm0, (%rdi)
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm0			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vmovq %xmm0, (%rsi)			; AVX1-NEXT: vmovq %xmm0, (%rsi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test3:			; AVX2-LABEL: test3:
	; AVX2: ## BB#0:			; AVX2: ## BB#0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [1431655766,1431655766,1431655766,1431655766]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [1431655766,1431655766,1431655766,1431655766]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpmuldq %xmm4, %xmm5, %xmm4			; AVX2-NEXT: vpmuldq %xmm4, %xmm5, %xmm4
	; AVX2-NEXT: vpmuldq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuldq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3]
	; AVX2-NEXT: vpsrld $31, %xmm3, %xmm4			; AVX2-NEXT: vpsrld $31, %xmm3, %xmm4
	; AVX2-NEXT: vpaddd %xmm4, %xmm3, %xmm3			; AVX2-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm4 = [3,3,3,3]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm4 = [3,3,3,3]
	; AVX2-NEXT: vpmulld %xmm4, %xmm3, %xmm3			; AVX2-NEXT: vpmulld %xmm4, %xmm3, %xmm3
	; AVX2-NEXT: vpsubd %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpsubd %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-NEXT: vpackssdw %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, (%rdi)			; AVX2-NEXT: vmovq %xmm0, (%rdi)
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm0			; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX2-NEXT: vmovq %xmm0, (%rsi)			; AVX2-NEXT: vmovq %xmm0, (%rsi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%tmp6 = srem <4 x i32> %induction30, <i32 3, i32 3, i32 3, i32 3>			%tmp6 = srem <4 x i32> %induction30, <i32 3, i32 3, i32 3, i32 3>
	%tmp7 = icmp eq <4 x i32> %tmp6, zeroinitializer			%tmp7 = icmp eq <4 x i32> %tmp6, zeroinitializer
	%predphi = select <4 x i1> %tmp7, <4 x i16> %tmp3, <4 x i16> %tmp12			%predphi = select <4 x i1> %tmp7, <4 x i16> %tmp3, <4 x i16> %tmp12
	%predphi31 = select <4 x i1> %tmp7, <4 x i16> <i16 -1, i16 -1, i16 -1, i16 -1>, <4 x i16> zeroinitializer			%predphi31 = select <4 x i1> %tmp7, <4 x i16> <i16 -1, i16 -1, i16 -1, i16 -1>, <4 x i16> zeroinitializer

	store <4 x i16> %predphi31, <4 x i16>* %tmp16, align 8			store <4 x i16> %predphi31, <4 x i16>* %tmp16, align 8
	Show All 36 Lines

llvm/trunk/test/CodeGen/X86/widen_arith-2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 \| FileCheck %s			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 \| FileCheck %s

	; widen v8i8 to v16i8 (checks even power of 2 widening with add & and)			; widen v8i8 to v16i8 (checks even power of 2 widening with add & and)

	define void @update(i64* %dst_i, i64* %src_i, i32 %n) nounwind {			define void @update(i64* %dst_i, i64* %src_i, i32 %n) nounwind {
	; CHECK-LABEL: update:			; CHECK-LABEL: update:
	; CHECK: # BB#0: # %entry			; CHECK: # BB#0: # %entry
	; CHECK-NEXT: subl $12, %esp			; CHECK-NEXT: subl $12, %esp
	; CHECK-NEXT: movl $0, (%esp)			; CHECK-NEXT: movl $0, (%esp)
	; CHECK-NEXT: pcmpeqd %xmm0, %xmm0			; CHECK-NEXT: pcmpeqd %xmm0, %xmm0
	; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4]			; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4]
	; CHECK-NEXT: movdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; CHECK-NEXT: jmp .LBB0_1			; CHECK-NEXT: jmp .LBB0_1
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB0_2: # %forbody			; CHECK-NEXT: .LBB0_2: # %forbody
	; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1			; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1
	; CHECK-NEXT: movl (%esp), %eax			; CHECK-NEXT: movl (%esp), %eax
	; CHECK-NEXT: leal (,%eax,8), %ecx			; CHECK-NEXT: leal (,%eax,8), %ecx
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %edx			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %edx
	; CHECK-NEXT: addl %ecx, %edx			; CHECK-NEXT: addl %ecx, %edx
	; CHECK-NEXT: movl %edx, {{[0-9]+}}(%esp)			; CHECK-NEXT: movl %edx, {{[0-9]+}}(%esp)
	; CHECK-NEXT: addl {{[0-9]+}}(%esp), %ecx			; CHECK-NEXT: addl {{[0-9]+}}(%esp), %ecx
	; CHECK-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; CHECK-NEXT: movl %ecx, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pmovzxbw {{.*#+}} xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; CHECK-NEXT: pmovzxbw {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; CHECK-NEXT: psubw %xmm0, %xmm3			; CHECK-NEXT: psubw %xmm0, %xmm2
	; CHECK-NEXT: pand %xmm1, %xmm3			; CHECK-NEXT: pand %xmm1, %xmm2
	; CHECK-NEXT: pshufb %xmm2, %xmm3			; CHECK-NEXT: packsswb %xmm0, %xmm2
	; CHECK-NEXT: movq %xmm3, (%edx,%eax,8)			; CHECK-NEXT: movq %xmm2, (%edx,%eax,8)
	; CHECK-NEXT: incl (%esp)			; CHECK-NEXT: incl (%esp)
	; CHECK-NEXT: .LBB0_1: # %forcond			; CHECK-NEXT: .LBB0_1: # %forcond
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: movl (%esp), %eax			; CHECK-NEXT: movl (%esp), %eax
	; CHECK-NEXT: cmpl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: cmpl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: jl .LBB0_2			; CHECK-NEXT: jl .LBB0_2
	; CHECK-NEXT: # BB#3: # %afterfor			; CHECK-NEXT: # BB#3: # %afterfor
	; CHECK-NEXT: addl $12, %esp			; CHECK-NEXT: addl $12, %esp
	▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Add support for lowering shuffles to PACKSS/PACKUSClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 117502

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/test/CodeGen/X86/avx-cvt-2.ll

llvm/trunk/test/CodeGen/X86/avx2-shift.ll

llvm/trunk/test/CodeGen/X86/avx2-vbroadcast.ll

llvm/trunk/test/CodeGen/X86/avx2-vector-shifts.ll

llvm/trunk/test/CodeGen/X86/avx512-any_extend_load.ll

llvm/trunk/test/CodeGen/X86/avx512-trunc.ll

llvm/trunk/test/CodeGen/X86/bitcast-and-setcc-256.ll

llvm/trunk/test/CodeGen/X86/bitcast-and-setcc-512.ll

llvm/trunk/test/CodeGen/X86/bitcast-setcc-128.ll

llvm/trunk/test/CodeGen/X86/psubus.ll

llvm/trunk/test/CodeGen/X86/shuffle-strided-with-offset-256.ll

llvm/trunk/test/CodeGen/X86/vector-compare-results.ll

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-128.ll

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

llvm/trunk/test/CodeGen/X86/vselect-avx.ll

llvm/trunk/test/CodeGen/X86/widen_arith-2.ll

[X86][SSE] Add support for lowering shuffles to PACKSS/PACKUS
ClosedPublic