This is an archive of the discontinued LLVM Phabricator instance.

[x86] use a single shufps when it can save instructions
ClosedPublic

Authored by spatel on Dec 12 2016, 4:40 PM.

Download Raw Diff

Details

Reviewers

RKSimon
zvi
delena
andreadb
mkuper
craig.topper
zansari
DavidKreitzer

Commits

rGa0d8a278a71f: [x86] use a single shufps when it can save instructions
rL289837: [x86] use a single shufps when it can save instructions

Summary

This is a tiny patch with a big pile of test changes.

My motivating case looks like this:

vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]

+ vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]

And this happens several times in the diffs. I think the instruction count and size reduction overcomes any potential domain-crossing penalty due to using an FP op in a sequence of int ops, but let me know if you see problem cases.

I think these are all improvements except one test in vector-shuffle-combining.ll where we miss an opportunity to use a shift to generate zero elements and one test in combine-sra.ll where I'm not sure what is happening yet.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel updated this revision to Diff 81159.Dec 12 2016, 4:40 PM

spatel retitled this revision from to [x86] use a single shufps when it can save instructions.

spatel updated this object.

spatel added reviewers: RKSimon, delena, zvi, DavidKreitzer, zansari, mkuper, craig.topper.

spatel added a subscriber: llvm-commits.

Herald added a subscriber: mcrosier. · View Herald TranscriptDec 12 2016, 4:40 PM

Thanks for looking at this - the domain fixes on D27684 are an early step for adding shufps combining with target shuffles. It should all eventually help us efficiently switch domains if the reduced number of shuffles outweighs any penalty.

combine-sra.ll appears to run into target shuffle combining bailing out if an input has multiple uses - we need a better metric for this (when is it worth keeping both shuffle paths?) but haven't spent much time on it yet.

Thanks, Simon. I see 4 potential outcomes for this patch:

Abandon; we should take a different approach starting at a different point in the lowering sequence.
Add some limitations/refinements (eg: opt-for-size, check the input/output to see if they can avoid a domain switch?).
Accept it, but add fixes for the known problem cases before this lands.
Accept it as-is; the wins outweigh the losses. We can convert a shufps back to integer-equivalent shuffles in MachineCombiner as needed.

Any other options/thoughts?

There's a summary of Agner's findings on this here:
https://llvm.org/bugs/show_bug.cgi?id=27885#c3
...it seems the cross-domain bubble does not actually exist in a lot of common cases (or it's hard to measure).

Thanks for the link, Sanjay. Yes, I was just about to comment on this in the other review as i just got confirmation.. The info in that link is right. The h/w shufflers cross both domains after IVB, therefore, not suffering the bypass penalty when switching through such instructions (perm/shuf/unpack...).

I think this should go in, just forget the domain penalties, as it shouldn't be an issue with most cpus. When I looked at this in Agner Fog's guides, my conclusion was that it is probably only really an issue with Nehalem and Via Nanos. If a cpu has just one clock additional latency back and forth it's still worth it replacing 3 shuffle instructions with one from the wrong domain (albeit the latency chain will be the same then) - and if it manages to only replace 2 shuffle instructions from the right domain it might be worse or better in such a case. (If it is actually worse with Nehalem with its 2 clock penalty back and forth would of course depend if some instruction mix is latency bound or throughput bound.)
Also, plenty of the more odd cpus either place all shuffles in int domain anyway or even do something more odd (like the original core2 merom). I suppose ideally the shuffle lowering code would take into account such hw cost differences, but the truth is right now it doesn't really model any of this (e.g. on some cpus unpacks might not have the same cost as pshufd neither and so on).
So, I'm all for it (and suggested fixing it the same in https://llvm.org/bugs/show_bug.cgi?id=27885).

In D27692#621231, @zansari wrote:

Thanks for the link, Sanjay. Yes, I was just about to comment on this in the other review as i just got confirmation.. The info in that link is right. The h/w shufflers cross both domains after IVB, therefore, not suffering the bypass penalty when switching through such instructions (perm/shuf/unpack...).

So does that mean both this and D27684 can be committed safely? For recent hardware it makes no difference (and D27684 possibly saves a few instruction bytes). For older hardware we still save cycles compared to performing the extra shuffles and we should fix up the domain switches where possible to help a little more.

Just wanted to point out the other direction for this also exists.

@wmi ran into this:

#include <pmmintrin.h>

__m128 c, d, e;

void foo(__m128 a, __m128 b) {
  e = a;
  a = _mm_shuffle_ps(a, a, 0x0);
  c = _mm_mul_ps(e, b);
  d = _mm_add_ps(a, b);
}

We generate:

movaps  %xmm0, e(%rip)
movaps  %xmm0, %xmm2
shufps  $0, %xmm2, %xmm2        # xmm2 = xmm2[0,0,0,0]
mulps   %xmm1, %xmm0
movaps  %xmm0, c(%rip)
addps   %xmm1, %xmm2
movaps  %xmm2, d(%rip)
retq

Because we don't even try to match a pshufd in the float domain, even though we could do something like:

movaps  %xmm0, e(%rip)
pshufd  $0, %xmm0, %xmm2        # xmm2 = xmm0[0,0,0,0]
mulps   %xmm1, %xmm0
movaps  %xmm0, c(%rip)
addps   %xmm1, %xmm2
movaps  %xmm2, d(%rip)
retq

In D27692#621297, @RKSimon wrote:

So does that mean both this and D27684 can be committed safely? For recent hardware it makes no difference (and D27684 possibly saves a few instruction bytes). For older hardware we still save cycles compared to performing the extra shuffles and we should fix up the domain switches where possible to help a little more.

I have no objections to this, or D27684.

In D27692#621298, @mkuper wrote:

Just wanted to point out the other direction for this also exists.

Because we don't even try to match a pshufd in the float domain, even though we could do something like:

That is quite true however it is imho much less severe. Because shufps can do everything pshufd can do, minus the destructive 2-op syntax. Hence this is only a) an issue with pre-avx targets (whereas missing shufps is definitely an issue with both avx-128 and avx-256 too, albeit this patch in question doesn't address the v8i32 cases yet, but it works all the same). And b) even then, it is only one additional mov, the most simple instruction, subject to never reaching execution units and being handled in renaming stage on some cpus even (with 0 latency, albeit of course there's still some cost with having additional instructions). And last d) it is unclear how often that additional mov is actually needed - I don't think it's even possible the shuffle lowering code knows about additional movs needed to preserve regs?
In any case, not arguing this wouldn't be worth looking at, but the benefits look much smaller to me, it only makes a difference with pre-avx target, and you really want to make sure you do this only if there's zero domain transition penalties for using pshufd in a float sequence.

In D27692#621431, @sroland wrote:

In D27692#621298, @mkuper wrote:

Just wanted to point out the other direction for this also exists.

Because we don't even try to match a pshufd in the float domain, even though we could do something like:

That is quite true however it is imho much less severe. Because shufps can do everything pshufd can do, minus the destructive 2-op syntax. Hence this is only a) an issue with pre-avx targets (whereas missing shufps is definitely an issue with both avx-128 and avx-256 too, albeit this patch in question doesn't address the v8i32 cases yet, but it works all the same). And b) even then, it is only one additional mov, the most simple instruction, subject to never reaching execution units and being handled in renaming stage on some cpus even (with 0 latency, albeit of course there's still some cost with having additional instructions). And last d) it is unclear how often that additional mov is actually needed - I don't think it's even possible the shuffle lowering code knows about additional movs needed to preserve regs?
In any case, not arguing this wouldn't be worth looking at, but the benefits look much smaller to me, it only makes a difference with pre-avx target, and you really want to make sure you do this only if there's zero domain transition penalties for using pshufd in a float sequence.

I'm not sure I completely agree on the details (In particular, I'm not certain the older non-AVX arches where the mov is needed have zero-latency movs), but I mostly agree. Especially since it looks like the same platforms that need the mov are the ones that *do* have transition penalty. So using a shufps may be worth it only with something like -march=nehalem -mtune=ivb, where we generate SSE code, but expect to run it on a newer platform.

So this is definitely lower priority, just wanted to point out it exists.

I'm not sure I completely agree on the details (In particular, I'm not certain the older non-AVX arches where the mov is needed have zero-latency movs), but I mostly agree. Especially since it looks like the same platforms that need the mov are the ones that *do* have transition penalty. So using a shufps may be worth it only with something like -march=nehalem -mtune=ivb, where we generate SSE code, but expect to run it on a newer platform.

You are right, I shouldn't have said "pre-avx targets", there are no cpus which can't do avx but can do move elimination. But code compiled with just sse flags but running on newer cps will still benefit from move elimination.
But using pshufd instead of shufps would actually be beneficial on some cpus which do have transition penalties (I neglected that previously) - e.g. core2 wolfdale, because shufps (along with all other float, but not double shuffles) is in the int domain anyway, just like pshufd, so the penalties are all the same (all the bulldozers also fall into that category but they of course can do avx, and they also support mov elimination). But expressing these things correctly would really require very model specific shuffle lowering. Which right now just isn't there - the code simply assumes that the int/float domains apply to shuffles as well as arithmetic instructions (hence should avoid using shuffles from wrong domain), which is woefully inaccurate for quite some cpus.

So this is definitely lower priority, just wanted to point out it exists.

I'd like to propose the following:

1 - we get this patch and D27684 approved and committed, providing v4i32 lowering to shufps and avoiding some of the more unnecessary domain switches.
2 - get shufps lowering added to target shuffle combining, I added shufpd recently and it's just been the domain issues that I wanted to tidyup up before adding shufps as well
3 - add support for v8i32 (and v16i32?) lowering to shufps
4 - other missing domain switch patterns (scalar stores and vpermilps/vpshufd come to mind)
5 - add support for domain switching to target shuffle combine when the shuffle depth is 3 or more - this will allow pshufd use on pre-AVX targets and seems to introduce some good uses of insertps as well.

That seems within scope for 4.0 and doesn't involve anything too exotic. After 4.0 we should be in a better position to begin work on moving some of this work to MC combines to better make use of specific scheduler models

In D27692#621550, @RKSimon wrote:

I'd like to propose the following:

1 - we get this patch and D27684 approved and committed, providing v4i32 lowering to shufps and avoiding some of the more unnecessary domain switches.
2 - get shufps lowering added to target shuffle combining, I added shufpd recently and it's just been the domain issues that I wanted to tidyup up before adding shufps as well
3 - add support for v8i32 (and v16i32?) lowering to shufps
4 - other missing domain switch patterns (scalar stores and vpermilps/vpshufd come to mind)
5 - add support for domain switching to target shuffle combine when the shuffle depth is 3 or more - this will allow pshufd use on pre-AVX targets and seems to introduce some good uses of insertps as well.

That seems within scope for 4.0 and doesn't involve anything too exotic. After 4.0 we should be in a better position to begin work on moving some of this work to MC combines to better make use of specific scheduler models

Sounds like a good plan to me. As for 3) it is pretty trivial (as seen by my patch) albeit I only did it for v8i32, not v16i32. The latter can always use another native perm shuffle I think though that might be more expensive (well it will have a memory op for sure for the shuffle mask, but beyond that I have no idea neither for KNL nor SKL-E - for that matter I have absolutely no idea if KNL would have domain transition penalties...)

I'd love to see https://llvm.org/bugs/show_bug.cgi?id=31151 addressed as well, either something along the lines of the patch there or differently, then I'm happy with all the shuffles we need :-).

In D27692#621550, @RKSimon wrote:

I'd like to propose the following:

1 - we get this patch and D27684 approved and committed, providing v4i32 lowering to shufps and avoiding some of the more unnecessary domain switches.
2 - get shufps lowering added to target shuffle combining, I added shufpd recently and it's just been the domain issues that I wanted to tidyup up before adding shufps as well
3 - add support for v8i32 (and v16i32?) lowering to shufps
4 - other missing domain switch patterns (scalar stores and vpermilps/vpshufd come to mind)
5 - add support for domain switching to target shuffle combine when the shuffle depth is 3 or more - this will allow pshufd use on pre-AVX targets and seems to introduce some good uses of insertps as well.

That seems within scope for 4.0 and doesn't involve anything too exotic. After 4.0 we should be in a better position to begin work on moving some of this work to MC combines to better make use of specific scheduler models

FWIW, this sounds like a very good plan to me too.

Thanks, everyone. I think all comments so far are in favor of committing this patch. If someone will officially approve, I'll check it in. :)

OK to commit this and D27684?

In D27692#623562, @RKSimon wrote:

OK to commit this and D27684?

Both patches LGTM.

This revision is now accepted and ready to land.Dec 15 2016, 6:32 AM

RKSimon mentioned this in rL289834: [X86][SSE] Fix domains for scalar store instructions.Dec 15 2016, 9:19 AM

Closed by commit rL289837: [x86] use a single shufps when it can save instructions (authored by spatel). · Explain WhyDec 15 2016, 10:14 AM

This revision was automatically updated to reflect the committed changes.

RKSimon mentioned this in rL290064: [X86][SSE] Add support for combining target shuffles to SHUFPS..Dec 18 2016, 6:36 AM

RKSimon mentioned this in rL295608: [X86][SSE] Enable initial support for domain crossing at high shuffle combine….Feb 19 2017, 9:31 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

33 lines

test/

CodeGen/

X86/

11 lines

4 lines

8 lines

6 lines

55 lines

52 lines

6 lines

48 lines

masked_gather_scatter.ll

12 lines

45 lines

108 lines

4 lines

208 lines

9 lines

18 lines

125 lines

vector-compare-results.ll

529 lines

vector-shuffle-128-v4.ll

6 lines

vector-shuffle-combining.ll

244 lines

vector-trunc-math.ll

292 lines

vector-trunc.ll

139 lines

vsplit-and.ll

28 lines

Diff 81611

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,113 Lines • ▼ Show 20 Lines	static SDValue lowerV4I32VectorShuffle(const SDLoc &DL, ArrayRef<int> Mask,

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
// Its more profitable for pre-SSSE3 to use shuffles/unpacks.		// Its more profitable for pre-SSSE3 to use shuffles/unpacks.
if (Subtarget.hasSSSE3())		if (Subtarget.hasSSSE3())
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(
DL, MVT::v4i32, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v4i32, V1, V2, Mask, Subtarget, DAG))
return Rotate;		return Rotate;

		// Assume that a single SHUFPS is faster than an alternative sequence of
		// multiple instructions (even if the CPU has a domain penalty).
		// If some CPU is harmed by the domain switch, we can fix it in a later pass.
		if (!isSingleSHUFPSMask(Mask)) {
// If we have direct support for blends, we should lower by decomposing into		// If we have direct support for blends, we should lower by decomposing into
// a permute. That will be faster than the domain cross.		// a permute. That will be faster than the domain cross.
if (IsBlendSupported)		if (IsBlendSupported)
return lowerVectorShuffleAsDecomposedShuffleBlend(DL, MVT::v4i32, V1, V2,		return lowerVectorShuffleAsDecomposedShuffleBlend(DL, MVT::v4i32, V1, V2,
Mask, DAG);		Mask, DAG);

// Try to lower by permuting the inputs into an unpack instruction.		// Try to lower by permuting the inputs into an unpack instruction.
if (SDValue Unpack = lowerVectorShuffleAsPermuteAndUnpack(DL, MVT::v4i32, V1,		if (SDValue Unpack = lowerVectorShuffleAsPermuteAndUnpack(
V2, Mask, DAG))		DL, MVT::v4i32, V1, V2, Mask, DAG))
return Unpack;		return Unpack;
		}

// We implement this with SHUFPS because it can blend from two vectors.		// We implement this with SHUFPS because it can blend from two vectors.
// Because we're going to eventually use SHUFPS, we use SHUFPS even to build		// Because we're going to eventually use SHUFPS, we use SHUFPS even to build
// up the inputs, bypassing domain shift penalties that we would encur if we		// up the inputs, bypassing domain shift penalties that we would encur if we
// directly used PSHUFD on Nehalem and older. For newer chips, this isn't		// directly used PSHUFD on Nehalem and older. For newer chips, this isn't
// relevant.		// relevant.
return DAG.getBitcast(		SDValue CastV1 = DAG.getBitcast(MVT::v4f32, V1);
MVT::v4i32,		SDValue CastV2 = DAG.getBitcast(MVT::v4f32, V2);
DAG.getVectorShuffle(MVT::v4f32, DL, DAG.getBitcast(MVT::v4f32, V1),		SDValue ShufPS = DAG.getVectorShuffle(MVT::v4f32, DL, CastV1, CastV2, Mask);
DAG.getBitcast(MVT::v4f32, V2), Mask));		return DAG.getBitcast(MVT::v4i32, ShufPS);
}		}

/// \brief Lowering of single-input v8i16 shuffles is the cornerstone of SSE2		/// \brief Lowering of single-input v8i16 shuffles is the cornerstone of SSE2
/// shuffle lowering, and the most complex part.		/// shuffle lowering, and the most complex part.
///		///
/// The lowering strategy is to try to form pairs of input lanes which are		/// The lowering strategy is to try to form pairs of input lanes which are
/// targeted at the same half of the final vector, and then use a dword shuffle		/// targeted at the same half of the final vector, and then use a dword shuffle
/// to place them onto the right half, and finally unpack the paired lanes into		/// to place them onto the right half, and finally unpack the paired lanes into
▲ Show 20 Lines • Show All 24,013 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/SwizzleShuff.ll

Show All 13 Lines	; CHECK-NEXT: retq
%C = xor <4 x i8> %A, %B		%C = xor <4 x i8> %A, %B
store <4 x i8> %C, <4 x i8>* %pA		store <4 x i8> %C, <4 x i8>* %pA
ret void		ret void
}		}

define <4 x i32> @multi_use_swizzle(<4 x i32>* %pA, <4 x i32>* %pB) {		define <4 x i32> @multi_use_swizzle(<4 x i32>* %pA, <4 x i32>* %pB) {
; CHECK-LABEL: multi_use_swizzle:		; CHECK-LABEL: multi_use_swizzle:
; CHECK: # BB#0:		; CHECK: # BB#0:
; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = mem[0,1,1,2]		; CHECK-NEXT: vmovaps (%rdi), %xmm0
; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = mem[1,1,2,3]		; CHECK-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],mem[1,2]
; CHECK-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]		; CHECK-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,3,2,2]
; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,3,2,2]		; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,0,2]
; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,1,0,2]		; CHECK-NEXT: vxorps %xmm0, %xmm1, %xmm0
; CHECK-NEXT: vpxor %xmm0, %xmm1, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%A = load <4 x i32>, <4 x i32>* %pA		%A = load <4 x i32>, <4 x i32>* %pA
%B = load <4 x i32>, <4 x i32>* %pB		%B = load <4 x i32>, <4 x i32>* %pB
%S = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> <i32 1, i32 1, i32 5, i32 6>		%S = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> <i32 1, i32 1, i32 5, i32 6>
%S1 = shufflevector <4 x i32> %S, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 2, i32 2>		%S1 = shufflevector <4 x i32> %S, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 2, i32 2>
%S2 = shufflevector <4 x i32> %S, <4 x i32> undef, <4 x i32> <i32 2, i32 1, i32 0, i32 2>		%S2 = shufflevector <4 x i32> %S, <4 x i32> undef, <4 x i32> <i32 2, i32 1, i32 0, i32 2>
%R = xor <4 x i32> %S1, %S2		%R = xor <4 x i32> %S1, %S2
ret <4 x i32> %R		ret <4 x i32> %R
▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx-trunc.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s

	define <4 x i32> @trunc_64_32(<4 x i64> %A) nounwind uwtable readnone ssp{			define <4 x i32> @trunc_64_32(<4 x i64> %A) nounwind uwtable readnone ssp{
	; CHECK-LABEL: trunc_64_32:			; CHECK-LABEL: trunc_64_32:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; CHECK-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; CHECK-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%B = trunc <4 x i64> %A to <4 x i32>			%B = trunc <4 x i64> %A to <4 x i32>
	ret <4 x i32>%B			ret <4 x i32>%B
	}			}

	define <8 x i16> @trunc_32_16(<8 x i32> %A) nounwind uwtable readnone ssp{			define <8 x i16> @trunc_32_16(<8 x i32> %A) nounwind uwtable readnone ssp{
	; CHECK-LABEL: trunc_32_16:			; CHECK-LABEL: trunc_32_16:
	Show All 25 Lines

llvm/trunk/test/CodeGen/X86/combine-or.ll

	Show First 20 Lines • Show All 164 Lines • ▼ Show 20 Lines
	}			}


	; Verify that the following test cases are folded into single shuffles.			; Verify that the following test cases are folded into single shuffles.

	define <4 x i32> @test13(<4 x i32> %a, <4 x i32> %b) {			define <4 x i32> @test13(<4 x i32> %a, <4 x i32> %b) {
	; CHECK-LABEL: test13:			; CHECK-LABEL: test13:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; CHECK-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %a, <4 x i32> zeroinitializer, <4 x i32><i32 1, i32 1, i32 4, i32 4>			%shuf1 = shufflevector <4 x i32> %a, <4 x i32> zeroinitializer, <4 x i32><i32 1, i32 1, i32 4, i32 4>
	%shuf2 = shufflevector <4 x i32> %b, <4 x i32> zeroinitializer, <4 x i32><i32 4, i32 4, i32 2, i32 3>			%shuf2 = shufflevector <4 x i32> %b, <4 x i32> zeroinitializer, <4 x i32><i32 4, i32 4, i32 2, i32 3>
	%or = or <4 x i32> %shuf1, %shuf2			%or = or <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %or			ret <4 x i32> %or
	}			}


	define <2 x i64> @test14(<2 x i64> %a, <2 x i64> %b) {			define <2 x i64> @test14(<2 x i64> %a, <2 x i64> %b) {
	; CHECK-LABEL: test14:			; CHECK-LABEL: test14:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shuf1 = shufflevector <2 x i64> %a, <2 x i64> zeroinitializer, <2 x i32><i32 0, i32 2>			%shuf1 = shufflevector <2 x i64> %a, <2 x i64> zeroinitializer, <2 x i32><i32 0, i32 2>
	%shuf2 = shufflevector <2 x i64> %b, <2 x i64> zeroinitializer, <2 x i32><i32 2, i32 0>			%shuf2 = shufflevector <2 x i64> %b, <2 x i64> zeroinitializer, <2 x i32><i32 2, i32 0>
	%or = or <2 x i64> %shuf1, %shuf2			%or = or <2 x i64> %shuf1, %shuf2
	ret <2 x i64> %or			ret <2 x i64> %or
	}			}


	define <4 x i32> @test15(<4 x i32> %a, <4 x i32> %b) {			define <4 x i32> @test15(<4 x i32> %a, <4 x i32> %b) {
	; CHECK-LABEL: test15:			; CHECK-LABEL: test15:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,1,2,1]			; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,1],xmm0[2,1]
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,1,2,3]			; CHECK-NEXT: movaps %xmm1, %xmm0
	; CHECK-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %a, <4 x i32> zeroinitializer, <4 x i32><i32 4, i32 4, i32 2, i32 1>			%shuf1 = shufflevector <4 x i32> %a, <4 x i32> zeroinitializer, <4 x i32><i32 4, i32 4, i32 2, i32 1>
	%shuf2 = shufflevector <4 x i32> %b, <4 x i32> zeroinitializer, <4 x i32><i32 2, i32 1, i32 4, i32 4>			%shuf2 = shufflevector <4 x i32> %b, <4 x i32> zeroinitializer, <4 x i32><i32 2, i32 1, i32 4, i32 4>
	%or = or <4 x i32> %shuf1, %shuf2			%or = or <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %or			ret <4 x i32> %or
	}			}


	▲ Show 20 Lines • Show All 276 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-shl.ll

Show First 20 Lines • Show All 101 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%2 = shl <4 x i32> %1, <i32 16, i32 15, i32 14, i32 13>		%2 = shl <4 x i32> %1, <i32 16, i32 15, i32 14, i32 13>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

; fold (shl x, (trunc (and y, c))) -> (shl x, (and (trunc y), (trunc c))).		; fold (shl x, (trunc (and y, c))) -> (shl x, (and (trunc y), (trunc c))).
define <4 x i32> @combine_vec_shl_trunc_and(<4 x i32> %x, <4 x i64> %y) {		define <4 x i32> @combine_vec_shl_trunc_and(<4 x i32> %x, <4 x i64> %y) {
; SSE-LABEL: combine_vec_shl_trunc_and:		; SSE-LABEL: combine_vec_shl_trunc_and:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; SSE-NEXT: andps {{.*}}(%rip), %xmm1
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
; SSE-NEXT: pand {{.*}}(%rip), %xmm1
; SSE-NEXT: pslld $23, %xmm1		; SSE-NEXT: pslld $23, %xmm1
; SSE-NEXT: paddd {{.*}}(%rip), %xmm1		; SSE-NEXT: paddd {{.*}}(%rip), %xmm1
; SSE-NEXT: cvttps2dq %xmm1, %xmm1		; SSE-NEXT: cvttps2dq %xmm1, %xmm1
; SSE-NEXT: pmulld %xmm1, %xmm0		; SSE-NEXT: pmulld %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_shl_trunc_and:		; AVX-LABEL: combine_vec_shl_trunc_and:
; AVX: # BB#0:		; AVX: # BB#0:
▲ Show 20 Lines • Show All 491 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-sra.ll

Show First 20 Lines • Show All 155 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%2 = ashr <4 x i32> %1, <i32 25, i32 26, i32 27, i32 28>		%2 = ashr <4 x i32> %1, <i32 25, i32 26, i32 27, i32 28>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

; fold (sra x, (trunc (and y, c))) -> (sra x, (and (trunc y), (trunc c))).		; fold (sra x, (trunc (and y, c))) -> (sra x, (and (trunc y), (trunc c))).
define <4 x i32> @combine_vec_ashr_trunc_and(<4 x i32> %x, <4 x i64> %y) {		define <4 x i32> @combine_vec_ashr_trunc_and(<4 x i32> %x, <4 x i64> %y) {
; SSE-LABEL: combine_vec_ashr_trunc_and:		; SSE-LABEL: combine_vec_ashr_trunc_and:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; SSE-NEXT: andps {{.*}}(%rip), %xmm1
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]		; SSE-NEXT: movaps %xmm1, %xmm2
; SSE-NEXT: pand {{.*}}(%rip), %xmm1
; SSE-NEXT: movdqa %xmm1, %xmm2
; SSE-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; SSE-NEXT: movdqa %xmm0, %xmm3		; SSE-NEXT: movdqa %xmm0, %xmm3
; SSE-NEXT: psrad %xmm2, %xmm3		; SSE-NEXT: psrad %xmm2, %xmm3
; SSE-NEXT: movdqa %xmm1, %xmm2		; SSE-NEXT: movaps %xmm1, %xmm2
; SSE-NEXT: psrlq $32, %xmm2		; SSE-NEXT: psrlq $32, %xmm2
; SSE-NEXT: movdqa %xmm0, %xmm4		; SSE-NEXT: movdqa %xmm0, %xmm4
; SSE-NEXT: psrad %xmm2, %xmm4		; SSE-NEXT: psrad %xmm2, %xmm4
; SSE-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; SSE-NEXT: pxor %xmm2, %xmm2		; SSE-NEXT: pxor %xmm2, %xmm2
; SSE-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero		; SSE-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero
; SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
; SSE-NEXT: movdqa %xmm0, %xmm2		; SSE-NEXT: movdqa %xmm0, %xmm2
Show All 17 Lines	; AVX-NEXT: retq
ret <4 x i32> %3		ret <4 x i32> %3
}		}

; fold (sra (trunc (srl x, c1)), c2) -> (trunc (sra x, c1 + c2))		; fold (sra (trunc (srl x, c1)), c2) -> (trunc (sra x, c1 + c2))
; if c1 is equal to the number of bits the trunc removes		; if c1 is equal to the number of bits the trunc removes
define <4 x i32> @combine_vec_ashr_trunc_lshr(<4 x i64> %x) {		define <4 x i32> @combine_vec_ashr_trunc_lshr(<4 x i64> %x) {
; SSE-LABEL: combine_vec_ashr_trunc_lshr:		; SSE-LABEL: combine_vec_ashr_trunc_lshr:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: psrlq $32, %xmm0
; SSE-NEXT: psrlq $32, %xmm1		; SSE-NEXT: psrlq $32, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]		; SSE-NEXT: psrlq $32, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,2,2,3]		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: movdqa %xmm2, %xmm1		; SSE-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: movdqa %xmm2, %xmm0		; SSE-NEXT: psrad $2, %xmm1
; SSE-NEXT: psrad $2, %xmm0		; SSE-NEXT: blendpd {{.*#+}} xmm1 = xmm0[0],xmm1[1]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm2[0,1,2,3],xmm0[4,5,6,7]		; SSE-NEXT: psrad $3, %xmm0
; SSE-NEXT: psrad $3, %xmm2		; SSE-NEXT: psrad $1, %xmm2
; SSE-NEXT: psrad $1, %xmm1		; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_ashr_trunc_lshr:		; AVX-LABEL: combine_vec_ashr_trunc_lshr:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vpsrlq $32, %ymm0, %ymm0		; AVX-NEXT: vpsrlq $32, %ymm0, %ymm0
; AVX-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]		; AVX-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
; AVX-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]		; AVX-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
; AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
%1 = lshr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>		%1 = lshr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>
%2 = trunc <4 x i64> %1 to <4 x i32>		%2 = trunc <4 x i64> %1 to <4 x i32>
%3 = ashr <4 x i32> %2, <i32 0, i32 1, i32 2, i32 3>		%3 = ashr <4 x i32> %2, <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %3		ret <4 x i32> %3
}		}

; fold (sra (trunc (sra x, c1)), c2) -> (trunc (sra x, c1 + c2))		; fold (sra (trunc (sra x, c1)), c2) -> (trunc (sra x, c1 + c2))
; if c1 is equal to the number of bits the trunc removes		; if c1 is equal to the number of bits the trunc removes
define <4 x i32> @combine_vec_ashr_trunc_ashr(<4 x i64> %x) {		define <4 x i32> @combine_vec_ashr_trunc_ashr(<4 x i64> %x) {
; SSE-LABEL: combine_vec_ashr_trunc_ashr:		; SSE-LABEL: combine_vec_ashr_trunc_ashr:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]		; SSE-NEXT: psrad $31, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,0,2]		; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; SSE-NEXT: movdqa %xmm1, %xmm2		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[0,2]
; SSE-NEXT: movdqa %xmm1, %xmm0		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: psrad $2, %xmm0		; SSE-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]		; SSE-NEXT: psrad $2, %xmm1
; SSE-NEXT: psrad $3, %xmm1		; SSE-NEXT: blendpd {{.*#+}} xmm1 = xmm0[0],xmm1[1]
		; SSE-NEXT: psrad $3, %xmm0
; SSE-NEXT: psrad $1, %xmm2		; SSE-NEXT: psrad $1, %xmm2
; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_ashr_trunc_ashr:		; AVX-LABEL: combine_vec_ashr_trunc_ashr:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]		; AVX-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
; AVX-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]		; AVX-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
; AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-srl.ll

Show First 20 Lines • Show All 217 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%2 = lshr <4 x i32> %1, <i32 25, i32 26, i32 27, i32 28>		%2 = lshr <4 x i32> %1, <i32 25, i32 26, i32 27, i32 28>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

; fold (srl (trunc (srl x, c1)), c2) -> (trunc (srl x, (add c1, c2)))		; fold (srl (trunc (srl x, c1)), c2) -> (trunc (srl x, (add c1, c2)))
define <4 x i32> @combine_vec_lshr_trunc_lshr0(<4 x i64> %x) {		define <4 x i32> @combine_vec_lshr_trunc_lshr0(<4 x i64> %x) {
; SSE-LABEL: combine_vec_lshr_trunc_lshr0:		; SSE-LABEL: combine_vec_lshr_trunc_lshr0:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: psrlq $32, %xmm0
; SSE-NEXT: psrlq $32, %xmm1		; SSE-NEXT: psrlq $32, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]		; SSE-NEXT: psrlq $32, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; SSE-NEXT: psrld $16, %xmm0		; SSE-NEXT: psrld $16, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_lshr_trunc_lshr0:		; AVX-LABEL: combine_vec_lshr_trunc_lshr0:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vpsrlq $32, %ymm0, %ymm0		; AVX-NEXT: vpsrlq $32, %ymm0, %ymm0
; AVX-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]		; AVX-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
; AVX-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]		; AVX-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
; AVX-NEXT: vpsrld $16, %xmm0, %xmm0		; AVX-NEXT: vpsrld $16, %xmm0, %xmm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
%1 = lshr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>		%1 = lshr <4 x i64> %x, <i64 32, i64 32, i64 32, i64 32>
%2 = trunc <4 x i64> %1 to <4 x i32>		%2 = trunc <4 x i64> %1 to <4 x i32>
%3 = lshr <4 x i32> %2, <i32 16, i32 16, i32 16, i32 16>		%3 = lshr <4 x i32> %2, <i32 16, i32 16, i32 16, i32 16>
ret <4 x i32> %3		ret <4 x i32> %3
}		}

define <4 x i32> @combine_vec_lshr_trunc_lshr1(<4 x i64> %x) {		define <4 x i32> @combine_vec_lshr_trunc_lshr1(<4 x i64> %x) {
; SSE-LABEL: combine_vec_lshr_trunc_lshr1:		; SSE-LABEL: combine_vec_lshr_trunc_lshr1:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa %xmm0, %xmm2
; SSE-NEXT: psrlq $33, %xmm2
; SSE-NEXT: psrlq $32, %xmm0
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
; SSE-NEXT: movdqa %xmm1, %xmm2		; SSE-NEXT: movdqa %xmm1, %xmm2
; SSE-NEXT: psrlq $35, %xmm2		; SSE-NEXT: psrlq $35, %xmm2
; SSE-NEXT: psrlq $34, %xmm1		; SSE-NEXT: psrlq $34, %xmm1
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE-NEXT: psrld $19, %xmm1
; SSE-NEXT: movdqa %xmm0, %xmm2		; SSE-NEXT: movdqa %xmm0, %xmm2
		; SSE-NEXT: psrlq $33, %xmm2
		; SSE-NEXT: psrlq $32, %xmm0
		; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
		; SSE-NEXT: movaps %xmm0, %xmm1
		; SSE-NEXT: psrld $19, %xmm1
		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: psrld $17, %xmm2		; SSE-NEXT: psrld $17, %xmm2
; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; SSE-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: psrld $18, %xmm1		; SSE-NEXT: psrld $18, %xmm1
; SSE-NEXT: psrld $16, %xmm0		; SSE-NEXT: psrld $16, %xmm0
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_lshr_trunc_lshr1:		; AVX-LABEL: combine_vec_lshr_trunc_lshr1:
; AVX: # BB#0:		; AVX: # BB#0:
Show All 24 Lines	; AVX-NEXT: retq
%2 = trunc <4 x i64> %1 to <4 x i32>		%2 = trunc <4 x i64> %1 to <4 x i32>
%3 = lshr <4 x i32> %2, <i32 24, i32 24, i32 24, i32 24>		%3 = lshr <4 x i32> %2, <i32 24, i32 24, i32 24, i32 24>
ret <4 x i32> %3		ret <4 x i32> %3
}		}

define <4 x i32> @combine_vec_lshr_trunc_lshr_zero1(<4 x i64> %x) {		define <4 x i32> @combine_vec_lshr_trunc_lshr_zero1(<4 x i64> %x) {
; SSE-LABEL: combine_vec_lshr_trunc_lshr_zero1:		; SSE-LABEL: combine_vec_lshr_trunc_lshr_zero1:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa %xmm0, %xmm2
; SSE-NEXT: psrlq $49, %xmm2
; SSE-NEXT: psrlq $48, %xmm0
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
; SSE-NEXT: movdqa %xmm1, %xmm2		; SSE-NEXT: movdqa %xmm1, %xmm2
; SSE-NEXT: psrlq $51, %xmm2		; SSE-NEXT: psrlq $51, %xmm2
; SSE-NEXT: psrlq $50, %xmm1		; SSE-NEXT: psrlq $50, %xmm1
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE-NEXT: psrld $27, %xmm1
; SSE-NEXT: movdqa %xmm0, %xmm2		; SSE-NEXT: movdqa %xmm0, %xmm2
		; SSE-NEXT: psrlq $49, %xmm2
		; SSE-NEXT: psrlq $48, %xmm0
		; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
		; SSE-NEXT: movaps %xmm0, %xmm1
		; SSE-NEXT: psrld $27, %xmm1
		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: psrld $25, %xmm2		; SSE-NEXT: psrld $25, %xmm2
; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; SSE-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: psrld $26, %xmm1		; SSE-NEXT: psrld $26, %xmm1
; SSE-NEXT: psrld $24, %xmm0		; SSE-NEXT: psrld $24, %xmm0
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_lshr_trunc_lshr_zero1:		; AVX-LABEL: combine_vec_lshr_trunc_lshr_zero1:
; AVX: # BB#0:		; AVX: # BB#0:
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
ret <4 x i32> %3		ret <4 x i32> %3
}		}
declare <4 x i32> @llvm.ctlz.v4i32(<4 x i32>, i1)		declare <4 x i32> @llvm.ctlz.v4i32(<4 x i32>, i1)

; fold (srl x, (trunc (and y, c))) -> (srl x, (and (trunc y), (trunc c))).		; fold (srl x, (trunc (and y, c))) -> (srl x, (and (trunc y), (trunc c))).
define <4 x i32> @combine_vec_lshr_trunc_and(<4 x i32> %x, <4 x i64> %y) {		define <4 x i32> @combine_vec_lshr_trunc_and(<4 x i32> %x, <4 x i64> %y) {
; SSE-LABEL: combine_vec_lshr_trunc_and:		; SSE-LABEL: combine_vec_lshr_trunc_and:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; SSE-NEXT: andps {{.*}}(%rip), %xmm1
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]		; SSE-NEXT: movaps %xmm1, %xmm2
; SSE-NEXT: pand {{.*}}(%rip), %xmm1
; SSE-NEXT: movdqa %xmm1, %xmm2
; SSE-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; SSE-NEXT: movdqa %xmm0, %xmm3		; SSE-NEXT: movdqa %xmm0, %xmm3
; SSE-NEXT: psrld %xmm2, %xmm3		; SSE-NEXT: psrld %xmm2, %xmm3
; SSE-NEXT: movdqa %xmm1, %xmm2		; SSE-NEXT: movaps %xmm1, %xmm2
; SSE-NEXT: psrlq $32, %xmm2		; SSE-NEXT: psrlq $32, %xmm2
; SSE-NEXT: movdqa %xmm0, %xmm4		; SSE-NEXT: movdqa %xmm0, %xmm4
; SSE-NEXT: psrld %xmm2, %xmm4		; SSE-NEXT: psrld %xmm2, %xmm4
; SSE-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; SSE-NEXT: pxor %xmm2, %xmm2		; SSE-NEXT: pxor %xmm2, %xmm2
; SSE-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero		; SSE-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero
; SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
; SSE-NEXT: movdqa %xmm0, %xmm2		; SSE-NEXT: movdqa %xmm0, %xmm2
Show All 19 Lines

llvm/trunk/test/CodeGen/X86/compress_expand.ll

	Show First 20 Lines • Show All 246 Lines • ▼ Show 20 Lines
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; KNL-LABEL: test13:			; KNL-LABEL: test13:
	; KNL: # BB#0:			; KNL: # BB#0:
	; KNL-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>			; KNL-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>
	; KNL-NEXT: vpxor %xmm2, %xmm2, %xmm2			; KNL-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; KNL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; KNL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; KNL-NEXT: vpcmpeqq %xmm2, %xmm1, %xmm1			; KNL-NEXT: vpcmpeqq %xmm2, %xmm1, %xmm1
	; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero
	; KNL-NEXT: vmovq {{.*#+}} xmm1 = xmm1[0],zero
	; KNL-NEXT: vpxord %zmm2, %zmm2, %zmm2			; KNL-NEXT: vpxord %zmm2, %zmm2, %zmm2
	; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm2, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm2, %zmm1
	; KNL-NEXT: vpslld $31, %zmm1, %zmm1			; KNL-NEXT: vpslld $31, %zmm1, %zmm1
	; KNL-NEXT: vptestmd %zmm1, %zmm1, %k1			; KNL-NEXT: vptestmd %zmm1, %zmm1, %k1
	; KNL-NEXT: vexpandps (%rdi), %zmm0 {%k1}			; KNL-NEXT: vexpandps (%rdi), %zmm0 {%k1}
	; KNL-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<kill>			; KNL-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<kill>
	; KNL-NEXT: retq			; KNL-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	Show All 13 Lines
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; KNL-LABEL: test14:			; KNL-LABEL: test14:
	; KNL: # BB#0:			; KNL: # BB#0:
	; KNL-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>			; KNL-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>
	; KNL-NEXT: vpxor %xmm2, %xmm2, %xmm2			; KNL-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; KNL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; KNL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; KNL-NEXT: vpcmpeqq %xmm2, %xmm1, %xmm1			; KNL-NEXT: vpcmpeqq %xmm2, %xmm1, %xmm1
	; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero
	; KNL-NEXT: vmovq {{.*#+}} xmm1 = xmm1[0],zero
	; KNL-NEXT: vpxord %zmm2, %zmm2, %zmm2			; KNL-NEXT: vpxord %zmm2, %zmm2, %zmm2
	; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm2, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm2, %zmm1
	; KNL-NEXT: vpslld $31, %zmm1, %zmm1			; KNL-NEXT: vpslld $31, %zmm1, %zmm1
	; KNL-NEXT: vptestmd %zmm1, %zmm1, %k1			; KNL-NEXT: vptestmd %zmm1, %zmm1, %k1
	; KNL-NEXT: vcompressps %zmm0, (%rdi) {%k1}			; KNL-NEXT: vcompressps %zmm0, (%rdi) {%k1}
	; KNL-NEXT: retq			; KNL-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	call void @llvm.masked.compressstore.v2f32(<2 x float> %V, float* %base, <2 x i1> %mask)			call void @llvm.masked.compressstore.v2f32(<2 x float> %V, float* %base, <2 x i1> %mask)
	▲ Show 20 Lines • Show All 111 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/i64-to-float.ll

Show First 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	; X64-AVX-NEXT: retq
%and = and <2 x i64> %a, <i64 255, i64 65535>		%and = and <2 x i64> %a, <i64 255, i64 65535>
%cvt = uitofp <2 x i64> %and to <2 x double>		%cvt = uitofp <2 x i64> %and to <2 x double>
ret <2 x double> %cvt		ret <2 x double> %cvt
}		}

define <4 x float> @mask_sitofp_4i64_4f32(<4 x i64> %a) nounwind {		define <4 x float> @mask_sitofp_4i64_4f32(<4 x i64> %a) nounwind {
; X32-SSE-LABEL: mask_sitofp_4i64_4f32:		; X32-SSE-LABEL: mask_sitofp_4i64_4f32:
; X32-SSE: # BB#0:		; X32-SSE: # BB#0:
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE-NEXT: andps {{\.LCPI.*}}, %xmm1
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm1		; X32-SSE-NEXT: andps {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; X32-SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X32-SSE-NEXT: cvtdq2ps %xmm0, %xmm0		; X32-SSE-NEXT: cvtdq2ps %xmm0, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
;		;
; X32-AVX-LABEL: mask_sitofp_4i64_4f32:		; X32-AVX-LABEL: mask_sitofp_4i64_4f32:
; X32-AVX: # BB#0:		; X32-AVX: # BB#0:
; X32-AVX-NEXT: vandps {{\.LCPI.*}}, %ymm0, %ymm0		; X32-AVX-NEXT: vandps {{\.LCPI.*}}, %ymm0, %ymm0
; X32-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; X32-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; X32-AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]		; X32-AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X32-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; X32-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0		; X32-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0
; X32-AVX-NEXT: vzeroupper		; X32-AVX-NEXT: vzeroupper
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
;		;
; X64-SSE-LABEL: mask_sitofp_4i64_4f32:		; X64-SSE-LABEL: mask_sitofp_4i64_4f32:
; X64-SSE: # BB#0:		; X64-SSE: # BB#0:
; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm0		; X64-SSE-NEXT: andps {{.*}}(%rip), %xmm1
; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm1		; X64-SSE-NEXT: andps {{.*}}(%rip), %xmm0
; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; X64-SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X64-SSE-NEXT: cvtdq2ps %xmm0, %xmm0		; X64-SSE-NEXT: cvtdq2ps %xmm0, %xmm0
; X64-SSE-NEXT: retq		; X64-SSE-NEXT: retq
;		;
; X64-AVX-LABEL: mask_sitofp_4i64_4f32:		; X64-AVX-LABEL: mask_sitofp_4i64_4f32:
; X64-AVX: # BB#0:		; X64-AVX: # BB#0:
; X64-AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0		; X64-AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
; X64-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]		; X64-AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; X64-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0		; X64-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0
; X64-AVX-NEXT: vzeroupper		; X64-AVX-NEXT: vzeroupper
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%and = and <4 x i64> %a, <i64 127, i64 255, i64 4095, i64 65535>		%and = and <4 x i64> %a, <i64 127, i64 255, i64 4095, i64 65535>
%cvt = sitofp <4 x i64> %and to <4 x float>		%cvt = sitofp <4 x i64> %and to <4 x float>
ret <4 x float> %cvt		ret <4 x float> %cvt
}		}

define <4 x float> @mask_uitofp_4i64_4f32(<4 x i64> %a) nounwind {		define <4 x float> @mask_uitofp_4i64_4f32(<4 x i64> %a) nounwind {
; X32-SSE-LABEL: mask_uitofp_4i64_4f32:		; X32-SSE-LABEL: mask_uitofp_4i64_4f32:
; X32-SSE: # BB#0:		; X32-SSE: # BB#0:
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE-NEXT: andps {{\.LCPI.*}}, %xmm1
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm1		; X32-SSE-NEXT: andps {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; X32-SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X32-SSE-NEXT: cvtdq2ps %xmm0, %xmm0		; X32-SSE-NEXT: cvtdq2ps %xmm0, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
;		;
; X32-AVX-LABEL: mask_uitofp_4i64_4f32:		; X32-AVX-LABEL: mask_uitofp_4i64_4f32:
; X32-AVX: # BB#0:		; X32-AVX: # BB#0:
; X32-AVX-NEXT: vandps {{\.LCPI.*}}, %ymm0, %ymm0		; X32-AVX-NEXT: vandps {{\.LCPI.*}}, %ymm0, %ymm0
; X32-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; X32-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; X32-AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]		; X32-AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X32-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; X32-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0		; X32-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0
; X32-AVX-NEXT: vzeroupper		; X32-AVX-NEXT: vzeroupper
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
;		;
; X64-SSE-LABEL: mask_uitofp_4i64_4f32:		; X64-SSE-LABEL: mask_uitofp_4i64_4f32:
; X64-SSE: # BB#0:		; X64-SSE: # BB#0:
; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm0		; X64-SSE-NEXT: andps {{.*}}(%rip), %xmm1
; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm1		; X64-SSE-NEXT: andps {{.*}}(%rip), %xmm0
; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; X64-SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X64-SSE-NEXT: cvtdq2ps %xmm0, %xmm0		; X64-SSE-NEXT: cvtdq2ps %xmm0, %xmm0
; X64-SSE-NEXT: retq		; X64-SSE-NEXT: retq
;		;
; X64-AVX-LABEL: mask_uitofp_4i64_4f32:		; X64-AVX-LABEL: mask_uitofp_4i64_4f32:
; X64-AVX: # BB#0:		; X64-AVX: # BB#0:
; X64-AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0		; X64-AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
; X64-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]		; X64-AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; X64-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0		; X64-AVX-NEXT: vcvtdq2ps %xmm0, %xmm0
; X64-AVX-NEXT: vzeroupper		; X64-AVX-NEXT: vzeroupper
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%and = and <4 x i64> %a, <i64 127, i64 255, i64 4095, i64 65535>		%and = and <4 x i64> %a, <i64 127, i64 255, i64 4095, i64 65535>
%cvt = uitofp <4 x i64> %and to <4 x float>		%cvt = uitofp <4 x i64> %and to <4 x float>
ret <4 x float> %cvt		ret <4 x float> %cvt
}		}

▲ Show 20 Lines • Show All 144 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/masked_gather_scatter.ll

	Show First 20 Lines • Show All 1,035 Lines • ▼ Show 20 Lines

	; Data type requires widening			; Data type requires widening
	define void @test20(<2 x float>%a1, <2 x float*> %ptr, <2 x i1> %mask) {			define void @test20(<2 x float>%a1, <2 x float*> %ptr, <2 x i1> %mask) {
	;			;
	; KNL_64-LABEL: test20:			; KNL_64-LABEL: test20:
	; KNL_64: # BB#0:			; KNL_64: # BB#0:
	; KNL_64-NEXT: # kill: %XMM1<def> %XMM1<kill> %ZMM1<def>			; KNL_64-NEXT: # kill: %XMM1<def> %XMM1<kill> %ZMM1<def>
	; KNL_64-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<def>			; KNL_64-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<def>
	; KNL_64-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; KNL_64-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,2],zero,zero
	; KNL_64-NEXT: vmovq {{.*#+}} xmm2 = xmm2[0],zero
	; KNL_64-NEXT: vpxor %ymm3, %ymm3, %ymm3			; KNL_64-NEXT: vpxor %ymm3, %ymm3, %ymm3
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4,5,6,7]
	; KNL_64-NEXT: vpslld $31, %ymm2, %ymm2			; KNL_64-NEXT: vpslld $31, %ymm2, %ymm2
	; KNL_64-NEXT: vptestmd %zmm2, %zmm2, %k1			; KNL_64-NEXT: vptestmd %zmm2, %zmm2, %k1
	; KNL_64-NEXT: vscatterqps %ymm0, (,%zmm1) {%k1}			; KNL_64-NEXT: vscatterqps %ymm0, (,%zmm1) {%k1}
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test20:			; KNL_32-LABEL: test20:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<def>			; KNL_32-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<def>
	; KNL_32-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; KNL_32-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,2],zero,zero
	; KNL_32-NEXT: vmovq {{.*#+}} xmm2 = xmm2[0],zero
	; KNL_32-NEXT: vpxor %ymm3, %ymm3, %ymm3			; KNL_32-NEXT: vpxor %ymm3, %ymm3, %ymm3
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4,5,6,7]
	; KNL_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; KNL_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; KNL_32-NEXT: vpmovsxdq %ymm1, %zmm1			; KNL_32-NEXT: vpmovsxdq %ymm1, %zmm1
	; KNL_32-NEXT: vpslld $31, %ymm2, %ymm2			; KNL_32-NEXT: vpslld $31, %ymm2, %ymm2
	; KNL_32-NEXT: vptestmd %zmm2, %zmm2, %k1			; KNL_32-NEXT: vptestmd %zmm2, %zmm2, %k1
	; KNL_32-NEXT: vscatterqps %ymm0, (,%zmm1) {%k1}			; KNL_32-NEXT: vscatterqps %ymm0, (,%zmm1) {%k1}
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	declare <2 x float> @llvm.masked.gather.v2f32(<2 x float*>, i32, <2 x i1>, <2 x float>)			declare <2 x float> @llvm.masked.gather.v2f32(<2 x float*>, i32, <2 x i1>, <2 x float>)

	define <2 x float> @test22(float* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x float> %src0) {			define <2 x float> @test22(float* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x float> %src0) {
	;			;
	;			;
	; KNL_64-LABEL: test22:			; KNL_64-LABEL: test22:
	; KNL_64: # BB#0:			; KNL_64: # BB#0:
	; KNL_64-NEXT: # kill: %XMM2<def> %XMM2<kill> %YMM2<def>			; KNL_64-NEXT: # kill: %XMM2<def> %XMM2<kill> %YMM2<def>
	; KNL_64-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; KNL_64-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero
	; KNL_64-NEXT: vmovq {{.*#+}} xmm1 = xmm1[0],zero
	; KNL_64-NEXT: vpxor %ymm3, %ymm3, %ymm3			; KNL_64-NEXT: vpxor %ymm3, %ymm3, %ymm3
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4,5,6,7]
	; KNL_64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; KNL_64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; KNL_64-NEXT: vpmovsxdq %ymm0, %zmm0			; KNL_64-NEXT: vpmovsxdq %ymm0, %zmm0
	; KNL_64-NEXT: vpslld $31, %ymm1, %ymm1			; KNL_64-NEXT: vpslld $31, %ymm1, %ymm1
	; KNL_64-NEXT: vptestmd %zmm1, %zmm1, %k1			; KNL_64-NEXT: vptestmd %zmm1, %zmm1, %k1
	; KNL_64-NEXT: vgatherqps (%rdi,%zmm0,4), %ymm2 {%k1}			; KNL_64-NEXT: vgatherqps (%rdi,%zmm0,4), %ymm2 {%k1}
	; KNL_64-NEXT: vmovaps %xmm2, %xmm0			; KNL_64-NEXT: vmovaps %xmm2, %xmm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test22:			; KNL_32-LABEL: test22:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: # kill: %XMM2<def> %XMM2<kill> %YMM2<def>			; KNL_32-NEXT: # kill: %XMM2<def> %XMM2<kill> %YMM2<def>
	; KNL_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; KNL_32-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero
	; KNL_32-NEXT: vmovq {{.*#+}} xmm1 = xmm1[0],zero
	; KNL_32-NEXT: vpxor %ymm3, %ymm3, %ymm3			; KNL_32-NEXT: vpxor %ymm3, %ymm3, %ymm3
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4,5,6,7]
	; KNL_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; KNL_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax			; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm0			; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm0
	; KNL_32-NEXT: vpslld $31, %ymm1, %ymm1			; KNL_32-NEXT: vpslld $31, %ymm1, %ymm1
	; KNL_32-NEXT: vptestmd %zmm1, %zmm1, %k1			; KNL_32-NEXT: vptestmd %zmm1, %zmm1, %k1
	; KNL_32-NEXT: vgatherqps (%eax,%zmm0,4), %ymm2 {%k1}			; KNL_32-NEXT: vgatherqps (%eax,%zmm0,4), %ymm2 {%k1}
	▲ Show 20 Lines • Show All 927 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/masked_memop.ll

	Show First 20 Lines • Show All 434 Lines • ▼ Show 20 Lines
	}			}

	define void @test14(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %val) {			define void @test14(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %val) {
	; AVX1-LABEL: test14:			; AVX1-LABEL: test14:
	; AVX1: ## BB#0:			; AVX1: ## BB#0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX1-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)			; AVX1-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test14:			; AVX2-LABEL: test14:
	; AVX2: ## BB#0:			; AVX2: ## BB#0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX2-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)			; AVX2-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test14:			; AVX512F-LABEL: test14:
	; AVX512F: ## BB#0:			; AVX512F: ## BB#0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512F-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)			; AVX512F-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test14:			; SKX-LABEL: test14:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vpxord %xmm2, %xmm2, %xmm2			; SKX-NEXT: vpxord %xmm2, %xmm2, %xmm2
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; SKX-NEXT: vpcmpeqq %xmm2, %xmm0, %k0			; SKX-NEXT: vpcmpeqq %xmm2, %xmm0, %k0
	; SKX-NEXT: kshiftlw $14, %k0, %k0			; SKX-NEXT: kshiftlw $14, %k0, %k0
	; SKX-NEXT: kshiftrw $14, %k0, %k1			; SKX-NEXT: kshiftrw $14, %k0, %k1
	; SKX-NEXT: vmovups %xmm1, (%rdi) {%k1}			; SKX-NEXT: vmovups %xmm1, (%rdi) {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	call void @llvm.masked.store.v2f32.p0v2f32(<2 x float>%val, <2 x float>* %addr, i32 4, <2 x i1>%mask)			call void @llvm.masked.store.v2f32.p0v2f32(<2 x float>%val, <2 x float>* %addr, i32 4, <2 x i1>%mask)
	ret void			ret void
	}			}

	define void @test15(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %val) {			define void @test15(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %val) {
	; AVX1-LABEL: test15:			; AVX1-LABEL: test15:
	; AVX1: ## BB#0:			; AVX1: ## BB#0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)			; AVX1-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test15:			; AVX2-LABEL: test15:
	; AVX2: ## BB#0:			; AVX2: ## BB#0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX2-NEXT: vpmaskmovd %xmm1, %xmm0, (%rdi)			; AVX2-NEXT: vpmaskmovd %xmm1, %xmm0, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test15:			; AVX512F-LABEL: test15:
	; AVX512F: ## BB#0:			; AVX512F: ## BB#0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX512F-NEXT: vpmaskmovd %xmm1, %xmm0, (%rdi)			; AVX512F-NEXT: vpmaskmovd %xmm1, %xmm0, (%rdi)
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test15:			; SKX-LABEL: test15:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vpxord %xmm2, %xmm2, %xmm2			; SKX-NEXT: vpxord %xmm2, %xmm2, %xmm2
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; SKX-NEXT: vpcmpeqq %xmm2, %xmm0, %k1			; SKX-NEXT: vpcmpeqq %xmm2, %xmm0, %k1
	; SKX-NEXT: vpmovqd %xmm1, (%rdi) {%k1}			; SKX-NEXT: vpmovqd %xmm1, (%rdi) {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32>%val, <2 x i32>* %addr, i32 4, <2 x i1>%mask)			call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32>%val, <2 x i32>* %addr, i32 4, <2 x i1>%mask)
	ret void			ret void
	}			}

	define <2 x float> @test16(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %dst) {			define <2 x float> @test16(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %dst) {
	; AVX1-LABEL: test16:			; AVX1-LABEL: test16:
	; AVX1: ## BB#0:			; AVX1: ## BB#0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2			; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2
	; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test16:			; AVX2-LABEL: test16:
	; AVX2: ## BB#0:			; AVX2: ## BB#0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX2-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2			; AVX2-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2
	; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test16:			; AVX512F-LABEL: test16:
	; AVX512F: ## BB#0:			; AVX512F: ## BB#0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512F-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2			; AVX512F-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2
	; AVX512F-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX512F-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test16:			; SKX-LABEL: test16:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vpxord %xmm2, %xmm2, %xmm2			; SKX-NEXT: vpxord %xmm2, %xmm2, %xmm2
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	Show All 9 Lines
	}			}

	define <2 x i32> @test17(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %dst) {			define <2 x i32> @test17(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %dst) {
	; AVX1-LABEL: test17:			; AVX1-LABEL: test17:
	; AVX1: ## BB#0:			; AVX1: ## BB#0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2			; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0			; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test17:			; AVX2-LABEL: test17:
	; AVX2: ## BB#0:			; AVX2: ## BB#0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX2-NEXT: vpmaskmovd (%rdi), %xmm0, %xmm2			; AVX2-NEXT: vpmaskmovd (%rdi), %xmm0, %xmm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: vpmovsxdq %xmm0, %xmm0			; AVX2-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test17:			; AVX512F-LABEL: test17:
	; AVX512F: ## BB#0:			; AVX512F: ## BB#0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX512F-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512F-NEXT: vpmaskmovd (%rdi), %xmm0, %xmm2			; AVX512F-NEXT: vpmaskmovd (%rdi), %xmm0, %xmm2
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX512F-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX512F-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX512F-NEXT: vpmovsxdq %xmm0, %xmm0			; AVX512F-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test17:			; SKX-LABEL: test17:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	Show All 12 Lines
	}			}

	define <2 x float> @test18(<2 x i32> %trigger, <2 x float>* %addr) {			define <2 x float> @test18(<2 x i32> %trigger, <2 x float>* %addr) {
	; AVX1-LABEL: test18:			; AVX1-LABEL: test18:
	; AVX1: ## BB#0:			; AVX1: ## BB#0:
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test18:			; AVX2-LABEL: test18:
	; AVX2: ## BB#0:			; AVX2: ## BB#0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
	; AVX2-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX2-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0			; AVX2-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test18:			; AVX512F-LABEL: test18:
	; AVX512F: ## BB#0:			; AVX512F: ## BB#0:
	; AVX512F-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512F-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
	; AVX512F-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; AVX512F-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512F-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test18:			; SKX-LABEL: test18:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vpxord %xmm1, %xmm1, %xmm1			; SKX-NEXT: vpxord %xmm1, %xmm1, %xmm1
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
	; SKX-NEXT: vpcmpeqq %xmm1, %xmm0, %k0			; SKX-NEXT: vpcmpeqq %xmm1, %xmm0, %k0
	▲ Show 20 Lines • Show All 544 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/oddshuffles.ll

Show First 20 Lines • Show All 1,096 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
store <24 x i16> %interleaved, <24 x i16>* %p, align 4		store <24 x i16> %interleaved, <24 x i16>* %p, align 4
ret void		ret void
}		}

define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {		define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {
; SSE2-LABEL: interleave_24i32_out:		; SSE2-LABEL: interleave_24i32_out:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movdqu 80(%rdi), %xmm8		; SSE2-NEXT: movdqu 80(%rdi), %xmm8
; SSE2-NEXT: movdqu 64(%rdi), %xmm10		; SSE2-NEXT: movups 64(%rdi), %xmm10
; SSE2-NEXT: movdqu (%rdi), %xmm0		; SSE2-NEXT: movups (%rdi), %xmm0
; SSE2-NEXT: movdqu 16(%rdi), %xmm7		; SSE2-NEXT: movups 16(%rdi), %xmm7
; SSE2-NEXT: movdqu 32(%rdi), %xmm9		; SSE2-NEXT: movdqu 32(%rdi), %xmm9
; SSE2-NEXT: movdqu 48(%rdi), %xmm2		; SSE2-NEXT: movups 48(%rdi), %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,1,0,3]		; SSE2-NEXT: movaps %xmm2, %xmm3
; SSE2-NEXT: punpckhqdq {{.*#+}} xmm3 = xmm3[1],xmm7[1]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,3],xmm10[2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm9[0,1,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm8[0,1,0,1]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[3,0],xmm3[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,0],xmm3[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm6[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm5[2,0]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,1,0,3]		; SSE2-NEXT: movaps %xmm0, %xmm5
; SSE2-NEXT: punpckhqdq {{.*#+}} xmm6 = xmm6[1],xmm10[1]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,3],xmm7[2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm8[0,1,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm9[0,1,0,1]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,0],xmm6[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,0],xmm5[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm1[2,0]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm7[0,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm7[0,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm7[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm7[3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm9[0,1,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm9[0,1,2,2]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[3,0],xmm0[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm5[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm6[2,0]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm2[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[2,3,0,1]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm10[0,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm10[0,0]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm10[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm10[3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm8[0,1,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm8[0,1,2,2]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[3,0],xmm2[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[3,0],xmm2[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,0]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[1,1,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[1,1,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm9[0,1,0,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm9[0,1,0,3]
; SSE2-NEXT: movsd {{.*#+}} xmm4 = xmm1[0],xmm4[1]		; SSE2-NEXT: movsd {{.*#+}} xmm4 = xmm1[0],xmm4[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm10[1,1,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm10[1,1,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm1[0],xmm6[1],xmm1[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm8[0,1,0,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm8[0,1,0,3]
; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]		; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm6[0],xmm1[1]
; SSE2-NEXT: movups %xmm6, 16(%rsi)		; SSE2-NEXT: movups %xmm3, 16(%rsi)
; SSE2-NEXT: movups %xmm3, (%rsi)		; SSE2-NEXT: movups %xmm5, (%rsi)
; SSE2-NEXT: movups %xmm2, 16(%rdx)		; SSE2-NEXT: movups %xmm2, 16(%rdx)
; SSE2-NEXT: movups %xmm0, (%rdx)		; SSE2-NEXT: movups %xmm0, (%rdx)
; SSE2-NEXT: movupd %xmm1, 16(%rcx)		; SSE2-NEXT: movupd %xmm1, 16(%rcx)
; SSE2-NEXT: movupd %xmm4, (%rcx)		; SSE2-NEXT: movupd %xmm4, (%rcx)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: interleave_24i32_out:		; SSE42-LABEL: interleave_24i32_out:
; SSE42: # BB#0:		; SSE42: # BB#0:
; SSE42-NEXT: movdqu 80(%rdi), %xmm8		; SSE42-NEXT: movdqu 80(%rdi), %xmm9
; SSE42-NEXT: movdqu 64(%rdi), %xmm1		; SSE42-NEXT: movdqu 64(%rdi), %xmm10
; SSE42-NEXT: movdqu (%rdi), %xmm5		; SSE42-NEXT: movdqu (%rdi), %xmm4
; SSE42-NEXT: movdqu 16(%rdi), %xmm6		; SSE42-NEXT: movdqu 16(%rdi), %xmm2
; SSE42-NEXT: movdqu 32(%rdi), %xmm2		; SSE42-NEXT: movdqu 32(%rdi), %xmm11
; SSE42-NEXT: movdqu 48(%rdi), %xmm4		; SSE42-NEXT: movdqu 48(%rdi), %xmm5
; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,3,2,3]		; SSE42-NEXT: pshufd {{.*#+}} xmm8 = xmm11[0,1,0,1]
; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1,2,3],xmm6[4,5,6,7]		; SSE42-NEXT: movdqa %xmm2, %xmm7
; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,1,0,1]		; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1],xmm4[2,3],xmm7[4,5,6,7]
; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm7[0,1,2,3,4,5],xmm3[6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,3,2,3]
; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1,2,3],xmm1[4,5,6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm8[0,1,0,1]
; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm7[0,1,2,3,4,5],xmm0[6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm9 = xmm2[0,1,2,2]
; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm5[2,3,0,1]
; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1],xmm6[2,3],xmm7[4,5,6,7]
; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1],xmm5[2,3],xmm6[4,5,6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,0,3,3]
; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,5],xmm9[6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm4[2,3,0,1]		; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm4[2,3,0,1]
; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1],xmm1[2,3],xmm6[4,5,6,7]		; SSE42-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,3],xmm2[2,3]
; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm4[2,3],xmm1[4,5,6,7]		; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,5],xmm8[6,7]
		; SSE42-NEXT: movdqa %xmm10, %xmm1
		; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm5[2,3],xmm1[4,5,6,7]
		; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm5[2,3,0,1]
		; SSE42-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,3],xmm10[2,3]
		; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm9[0,1,0,1]
		; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm5[0,1,2,3,4,5],xmm3[6,7]
		; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm11[0,1,2,2]
		; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm7[1,0,3,3]
		; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1,2,3,4,5],xmm5[6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,0,3,3]		; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,0,3,3]
; SSE42-NEXT: pshufd {{.*#+}} xmm4 = xmm8[0,1,2,2]		; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm9[0,1,2,2]
; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm1[0,1,2,3,4,5],xmm4[6,7]		; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm1[0,1,2,3,4,5],xmm5[6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,1,0,3]		; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1],xmm2[2,3],xmm6[4,5,6,7]
; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm7[0,1,2,3],xmm1[4,5,6,7]		; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm11[0,1,0,3]
; SSE42-NEXT: pshufd {{.*#+}} xmm2 = xmm8[0,1,0,3]		; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm6[0,1,2,3],xmm1[4,5,6,7]
; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm6[0,1,2,3],xmm2[4,5,6,7]		; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm10[2,3],xmm0[4,5,6,7]
; SSE42-NEXT: movdqu %xmm0, 16(%rsi)		; SSE42-NEXT: pshufd {{.*#+}} xmm2 = xmm9[0,1,0,3]
; SSE42-NEXT: movdqu %xmm3, (%rsi)		; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm0[0,1,2,3],xmm2[4,5,6,7]
; SSE42-NEXT: movdqu %xmm4, 16(%rdx)		; SSE42-NEXT: movdqu %xmm3, 16(%rsi)
; SSE42-NEXT: movdqu %xmm5, (%rdx)		; SSE42-NEXT: movdqu %xmm4, (%rsi)
		; SSE42-NEXT: movdqu %xmm5, 16(%rdx)
		; SSE42-NEXT: movdqu %xmm7, (%rdx)
; SSE42-NEXT: movdqu %xmm2, 16(%rcx)		; SSE42-NEXT: movdqu %xmm2, 16(%rcx)
; SSE42-NEXT: movdqu %xmm1, (%rcx)		; SSE42-NEXT: movdqu %xmm1, (%rcx)
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
; AVX1-LABEL: interleave_24i32_out:		; AVX1-LABEL: interleave_24i32_out:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovups (%rdi), %ymm0		; AVX1-NEXT: vmovups (%rdi), %ymm0
; AVX1-NEXT: vmovups 32(%rdi), %ymm1		; AVX1-NEXT: vmovups 32(%rdi), %ymm1
▲ Show 20 Lines • Show All 281 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/palignr.ll

	Show All 35 Lines
	; CHECK-LABEL: test3:			; CHECK-LABEL: test3:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: palignr {{.*#+}} xmm1 = xmm0[4,5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3]			; CHECK-NEXT: palignr {{.*#+}} xmm1 = xmm0[4,5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3]
	; CHECK-NEXT: movdqa %xmm1, %xmm0			; CHECK-NEXT: movdqa %xmm1, %xmm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	;			;
	; CHECK-YONAH-LABEL: test3:			; CHECK-YONAH-LABEL: test3:
	; CHECK-YONAH: # BB#0:			; CHECK-YONAH: # BB#0:
	; CHECK-YONAH-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]			; CHECK-YONAH-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,2],xmm1[2,0]
	; CHECK-YONAH-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,2,2,3]
	; CHECK-YONAH-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; CHECK-YONAH-NEXT: retl			; CHECK-YONAH-NEXT: retl
	%C = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> < i32 1, i32 2, i32 undef, i32 4 >			%C = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> < i32 1, i32 2, i32 undef, i32 4 >
	ret <4 x i32> %C			ret <4 x i32> %C
	}			}

	define <4 x i32> @test4(<4 x i32> %A, <4 x i32> %B) nounwind {			define <4 x i32> @test4(<4 x i32> %A, <4 x i32> %B) nounwind {
	; CHECK-LABEL: test4:			; CHECK-LABEL: test4:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	▲ Show 20 Lines • Show All 102 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/pmul.ll

Show First 20 Lines • Show All 1,147 Lines • ▼ Show 20 Lines	entry:
%A = mul <64 x i8> %i, %j		%A = mul <64 x i8> %i, %j
ret <64 x i8> %A		ret <64 x i8> %A
}		}

; PR30845		; PR30845
define <4 x i32> @mul_v4i64_zero_upper(<4 x i32> %val1, <4 x i32> %val2) {		define <4 x i32> @mul_v4i64_zero_upper(<4 x i32> %val1, <4 x i32> %val2) {
; SSE2-LABEL: mul_v4i64_zero_upper:		; SSE2-LABEL: mul_v4i64_zero_upper:
; SSE2: # BB#0: # %entry		; SSE2: # BB#0: # %entry
; SSE2-NEXT: pxor %xmm2, %xmm2		; SSE2-NEXT: pxor %xmm3, %xmm3
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm2[2],xmm3[3],xmm2[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: movdqa %xmm1, %xmm4		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm2[2],xmm4[3],xmm2[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm3[2],xmm1[3],xmm3[3]
; SSE2-NEXT: pmuludq %xmm0, %xmm1		; SSE2-NEXT: pmuludq %xmm0, %xmm1
; SSE2-NEXT: pmuludq %xmm3, %xmm4		; SSE2-NEXT: pmuludq %xmm4, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,3,2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,3],xmm1[1,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]		; SSE2-NEXT: movaps %xmm2, %xmm0
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mul_v4i64_zero_upper:		; SSE41-LABEL: mul_v4i64_zero_upper:
; SSE41: # BB#0: # %entry		; SSE41: # BB#0: # %entry
; SSE41-NEXT: pxor %xmm2, %xmm2		; SSE41-NEXT: pxor %xmm3, %xmm3
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm1[0],zero,xmm1[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm3[2],xmm1[3],xmm3[3]
; SSE41-NEXT: pmuludq %xmm0, %xmm1		; SSE41-NEXT: pmuludq %xmm0, %xmm1
; SSE41-NEXT: pmuludq %xmm3, %xmm4		; SSE41-NEXT: pmuludq %xmm4, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,3],xmm1[1,3]
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,3,2,3]		; SSE41-NEXT: movaps %xmm2, %xmm0
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX2-LABEL: mul_v4i64_zero_upper:		; AVX2-LABEL: mul_v4i64_zero_upper:
; AVX2: # BB#0: # %entry		; AVX2: # BB#0: # %entry
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: mul_v4i64_zero_upper:		; AVX512-LABEL: mul_v4i64_zero_upper:
; AVX512: # BB#0: # %entry		; AVX512: # BB#0: # %entry
; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero		; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%val1a = zext <4 x i32> %val1 to <4 x i64>		%val1a = zext <4 x i32> %val1 to <4 x i64>
%val2a = zext <4 x i32> %val2 to <4 x i64>		%val2a = zext <4 x i32> %val2 to <4 x i64>
%res64 = mul <4 x i64> %val1a, %val2a		%res64 = mul <4 x i64> %val1a, %val2a
%rescast = bitcast <4 x i64> %res64 to <8 x i32>		%rescast = bitcast <4 x i64> %res64 to <8 x i32>
%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
ret <4 x i32> %res		ret <4 x i32> %res
}		}

define <4 x i32> @mul_v4i64_zero_upper_left(<4 x i32> %val1, <4 x i64> %val2) {		define <4 x i32> @mul_v4i64_zero_upper_left(<4 x i32> %val1, <4 x i64> %val2) {
; SSE2-LABEL: mul_v4i64_zero_upper_left:		; SSE2-LABEL: mul_v4i64_zero_upper_left:
; SSE2: # BB#0: # %entry		; SSE2: # BB#0: # %entry
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: pxor %xmm3, %xmm3
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm3[2],xmm4[3],xmm3[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: pmuludq %xmm1, %xmm3		; SSE2-NEXT: pmuludq %xmm2, %xmm3
; SSE2-NEXT: psrlq $32, %xmm1
; SSE2-NEXT: pmuludq %xmm0, %xmm1
; SSE2-NEXT: psllq $32, %xmm1
; SSE2-NEXT: paddq %xmm3, %xmm1
; SSE2-NEXT: movdqa %xmm4, %xmm0
; SSE2-NEXT: pmuludq %xmm2, %xmm0
; SSE2-NEXT: psrlq $32, %xmm2		; SSE2-NEXT: psrlq $32, %xmm2
; SSE2-NEXT: pmuludq %xmm4, %xmm2		; SSE2-NEXT: pmuludq %xmm0, %xmm2
; SSE2-NEXT: psllq $32, %xmm2		; SSE2-NEXT: psllq $32, %xmm2
; SSE2-NEXT: paddq %xmm0, %xmm2		; SSE2-NEXT: paddq %xmm3, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; SSE2-NEXT: movdqa %xmm4, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]		; SSE2-NEXT: pmuludq %xmm1, %xmm0
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; SSE2-NEXT: psrlq $32, %xmm1
		; SSE2-NEXT: pmuludq %xmm4, %xmm1
		; SSE2-NEXT: psllq $32, %xmm1
		; SSE2-NEXT: paddq %xmm1, %xmm0
		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mul_v4i64_zero_upper_left:		; SSE41-LABEL: mul_v4i64_zero_upper_left:
; SSE41: # BB#0: # %entry		; SSE41: # BB#0: # %entry
; SSE41-NEXT: pxor %xmm3, %xmm3		; SSE41-NEXT: pxor %xmm3, %xmm3
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE41-NEXT: movdqa %xmm4, %xmm3
; SSE41-NEXT: pmuludq %xmm1, %xmm3
; SSE41-NEXT: psrlq $32, %xmm1
; SSE41-NEXT: pmuludq %xmm4, %xmm1
; SSE41-NEXT: psllq $32, %xmm1
; SSE41-NEXT: paddq %xmm3, %xmm1
; SSE41-NEXT: movdqa %xmm0, %xmm3		; SSE41-NEXT: movdqa %xmm0, %xmm3
; SSE41-NEXT: pmuludq %xmm2, %xmm3		; SSE41-NEXT: pmuludq %xmm2, %xmm3
; SSE41-NEXT: psrlq $32, %xmm2		; SSE41-NEXT: psrlq $32, %xmm2
; SSE41-NEXT: pmuludq %xmm0, %xmm2		; SSE41-NEXT: pmuludq %xmm0, %xmm2
; SSE41-NEXT: psllq $32, %xmm2		; SSE41-NEXT: psllq $32, %xmm2
; SSE41-NEXT: paddq %xmm3, %xmm2		; SSE41-NEXT: paddq %xmm3, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,1,3]		; SSE41-NEXT: movdqa %xmm4, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]		; SSE41-NEXT: pmuludq %xmm1, %xmm0
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]		; SSE41-NEXT: psrlq $32, %xmm1
		; SSE41-NEXT: pmuludq %xmm4, %xmm1
		; SSE41-NEXT: psllq $32, %xmm1
		; SSE41-NEXT: paddq %xmm1, %xmm0
		; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX2-LABEL: mul_v4i64_zero_upper_left:		; AVX2-LABEL: mul_v4i64_zero_upper_left:
; AVX2: # BB#0: # %entry		; AVX2: # BB#0: # %entry
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2		; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1		; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0		; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0		; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: mul_v4i64_zero_upper_left:		; AVX512-LABEL: mul_v4i64_zero_upper_left:
; AVX512: # BB#0: # %entry		; AVX512: # BB#0: # %entry
; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2		; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1		; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1
; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0		; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0		; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%val1a = zext <4 x i32> %val1 to <4 x i64>		%val1a = zext <4 x i32> %val1 to <4 x i64>
%res64 = mul <4 x i64> %val1a, %val2		%res64 = mul <4 x i64> %val1a, %val2
%rescast = bitcast <4 x i64> %res64 to <8 x i32>		%rescast = bitcast <4 x i64> %res64 to <8 x i32>
%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
ret <4 x i32> %res		ret <4 x i32> %res
}		}

define <4 x i32> @mul_v4i64_zero_lower(<4 x i32> %val1, <4 x i64> %val2) {		define <4 x i32> @mul_v4i64_zero_lower(<4 x i32> %val1, <4 x i64> %val2) {
; SSE2-LABEL: mul_v4i64_zero_lower:		; SSE2-LABEL: mul_v4i64_zero_lower:
; SSE2: # BB#0: # %entry		; SSE2: # BB#0: # %entry
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm3[2],xmm4[3],xmm3[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm4[2],xmm0[3],xmm4[3]
; SSE2-NEXT: psrlq $32, %xmm1
; SSE2-NEXT: pmuludq %xmm0, %xmm1
; SSE2-NEXT: psllq $32, %xmm1
; SSE2-NEXT: psrlq $32, %xmm2		; SSE2-NEXT: psrlq $32, %xmm2
; SSE2-NEXT: pmuludq %xmm4, %xmm2		; SSE2-NEXT: pmuludq %xmm0, %xmm2
; SSE2-NEXT: psllq $32, %xmm2		; SSE2-NEXT: psllq $32, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; SSE2-NEXT: psrlq $32, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]		; SSE2-NEXT: pmuludq %xmm1, %xmm3
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; SSE2-NEXT: psllq $32, %xmm3
		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,3],xmm2[1,3]
		; SSE2-NEXT: movaps %xmm3, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mul_v4i64_zero_lower:		; SSE41-LABEL: mul_v4i64_zero_lower:
; SSE41: # BB#0: # %entry		; SSE41: # BB#0: # %entry
; SSE41-NEXT: pxor %xmm3, %xmm3		; SSE41-NEXT: pxor %xmm4, %xmm4
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm4[2],xmm0[3],xmm4[3]
; SSE41-NEXT: psrlq $32, %xmm1
; SSE41-NEXT: pmuludq %xmm4, %xmm1
; SSE41-NEXT: psllq $32, %xmm1
; SSE41-NEXT: psrlq $32, %xmm2		; SSE41-NEXT: psrlq $32, %xmm2
; SSE41-NEXT: pmuludq %xmm0, %xmm2		; SSE41-NEXT: pmuludq %xmm0, %xmm2
; SSE41-NEXT: psllq $32, %xmm2		; SSE41-NEXT: psllq $32, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,1,3]		; SSE41-NEXT: psrlq $32, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]		; SSE41-NEXT: pmuludq %xmm1, %xmm3
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]		; SSE41-NEXT: psllq $32, %xmm3
		; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,3],xmm2[1,3]
		; SSE41-NEXT: movaps %xmm3, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX2-LABEL: mul_v4i64_zero_lower:		; AVX2-LABEL: mul_v4i64_zero_lower:
; AVX2: # BB#0: # %entry		; AVX2: # BB#0: # %entry
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1		; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0		; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: mul_v4i64_zero_lower:		; AVX512-LABEL: mul_v4i64_zero_lower:
; AVX512: # BB#0: # %entry		; AVX512: # BB#0: # %entry
; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1		; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1
; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0		; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX512-NEXT: retq		; AVX512-NEXT: retq
entry:		entry:
%val1a = zext <4 x i32> %val1 to <4 x i64>		%val1a = zext <4 x i32> %val1 to <4 x i64>
%val2a = and <4 x i64> %val2, <i64 -4294967296, i64 -4294967296, i64 -4294967296, i64 -4294967296>		%val2a = and <4 x i64> %val2, <i64 -4294967296, i64 -4294967296, i64 -4294967296, i64 -4294967296>
%res64 = mul <4 x i64> %val1a, %val2a		%res64 = mul <4 x i64> %val1a, %val2a
%rescast = bitcast <4 x i64> %res64 to <8 x i32>		%rescast = bitcast <4 x i64> %res64 to <8 x i32>
%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
ret <4 x i32> %res		ret <4 x i32> %res
}		}

define <8 x i32> @mul_v8i64_zero_upper(<8 x i32> %val1, <8 x i32> %val2) {		define <8 x i32> @mul_v8i64_zero_upper(<8 x i32> %val1, <8 x i32> %val2) {
; SSE2-LABEL: mul_v8i64_zero_upper:		; SSE2-LABEL: mul_v8i64_zero_upper:
; SSE2: # BB#0: # %entry		; SSE2: # BB#0: # %entry
; SSE2-NEXT: pxor %xmm4, %xmm4		; SSE2-NEXT: pxor %xmm6, %xmm6
; SSE2-NEXT: movdqa %xmm0, %xmm8		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: punpckhdq {{.*#+}} xmm8 = xmm8[2],xmm4[2],xmm8[3],xmm4[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm6[2],xmm0[3],xmm6[3]
; SSE2-NEXT: movdqa %xmm1, %xmm6		; SSE2-NEXT: movdqa %xmm1, %xmm5
; SSE2-NEXT: punpckhdq {{.*#+}} xmm6 = xmm6[2],xmm4[2],xmm6[3],xmm4[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm6[2],xmm1[3],xmm6[3]
; SSE2-NEXT: movdqa %xmm2, %xmm7		; SSE2-NEXT: movdqa %xmm2, %xmm8
; SSE2-NEXT: punpckhdq {{.*#+}} xmm7 = xmm7[2],xmm4[2],xmm7[3],xmm4[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm8 = xmm8[0],xmm6[0],xmm8[1],xmm6[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm6[2],xmm2[3],xmm6[3]
; SSE2-NEXT: movdqa %xmm3, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm7
; SSE2-NEXT: punpckhdq {{.*#+}} xmm5 = xmm5[2],xmm4[2],xmm5[3],xmm4[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm6[0],xmm7[1],xmm6[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm6[2],xmm3[3],xmm6[3]
; SSE2-NEXT: pmuludq %xmm1, %xmm3		; SSE2-NEXT: pmuludq %xmm1, %xmm3
; SSE2-NEXT: pmuludq %xmm6, %xmm5		; SSE2-NEXT: pmuludq %xmm7, %xmm5
; SSE2-NEXT: pmuludq %xmm0, %xmm2		; SSE2-NEXT: pmuludq %xmm0, %xmm2
; SSE2-NEXT: pmuludq %xmm8, %xmm7		; SSE2-NEXT: pmuludq %xmm8, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm7[1,3,2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,3],xmm2[1,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,3,2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,3],xmm3[1,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE2-NEXT: movaps %xmm4, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,3,2,3]		; SSE2-NEXT: movaps %xmm5, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mul_v8i64_zero_upper:		; SSE41-LABEL: mul_v8i64_zero_upper:
; SSE41: # BB#0: # %entry		; SSE41: # BB#0: # %entry
; SSE41-NEXT: pxor %xmm4, %xmm4		; SSE41-NEXT: pxor %xmm6, %xmm6
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm8 = xmm0[0],zero,xmm0[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm8 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm4[2],xmm0[3],xmm4[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm6[2],xmm0[3],xmm6[3]
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm6 = xmm1[0],zero,xmm1[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm7 = xmm1[0],zero,xmm1[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm4[2],xmm1[3],xmm4[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm6[2],xmm1[3],xmm6[3]
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm7 = xmm2[0],zero,xmm2[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm2[0],zero,xmm2[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm4[2],xmm2[3],xmm4[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm6[2],xmm2[3],xmm6[3]
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm5 = xmm3[0],zero,xmm3[1],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm5 = xmm3[0],zero,xmm3[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm4[2],xmm3[3],xmm4[3]		; SSE41-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm6[2],xmm3[3],xmm6[3]
; SSE41-NEXT: pmuludq %xmm1, %xmm3		; SSE41-NEXT: pmuludq %xmm1, %xmm3
; SSE41-NEXT: pmuludq %xmm0, %xmm2		; SSE41-NEXT: pmuludq %xmm0, %xmm2
; SSE41-NEXT: pmuludq %xmm6, %xmm5		; SSE41-NEXT: pmuludq %xmm7, %xmm5
; SSE41-NEXT: pmuludq %xmm8, %xmm7		; SSE41-NEXT: pmuludq %xmm8, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,1,1,3]		; SSE41-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,3],xmm2[1,3]
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[1,3,2,3]		; SSE41-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,3],xmm3[1,3]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]		; SSE41-NEXT: movaps %xmm4, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,1,1,3]		; SSE41-NEXT: movaps %xmm5, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,3,2,3]
; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX2-LABEL: mul_v8i64_zero_upper:		; AVX2-LABEL: mul_v8i64_zero_upper:
; AVX2: # BB#0: # %entry		; AVX2: # BB#0: # %entry
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm3		; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm3
▲ Show 20 Lines • Show All 162 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/reduce-trunc-shl.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2 \| FileCheck %s --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2 \| FileCheck %s --check-prefix=AVX2

	define void @trunc_shl_7_v4i32_v4i64(<4 x i32> addrspace(1)* %out, <4 x i64> addrspace(1)* %in) {			define void @trunc_shl_7_v4i32_v4i64(<4 x i32> addrspace(1)* %out, <4 x i64> addrspace(1)* %in) {
	; SSE2-LABEL: trunc_shl_7_v4i32_v4i64:			; SSE2-LABEL: trunc_shl_7_v4i32_v4i64:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = mem[0,2,2,3]			; SSE2-NEXT: movaps (%rsi), %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = mem[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSE2-NEXT: pslld $7, %xmm0
	; SSE2-NEXT: pslld $7, %xmm1			; SSE2-NEXT: movdqa %xmm0, (%rdi)
	; SSE2-NEXT: movdqa %xmm1, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_shl_7_v4i32_v4i64:			; AVX2-LABEL: trunc_shl_7_v4i32_v4i64:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = mem[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = mem[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpslld $7, %xmm0, %xmm0			; AVX2-NEXT: vpslld $7, %xmm0, %xmm0
	; AVX2-NEXT: vmovdqa %xmm0, (%rdi)			; AVX2-NEXT: vmovdqa %xmm0, (%rdi)
	▲ Show 20 Lines • Show All 147 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sse-fsignum.ll

	Show First 20 Lines • Show All 230 Lines • ▼ Show 20 Lines

	define void @signum64c(<4 x double>*) {			define void @signum64c(<4 x double>*) {
	; AVX1-LABEL: signum64c:			; AVX1-LABEL: signum64c:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vmovapd (%rdi), %ymm0			; AVX1-NEXT: vmovapd (%rdi), %ymm0
	; AVX1-NEXT: vxorpd %ymm1, %ymm1, %ymm1			; AVX1-NEXT: vxorpd %ymm1, %ymm1, %ymm1
	; AVX1-NEXT: vcmpltpd %ymm1, %ymm0, %ymm2			; AVX1-NEXT: vcmpltpd %ymm1, %ymm0, %ymm2
	; AVX1-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0			; AVX1-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
	; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vpsubd %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX1-NEXT: vmovaps %ymm0, (%rdi)			; AVX1-NEXT: vmovaps %ymm0, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: signum64c:			; AVX2-LABEL: signum64c:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovapd (%rdi), %ymm0			; AVX2-NEXT: vmovapd (%rdi), %ymm0
	; AVX2-NEXT: vxorpd %ymm1, %ymm1, %ymm1			; AVX2-NEXT: vxorpd %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vcmpltpd %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vcmpltpd %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpsubd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpsubd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX2-NEXT: vmovaps %ymm0, (%rdi)			; AVX2-NEXT: vmovaps %ymm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: signum64c:			; AVX512F-LABEL: signum64c:
	; AVX512F: # BB#0: # %entry			; AVX512F: # BB#0: # %entry
	; AVX512F-NEXT: vmovapd (%rdi), %ymm0			; AVX512F-NEXT: vmovapd (%rdi), %ymm0
	; AVX512F-NEXT: vxorpd %ymm1, %ymm1, %ymm1			; AVX512F-NEXT: vxorpd %ymm1, %ymm1, %ymm1
	; AVX512F-NEXT: vcmpltpd %ymm1, %ymm0, %ymm2			; AVX512F-NEXT: vcmpltpd %ymm1, %ymm0, %ymm2
	; AVX512F-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0			; AVX512F-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
	; AVX512F-NEXT: vpsubd %ymm0, %ymm2, %ymm0			; AVX512F-NEXT: vpsubd %ymm0, %ymm2, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512F-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX512F-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX512F-NEXT: vmovaps %ymm0, (%rdi)			; AVX512F-NEXT: vmovaps %ymm0, (%rdi)
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	entry:			entry:
	%x = load <4 x double>, <4 x double>* %0			%x = load <4 x double>, <4 x double>* %0
	%xgt = tail call <4 x double> @llvm.x86.avx.cmp.pd.256(<4 x double> %x, <4 x double> zeroinitializer, i8 1)			%xgt = tail call <4 x double> @llvm.x86.avx.cmp.pd.256(<4 x double> %x, <4 x double> zeroinitializer, i8 1)
	%igt = bitcast <4 x double> %xgt to <8 x i32>			%igt = bitcast <4 x double> %xgt to <8 x i32>
	%xlt = tail call <4 x double> @llvm.x86.avx.cmp.pd.256(<4 x double> zeroinitializer, <4 x double> %x, i8 1)			%xlt = tail call <4 x double> @llvm.x86.avx.cmp.pd.256(<4 x double> zeroinitializer, <4 x double> %x, i8 1)
	Show All 14 Lines

llvm/trunk/test/CodeGen/X86/vec_fp_to_int.ll

Show First 20 Lines • Show All 341 Lines • ▼ Show 20 Lines
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
%cvt = fptoui <2 x double> %a to <2 x i64>		%cvt = fptoui <2 x double> %a to <2 x i64>
ret <2 x i64> %cvt		ret <2 x i64> %cvt
}		}

define <4 x i32> @fptoui_2f64_to_4i32(<2 x double> %a) {		define <4 x i32> @fptoui_2f64_to_4i32(<2 x double> %a) {
; SSE-LABEL: fptoui_2f64_to_4i32:		; SSE-LABEL: fptoui_2f64_to_4i32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
; SSE-NEXT: movapd %xmm0, %xmm2		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE-NEXT: subsd %xmm1, %xmm2		; SSE-NEXT: subsd %xmm2, %xmm1
; SSE-NEXT: cvttsd2si %xmm2, %rax		; SSE-NEXT: cvttsd2si %xmm1, %rax
; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000		; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rdx		; SSE-NEXT: cvttsd2si %xmm0, %rdx
; SSE-NEXT: ucomisd %xmm1, %xmm0		; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rdx		; SSE-NEXT: cmovaeq %rax, %rdx
; SSE-NEXT: movd %rdx, %xmm2		; SSE-NEXT: movd %rdx, %xmm1
; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movaps %xmm0, %xmm3		; SSE-NEXT: movaps %xmm0, %xmm3
; SSE-NEXT: subsd %xmm1, %xmm3		; SSE-NEXT: subsd %xmm2, %xmm3
; SSE-NEXT: cvttsd2si %xmm3, %rax		; SSE-NEXT: cvttsd2si %xmm3, %rax
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rcx		; SSE-NEXT: cvttsd2si %xmm0, %rcx
; SSE-NEXT: ucomisd %xmm1, %xmm0		; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rcx		; SSE-NEXT: cmovaeq %rax, %rcx
; SSE-NEXT: movd %rcx, %xmm0		; SSE-NEXT: movd %rcx, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,0,2]		; SSE-NEXT: pxor %xmm0, %xmm0
; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_2f64_to_4i32:		; VEX-LABEL: fptoui_2f64_to_4i32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; VEX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm2		; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm2
; VEX-NEXT: vcvttsd2si %xmm2, %rax		; VEX-NEXT: vcvttsd2si %xmm2, %rax
; VEX-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000		; VEX-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; VEX-NEXT: xorq %rcx, %rax		; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rdx		; VEX-NEXT: vcvttsd2si %xmm0, %rdx
; VEX-NEXT: vucomisd %xmm1, %xmm0		; VEX-NEXT: vucomisd %xmm1, %xmm0
; VEX-NEXT: cmovaeq %rax, %rdx		; VEX-NEXT: cmovaeq %rax, %rdx
; VEX-NEXT: vmovq %rdx, %xmm2		; VEX-NEXT: vmovq %rdx, %xmm2
; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm3		; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm3
; VEX-NEXT: vcvttsd2si %xmm3, %rax		; VEX-NEXT: vcvttsd2si %xmm3, %rax
; VEX-NEXT: xorq %rcx, %rax		; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rcx		; VEX-NEXT: vcvttsd2si %xmm0, %rcx
; VEX-NEXT: vucomisd %xmm1, %xmm0		; VEX-NEXT: vucomisd %xmm1, %xmm0
; VEX-NEXT: cmovaeq %rax, %rcx		; VEX-NEXT: cmovaeq %rax, %rcx
; VEX-NEXT: vmovq %rcx, %xmm0		; VEX-NEXT: vmovq %rcx, %xmm0
; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]		; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
; VEX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: fptoui_2f64_to_4i32:		; AVX512F-LABEL: fptoui_2f64_to_4i32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>		; AVX512F-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>
; AVX512F-NEXT: vcvttpd2udq %zmm0, %ymm0		; AVX512F-NEXT: vcvttpd2udq %zmm0, %ymm0
; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero		; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	; AVX512VLDQ-NEXT: retq
%cvt = fptoui <2 x double> %a to <2 x i32>		%cvt = fptoui <2 x double> %a to <2 x i32>
%ext = shufflevector <2 x i32> %cvt, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

define <4 x i32> @fptoui_4f64_to_2i32(<2 x double> %a) {		define <4 x i32> @fptoui_4f64_to_2i32(<2 x double> %a) {
; SSE-LABEL: fptoui_4f64_to_2i32:		; SSE-LABEL: fptoui_4f64_to_2i32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
; SSE-NEXT: movapd %xmm0, %xmm2		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE-NEXT: subsd %xmm1, %xmm2		; SSE-NEXT: subsd %xmm2, %xmm1
; SSE-NEXT: cvttsd2si %xmm2, %rax		; SSE-NEXT: cvttsd2si %xmm1, %rax
; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000		; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rdx		; SSE-NEXT: cvttsd2si %xmm0, %rdx
; SSE-NEXT: ucomisd %xmm1, %xmm0		; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rdx		; SSE-NEXT: cmovaeq %rax, %rdx
; SSE-NEXT: movd %rdx, %xmm2		; SSE-NEXT: movd %rdx, %xmm1
; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movaps %xmm0, %xmm3		; SSE-NEXT: movaps %xmm0, %xmm3
; SSE-NEXT: subsd %xmm1, %xmm3		; SSE-NEXT: subsd %xmm2, %xmm3
; SSE-NEXT: cvttsd2si %xmm3, %rax		; SSE-NEXT: cvttsd2si %xmm3, %rax
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rdx		; SSE-NEXT: cvttsd2si %xmm0, %rdx
; SSE-NEXT: ucomisd %xmm1, %xmm0		; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rdx		; SSE-NEXT: cmovaeq %rax, %rdx
; SSE-NEXT: movd %rdx, %xmm0		; SSE-NEXT: movd %rdx, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
; SSE-NEXT: cvttsd2si %xmm0, %rax		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: xorq %rax, %rcx		; SSE-NEXT: xorq %rax, %rcx
; SSE-NEXT: ucomisd %xmm1, %xmm0		; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovbq %rax, %rcx		; SSE-NEXT: cmovbq %rax, %rcx
; SSE-NEXT: movd %rcx, %xmm1		; SSE-NEXT: movd %rcx, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[0,2]
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_4f64_to_2i32:		; VEX-LABEL: fptoui_4f64_to_2i32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; VEX-NEXT: vcvttsd2si %xmm1, %rax		; VEX-NEXT: vcvttsd2si %xmm1, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rcx		; VEX-NEXT: vcvttsd2si %xmm0, %rcx
; VEX-NEXT: vmovd %ecx, %xmm0		; VEX-NEXT: vmovd %ecx, %xmm0
▲ Show 20 Lines • Show All 226 Lines • ▼ Show 20 Lines
; SSE-NEXT: subsd %xmm2, %xmm4		; SSE-NEXT: subsd %xmm2, %xmm4
; SSE-NEXT: cvttsd2si %xmm4, %rcx		; SSE-NEXT: cvttsd2si %xmm4, %rcx
; SSE-NEXT: xorq %rax, %rcx		; SSE-NEXT: xorq %rax, %rcx
; SSE-NEXT: cvttsd2si %xmm1, %rdx		; SSE-NEXT: cvttsd2si %xmm1, %rdx
; SSE-NEXT: ucomisd %xmm2, %xmm1		; SSE-NEXT: ucomisd %xmm2, %xmm1
; SSE-NEXT: cmovaeq %rcx, %rdx		; SSE-NEXT: cmovaeq %rcx, %rdx
; SSE-NEXT: movd %rdx, %xmm1		; SSE-NEXT: movd %rdx, %xmm1
; SSE-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm1[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm1[0]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,2,2,3]		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE-NEXT: movapd %xmm0, %xmm3		; SSE-NEXT: subsd %xmm2, %xmm1
; SSE-NEXT: subsd %xmm2, %xmm3		; SSE-NEXT: cvttsd2si %xmm1, %rcx
; SSE-NEXT: cvttsd2si %xmm3, %rcx
; SSE-NEXT: xorq %rax, %rcx		; SSE-NEXT: xorq %rax, %rcx
; SSE-NEXT: cvttsd2si %xmm0, %rdx		; SSE-NEXT: cvttsd2si %xmm0, %rdx
; SSE-NEXT: ucomisd %xmm2, %xmm0		; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rcx, %rdx		; SSE-NEXT: cmovaeq %rcx, %rdx
; SSE-NEXT: movd %rdx, %xmm3		; SSE-NEXT: movd %rdx, %xmm1
; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movaps %xmm0, %xmm4		; SSE-NEXT: movaps %xmm0, %xmm4
; SSE-NEXT: subsd %xmm2, %xmm4		; SSE-NEXT: subsd %xmm2, %xmm4
; SSE-NEXT: cvttsd2si %xmm4, %rcx		; SSE-NEXT: cvttsd2si %xmm4, %rcx
; SSE-NEXT: xorq %rax, %rcx		; SSE-NEXT: xorq %rax, %rcx
; SSE-NEXT: cvttsd2si %xmm0, %rax		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: ucomisd %xmm2, %xmm0		; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rcx, %rax		; SSE-NEXT: cmovaeq %rcx, %rax
; SSE-NEXT: movd %rax, %xmm0		; SSE-NEXT: movd %rax, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,2,2,3]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_4f64_to_4i32:		; VEX-LABEL: fptoui_4f64_to_4i32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; VEX-NEXT: vcvttsd2si %xmm1, %rax		; VEX-NEXT: vcvttsd2si %xmm1, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rcx		; VEX-NEXT: vcvttsd2si %xmm0, %rcx
; VEX-NEXT: vmovd %ecx, %xmm1		; VEX-NEXT: vmovd %ecx, %xmm1
▲ Show 20 Lines • Show All 1,437 Lines • ▼ Show 20 Lines
; SSE-NEXT: callq __gnu_h2f_ieee		; SSE-NEXT: callq __gnu_h2f_ieee
; SSE-NEXT: movss %xmm0, (%rsp) # 4-byte Spill		; SSE-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; SSE-NEXT: movss {{[0-9]+}}(%rsp), %xmm0 # 4-byte Reload		; SSE-NEXT: movss {{[0-9]+}}(%rsp), %xmm0 # 4-byte Reload
; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero		; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: callq __gnu_f2h_ieee		; SSE-NEXT: callq __gnu_f2h_ieee
; SSE-NEXT: movzwl %ax, %edi		; SSE-NEXT: movzwl %ax, %edi
; SSE-NEXT: callq __gnu_h2f_ieee		; SSE-NEXT: callq __gnu_h2f_ieee
; SSE-NEXT: cvttss2si %xmm0, %rax		; SSE-NEXT: cvttss2si %xmm0, %rax
; SSE-NEXT: movd %rax, %xmm0
; SSE-NEXT: cvttss2si (%rsp), %rax # 4-byte Folded Reload
; SSE-NEXT: movd %rax, %xmm1		; SSE-NEXT: movd %rax, %xmm1
; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]		; SSE-NEXT: cvttss2si (%rsp), %rax # 4-byte Folded Reload
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,1,0,2]		; SSE-NEXT: movd %rax, %xmm0
; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
		; SSE-NEXT: pxor %xmm1, %xmm1
		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
; SSE-NEXT: popq %rax		; SSE-NEXT: popq %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptosi_2f16_to_4i32:		; VEX-LABEL: fptosi_2f16_to_4i32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: pushq %rax		; VEX-NEXT: pushq %rax
; VEX-NEXT: vmovss %xmm1, {{[0-9]+}}(%rsp) # 4-byte Spill		; VEX-NEXT: vmovss %xmm1, {{[0-9]+}}(%rsp) # 4-byte Spill
; VEX-NEXT: callq __gnu_f2h_ieee		; VEX-NEXT: callq __gnu_f2h_ieee
; VEX-NEXT: movzwl %ax, %edi		; VEX-NEXT: movzwl %ax, %edi
; VEX-NEXT: callq __gnu_h2f_ieee		; VEX-NEXT: callq __gnu_h2f_ieee
; VEX-NEXT: vmovss %xmm0, (%rsp) # 4-byte Spill		; VEX-NEXT: vmovss %xmm0, (%rsp) # 4-byte Spill
; VEX-NEXT: vmovss {{[0-9]+}}(%rsp), %xmm0 # 4-byte Reload		; VEX-NEXT: vmovss {{[0-9]+}}(%rsp), %xmm0 # 4-byte Reload
; VEX-NEXT: # xmm0 = mem[0],zero,zero,zero		; VEX-NEXT: # xmm0 = mem[0],zero,zero,zero
; VEX-NEXT: callq __gnu_f2h_ieee		; VEX-NEXT: callq __gnu_f2h_ieee
; VEX-NEXT: movzwl %ax, %edi		; VEX-NEXT: movzwl %ax, %edi
; VEX-NEXT: callq __gnu_h2f_ieee		; VEX-NEXT: callq __gnu_h2f_ieee
; VEX-NEXT: vcvttss2si %xmm0, %rax		; VEX-NEXT: vcvttss2si %xmm0, %rax
; VEX-NEXT: vmovq %rax, %xmm0		; VEX-NEXT: vmovq %rax, %xmm0
; VEX-NEXT: vcvttss2si (%rsp), %rax # 4-byte Folded Reload		; VEX-NEXT: vcvttss2si (%rsp), %rax # 4-byte Folded Reload
; VEX-NEXT: vmovq %rax, %xmm1		; VEX-NEXT: vmovq %rax, %xmm1
; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]		; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; VEX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; VEX-NEXT: popq %rax		; VEX-NEXT: popq %rax
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: fptosi_2f16_to_4i32:		; AVX512F-LABEL: fptosi_2f16_to_4i32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: # kill: %XMM1<def> %XMM1<kill> %ZMM1<def>		; AVX512F-NEXT: # kill: %XMM1<def> %XMM1<kill> %ZMM1<def>
; AVX512F-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>		; AVX512F-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>
; AVX512F-NEXT: vcvtps2ph $4, %zmm0, %ymm0		; AVX512F-NEXT: vcvtps2ph $4, %zmm0, %ymm0
; AVX512F-NEXT: vcvtph2ps %ymm0, %zmm0		; AVX512F-NEXT: vcvtph2ps %ymm0, %zmm0
; AVX512F-NEXT: vcvtps2ph $4, %zmm1, %ymm1		; AVX512F-NEXT: vcvtps2ph $4, %zmm1, %ymm1
; AVX512F-NEXT: vcvtph2ps %ymm1, %zmm1		; AVX512F-NEXT: vcvtph2ps %ymm1, %zmm1
; AVX512F-NEXT: vcvttss2si %xmm1, %rax		; AVX512F-NEXT: vcvttss2si %xmm1, %rax
; AVX512F-NEXT: vmovq %rax, %xmm1		; AVX512F-NEXT: vmovq %rax, %xmm1
; AVX512F-NEXT: vcvttss2si %xmm0, %rax		; AVX512F-NEXT: vcvttss2si %xmm0, %rax
; AVX512F-NEXT: vmovq %rax, %xmm0		; AVX512F-NEXT: vmovq %rax, %xmm0
; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: fptosi_2f16_to_4i32:		; AVX512VL-LABEL: fptosi_2f16_to_4i32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; AVX512VL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512VL-NEXT: vcvtph2ps %xmm0, %xmm0		; AVX512VL-NEXT: vcvtph2ps %xmm0, %xmm0
; AVX512VL-NEXT: vcvtps2ph $4, %xmm1, %xmm1		; AVX512VL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512VL-NEXT: vcvtph2ps %xmm1, %xmm1		; AVX512VL-NEXT: vcvtph2ps %xmm1, %xmm1
; AVX512VL-NEXT: vcvttss2si %xmm1, %rax		; AVX512VL-NEXT: vcvttss2si %xmm1, %rax
; AVX512VL-NEXT: vmovq %rax, %xmm1		; AVX512VL-NEXT: vmovq %rax, %xmm1
; AVX512VL-NEXT: vcvttss2si %xmm0, %rax		; AVX512VL-NEXT: vcvttss2si %xmm0, %rax
; AVX512VL-NEXT: vmovq %rax, %xmm0		; AVX512VL-NEXT: vmovq %rax, %xmm0
; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512VL-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: fptosi_2f16_to_4i32:		; AVX512DQ-LABEL: fptosi_2f16_to_4i32:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
; AVX512DQ-NEXT: # kill: %XMM1<def> %XMM1<kill> %ZMM1<def>		; AVX512DQ-NEXT: # kill: %XMM1<def> %XMM1<kill> %ZMM1<def>
; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>		; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>
; AVX512DQ-NEXT: vcvtps2ph $4, %zmm0, %ymm0		; AVX512DQ-NEXT: vcvtps2ph $4, %zmm0, %ymm0
; AVX512DQ-NEXT: vcvtph2ps %ymm0, %zmm0		; AVX512DQ-NEXT: vcvtph2ps %ymm0, %zmm0
; AVX512DQ-NEXT: vcvtps2ph $4, %zmm1, %ymm1		; AVX512DQ-NEXT: vcvtps2ph $4, %zmm1, %ymm1
; AVX512DQ-NEXT: vcvtph2ps %ymm1, %zmm1		; AVX512DQ-NEXT: vcvtph2ps %ymm1, %zmm1
; AVX512DQ-NEXT: vcvttss2si %xmm1, %rax		; AVX512DQ-NEXT: vcvttss2si %xmm1, %rax
; AVX512DQ-NEXT: vmovq %rax, %xmm1		; AVX512DQ-NEXT: vmovq %rax, %xmm1
; AVX512DQ-NEXT: vcvttss2si %xmm0, %rax		; AVX512DQ-NEXT: vcvttss2si %xmm0, %rax
; AVX512DQ-NEXT: vmovq %rax, %xmm0		; AVX512DQ-NEXT: vmovq %rax, %xmm0
; AVX512DQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512DQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512DQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512DQ-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
;		;
; AVX512VLDQ-LABEL: fptosi_2f16_to_4i32:		; AVX512VLDQ-LABEL: fptosi_2f16_to_4i32:
; AVX512VLDQ: # BB#0:		; AVX512VLDQ: # BB#0:
; AVX512VLDQ-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; AVX512VLDQ-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512VLDQ-NEXT: vcvtph2ps %xmm0, %xmm0		; AVX512VLDQ-NEXT: vcvtph2ps %xmm0, %xmm0
; AVX512VLDQ-NEXT: vcvtps2ph $4, %xmm1, %xmm1		; AVX512VLDQ-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512VLDQ-NEXT: vcvtph2ps %xmm1, %xmm1		; AVX512VLDQ-NEXT: vcvtph2ps %xmm1, %xmm1
; AVX512VLDQ-NEXT: vcvttss2si %xmm1, %rax		; AVX512VLDQ-NEXT: vcvttss2si %xmm1, %rax
; AVX512VLDQ-NEXT: vmovq %rax, %xmm1		; AVX512VLDQ-NEXT: vmovq %rax, %xmm1
; AVX512VLDQ-NEXT: vcvttss2si %xmm0, %rax		; AVX512VLDQ-NEXT: vcvttss2si %xmm0, %rax
; AVX512VLDQ-NEXT: vmovq %rax, %xmm0		; AVX512VLDQ-NEXT: vmovq %rax, %xmm0
; AVX512VLDQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VLDQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512VLDQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512VLDQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512VLDQ-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
%cvt = fptosi <2 x half> %a to <2 x i32>		%cvt = fptosi <2 x half> %a to <2 x i32>
%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

define <4 x i32> @fptosi_2f80_to_4i32(<2 x x86_fp80> %a) nounwind {		define <4 x i32> @fptosi_2f80_to_4i32(<2 x x86_fp80> %a) nounwind {
; SSE-LABEL: fptosi_2f80_to_4i32:		; SSE-LABEL: fptosi_2f80_to_4i32:
Show All 9 Lines
; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movw $3199, -{{[0-9]+}}(%rsp) # imm = 0xC7F		; SSE-NEXT: movw $3199, -{{[0-9]+}}(%rsp) # imm = 0xC7F
; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movw %ax, -{{[0-9]+}}(%rsp)		; SSE-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; SSE-NEXT: fistpll -{{[0-9]+}}(%rsp)		; SSE-NEXT: fistpll -{{[0-9]+}}(%rsp)
; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,1,0,2]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: pxor %xmm1, %xmm1
		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: fptosi_2f80_to_4i32:		; AVX-LABEL: fptosi_2f80_to_4i32:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: fldt {{[0-9]+}}(%rsp)		; AVX-NEXT: fldt {{[0-9]+}}(%rsp)
; AVX-NEXT: fldt {{[0-9]+}}(%rsp)		; AVX-NEXT: fldt {{[0-9]+}}(%rsp)
; AVX-NEXT: fisttpll -{{[0-9]+}}(%rsp)		; AVX-NEXT: fisttpll -{{[0-9]+}}(%rsp)
; AVX-NEXT: fisttpll -{{[0-9]+}}(%rsp)		; AVX-NEXT: fisttpll -{{[0-9]+}}(%rsp)
; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]		; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX-NEXT: retq		; AVX-NEXT: retq
%cvt = fptosi <2 x x86_fp80> %a to <2 x i32>		%cvt = fptosi <2 x x86_fp80> %a to <2 x i32>
%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

define <4 x i32> @fptosi_2f128_to_4i32(<2 x fp128> %a) nounwind {		define <4 x i32> @fptosi_2f128_to_4i32(<2 x fp128> %a) nounwind {
; SSE-LABEL: fptosi_2f128_to_4i32:		; SSE-LABEL: fptosi_2f128_to_4i32:
Show All 9 Lines
; SSE-NEXT: movd %rax, %xmm0		; SSE-NEXT: movd %rax, %xmm0
; SSE-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; SSE-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; SSE-NEXT: movq %rbx, %rdi		; SSE-NEXT: movq %rbx, %rdi
; SSE-NEXT: movq %r14, %rsi		; SSE-NEXT: movq %r14, %rsi
; SSE-NEXT: callq __fixtfdi		; SSE-NEXT: callq __fixtfdi
; SSE-NEXT: movd %rax, %xmm0		; SSE-NEXT: movd %rax, %xmm0
; SSE-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; SSE-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload
; SSE-NEXT: # xmm0 = xmm0[0],mem[0]		; SSE-NEXT: # xmm0 = xmm0[0],mem[0]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
; SSE-NEXT: addq $24, %rsp		; SSE-NEXT: addq $24, %rsp
; SSE-NEXT: popq %rbx		; SSE-NEXT: popq %rbx
; SSE-NEXT: popq %r14		; SSE-NEXT: popq %r14
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptosi_2f128_to_4i32:		; VEX-LABEL: fptosi_2f128_to_4i32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: pushq %r14		; VEX-NEXT: pushq %r14
; VEX-NEXT: pushq %rbx		; VEX-NEXT: pushq %rbx
; VEX-NEXT: subq $24, %rsp		; VEX-NEXT: subq $24, %rsp
; VEX-NEXT: movq %rsi, %r14		; VEX-NEXT: movq %rsi, %r14
; VEX-NEXT: movq %rdi, %rbx		; VEX-NEXT: movq %rdi, %rbx
; VEX-NEXT: movq %rdx, %rdi		; VEX-NEXT: movq %rdx, %rdi
; VEX-NEXT: movq %rcx, %rsi		; VEX-NEXT: movq %rcx, %rsi
; VEX-NEXT: callq __fixtfdi		; VEX-NEXT: callq __fixtfdi
; VEX-NEXT: vmovq %rax, %xmm0		; VEX-NEXT: vmovq %rax, %xmm0
; VEX-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill		; VEX-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill
; VEX-NEXT: movq %rbx, %rdi		; VEX-NEXT: movq %rbx, %rdi
; VEX-NEXT: movq %r14, %rsi		; VEX-NEXT: movq %r14, %rsi
; VEX-NEXT: callq __fixtfdi		; VEX-NEXT: callq __fixtfdi
; VEX-NEXT: vmovq %rax, %xmm0		; VEX-NEXT: vmovq %rax, %xmm0
; VEX-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload		; VEX-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload
; VEX-NEXT: # xmm0 = xmm0[0],mem[0]		; VEX-NEXT: # xmm0 = xmm0[0],mem[0]
; VEX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; VEX-NEXT: addq $24, %rsp		; VEX-NEXT: addq $24, %rsp
; VEX-NEXT: popq %rbx		; VEX-NEXT: popq %rbx
; VEX-NEXT: popq %r14		; VEX-NEXT: popq %r14
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: fptosi_2f128_to_4i32:		; AVX512F-LABEL: fptosi_2f128_to_4i32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: pushq %r14		; AVX512F-NEXT: pushq %r14
; AVX512F-NEXT: pushq %rbx		; AVX512F-NEXT: pushq %rbx
; AVX512F-NEXT: subq $24, %rsp		; AVX512F-NEXT: subq $24, %rsp
; AVX512F-NEXT: movq %rsi, %r14		; AVX512F-NEXT: movq %rsi, %r14
; AVX512F-NEXT: movq %rdi, %rbx		; AVX512F-NEXT: movq %rdi, %rbx
; AVX512F-NEXT: movq %rdx, %rdi		; AVX512F-NEXT: movq %rdx, %rdi
; AVX512F-NEXT: movq %rcx, %rsi		; AVX512F-NEXT: movq %rcx, %rsi
; AVX512F-NEXT: callq __fixtfdi		; AVX512F-NEXT: callq __fixtfdi
; AVX512F-NEXT: vmovq %rax, %xmm0		; AVX512F-NEXT: vmovq %rax, %xmm0
; AVX512F-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill		; AVX512F-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill
; AVX512F-NEXT: movq %rbx, %rdi		; AVX512F-NEXT: movq %rbx, %rdi
; AVX512F-NEXT: movq %r14, %rsi		; AVX512F-NEXT: movq %r14, %rsi
; AVX512F-NEXT: callq __fixtfdi		; AVX512F-NEXT: callq __fixtfdi
; AVX512F-NEXT: vmovq %rax, %xmm0		; AVX512F-NEXT: vmovq %rax, %xmm0
; AVX512F-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX512F-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX512F-NEXT: # xmm0 = xmm0[0],mem[0]		; AVX512F-NEXT: # xmm0 = xmm0[0],mem[0]
; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512F-NEXT: addq $24, %rsp		; AVX512F-NEXT: addq $24, %rsp
; AVX512F-NEXT: popq %rbx		; AVX512F-NEXT: popq %rbx
; AVX512F-NEXT: popq %r14		; AVX512F-NEXT: popq %r14
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: fptosi_2f128_to_4i32:		; AVX512VL-LABEL: fptosi_2f128_to_4i32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: pushq %r14		; AVX512VL-NEXT: pushq %r14
; AVX512VL-NEXT: pushq %rbx		; AVX512VL-NEXT: pushq %rbx
; AVX512VL-NEXT: subq $24, %rsp		; AVX512VL-NEXT: subq $24, %rsp
; AVX512VL-NEXT: movq %rsi, %r14		; AVX512VL-NEXT: movq %rsi, %r14
; AVX512VL-NEXT: movq %rdi, %rbx		; AVX512VL-NEXT: movq %rdi, %rbx
; AVX512VL-NEXT: movq %rdx, %rdi		; AVX512VL-NEXT: movq %rdx, %rdi
; AVX512VL-NEXT: movq %rcx, %rsi		; AVX512VL-NEXT: movq %rcx, %rsi
; AVX512VL-NEXT: callq __fixtfdi		; AVX512VL-NEXT: callq __fixtfdi
; AVX512VL-NEXT: vmovq %rax, %xmm0		; AVX512VL-NEXT: vmovq %rax, %xmm0
; AVX512VL-NEXT: vmovdqa64 %xmm0, (%rsp) # 16-byte Spill		; AVX512VL-NEXT: vmovdqa64 %xmm0, (%rsp) # 16-byte Spill
; AVX512VL-NEXT: movq %rbx, %rdi		; AVX512VL-NEXT: movq %rbx, %rdi
; AVX512VL-NEXT: movq %r14, %rsi		; AVX512VL-NEXT: movq %r14, %rsi
; AVX512VL-NEXT: callq __fixtfdi		; AVX512VL-NEXT: callq __fixtfdi
; AVX512VL-NEXT: vmovq %rax, %xmm0		; AVX512VL-NEXT: vmovq %rax, %xmm0
; AVX512VL-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX512VL-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX512VL-NEXT: # xmm0 = xmm0[0],mem[0]		; AVX512VL-NEXT: # xmm0 = xmm0[0],mem[0]
; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512VL-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512VL-NEXT: addq $24, %rsp		; AVX512VL-NEXT: addq $24, %rsp
; AVX512VL-NEXT: popq %rbx		; AVX512VL-NEXT: popq %rbx
; AVX512VL-NEXT: popq %r14		; AVX512VL-NEXT: popq %r14
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: fptosi_2f128_to_4i32:		; AVX512DQ-LABEL: fptosi_2f128_to_4i32:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
; AVX512DQ-NEXT: pushq %r14		; AVX512DQ-NEXT: pushq %r14
; AVX512DQ-NEXT: pushq %rbx		; AVX512DQ-NEXT: pushq %rbx
; AVX512DQ-NEXT: subq $24, %rsp		; AVX512DQ-NEXT: subq $24, %rsp
; AVX512DQ-NEXT: movq %rsi, %r14		; AVX512DQ-NEXT: movq %rsi, %r14
; AVX512DQ-NEXT: movq %rdi, %rbx		; AVX512DQ-NEXT: movq %rdi, %rbx
; AVX512DQ-NEXT: movq %rdx, %rdi		; AVX512DQ-NEXT: movq %rdx, %rdi
; AVX512DQ-NEXT: movq %rcx, %rsi		; AVX512DQ-NEXT: movq %rcx, %rsi
; AVX512DQ-NEXT: callq __fixtfdi		; AVX512DQ-NEXT: callq __fixtfdi
; AVX512DQ-NEXT: vmovq %rax, %xmm0		; AVX512DQ-NEXT: vmovq %rax, %xmm0
; AVX512DQ-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill		; AVX512DQ-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill
; AVX512DQ-NEXT: movq %rbx, %rdi		; AVX512DQ-NEXT: movq %rbx, %rdi
; AVX512DQ-NEXT: movq %r14, %rsi		; AVX512DQ-NEXT: movq %r14, %rsi
; AVX512DQ-NEXT: callq __fixtfdi		; AVX512DQ-NEXT: callq __fixtfdi
; AVX512DQ-NEXT: vmovq %rax, %xmm0		; AVX512DQ-NEXT: vmovq %rax, %xmm0
; AVX512DQ-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX512DQ-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX512DQ-NEXT: # xmm0 = xmm0[0],mem[0]		; AVX512DQ-NEXT: # xmm0 = xmm0[0],mem[0]
; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512DQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512DQ-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512DQ-NEXT: addq $24, %rsp		; AVX512DQ-NEXT: addq $24, %rsp
; AVX512DQ-NEXT: popq %rbx		; AVX512DQ-NEXT: popq %rbx
; AVX512DQ-NEXT: popq %r14		; AVX512DQ-NEXT: popq %r14
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
;		;
; AVX512VLDQ-LABEL: fptosi_2f128_to_4i32:		; AVX512VLDQ-LABEL: fptosi_2f128_to_4i32:
; AVX512VLDQ: # BB#0:		; AVX512VLDQ: # BB#0:
; AVX512VLDQ-NEXT: pushq %r14		; AVX512VLDQ-NEXT: pushq %r14
; AVX512VLDQ-NEXT: pushq %rbx		; AVX512VLDQ-NEXT: pushq %rbx
; AVX512VLDQ-NEXT: subq $24, %rsp		; AVX512VLDQ-NEXT: subq $24, %rsp
; AVX512VLDQ-NEXT: movq %rsi, %r14		; AVX512VLDQ-NEXT: movq %rsi, %r14
; AVX512VLDQ-NEXT: movq %rdi, %rbx		; AVX512VLDQ-NEXT: movq %rdi, %rbx
; AVX512VLDQ-NEXT: movq %rdx, %rdi		; AVX512VLDQ-NEXT: movq %rdx, %rdi
; AVX512VLDQ-NEXT: movq %rcx, %rsi		; AVX512VLDQ-NEXT: movq %rcx, %rsi
; AVX512VLDQ-NEXT: callq __fixtfdi		; AVX512VLDQ-NEXT: callq __fixtfdi
; AVX512VLDQ-NEXT: vmovq %rax, %xmm0		; AVX512VLDQ-NEXT: vmovq %rax, %xmm0
; AVX512VLDQ-NEXT: vmovdqa64 %xmm0, (%rsp) # 16-byte Spill		; AVX512VLDQ-NEXT: vmovdqa64 %xmm0, (%rsp) # 16-byte Spill
; AVX512VLDQ-NEXT: movq %rbx, %rdi		; AVX512VLDQ-NEXT: movq %rbx, %rdi
; AVX512VLDQ-NEXT: movq %r14, %rsi		; AVX512VLDQ-NEXT: movq %r14, %rsi
; AVX512VLDQ-NEXT: callq __fixtfdi		; AVX512VLDQ-NEXT: callq __fixtfdi
; AVX512VLDQ-NEXT: vmovq %rax, %xmm0		; AVX512VLDQ-NEXT: vmovq %rax, %xmm0
; AVX512VLDQ-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX512VLDQ-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX512VLDQ-NEXT: # xmm0 = xmm0[0],mem[0]		; AVX512VLDQ-NEXT: # xmm0 = xmm0[0],mem[0]
; AVX512VLDQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512VLDQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; AVX512VLDQ-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512VLDQ-NEXT: addq $24, %rsp		; AVX512VLDQ-NEXT: addq $24, %rsp
; AVX512VLDQ-NEXT: popq %rbx		; AVX512VLDQ-NEXT: popq %rbx
; AVX512VLDQ-NEXT: popq %r14		; AVX512VLDQ-NEXT: popq %r14
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
%cvt = fptosi <2 x fp128> %a to <2 x i32>		%cvt = fptosi <2 x fp128> %a to <2 x i32>
%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

llvm/trunk/test/CodeGen/X86/vector-compare-results.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,293 Lines • ▼ Show 20 Lines

	define <32 x i1> @test_cmp_v32f64(<32 x double> %a0, <32 x double> %a1) nounwind {			define <32 x i1> @test_cmp_v32f64(<32 x double> %a0, <32 x double> %a1) nounwind {
	; SSE2-LABEL: test_cmp_v32f64:			; SSE2-LABEL: test_cmp_v32f64:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE2-NEXT: cmpltpd %xmm7, %xmm8			; SSE2-NEXT: cmpltpd %xmm7, %xmm8
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm7			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm7
	; SSE2-NEXT: cmpltpd %xmm6, %xmm7			; SSE2-NEXT: cmpltpd %xmm6, %xmm7
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm8[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,2],xmm8[0,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm7[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm7 = xmm7[0],xmm6[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
	; SSE2-NEXT: cmpltpd %xmm5, %xmm6			; SSE2-NEXT: cmpltpd %xmm5, %xmm6
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: cmpltpd %xmm4, %xmm5			; SSE2-NEXT: cmpltpd %xmm4, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,2],xmm6[0,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]
	; SSE2-NEXT: pslld $31, %xmm7			; SSE2-NEXT: pslld $31, %xmm7
	; SSE2-NEXT: psrad $31, %xmm7			; SSE2-NEXT: psrad $31, %xmm7
	; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm7[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm7[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,2,2,3]
	; SSE2-NEXT: pslld $31, %xmm5			; SSE2-NEXT: pslld $31, %xmm5
	; SSE2-NEXT: psrad $31, %xmm5			; SSE2-NEXT: psrad $31, %xmm5
	; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm5[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm5[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm6[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm6[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: cmpltpd %xmm3, %xmm5			; SSE2-NEXT: cmpltpd %xmm3, %xmm5
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
	; SSE2-NEXT: cmpltpd %xmm2, %xmm3			; SSE2-NEXT: cmpltpd %xmm2, %xmm6
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm2			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm5[0,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm3[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm5[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: cmpltpd %xmm1, %xmm5			; SSE2-NEXT: cmpltpd %xmm1, %xmm5
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm1			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm1
	; SSE2-NEXT: cmpltpd %xmm0, %xmm1			; SSE2-NEXT: cmpltpd %xmm0, %xmm1
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: psllw $15, %xmm4			; SSE2-NEXT: psllw $15, %xmm4
	; SSE2-NEXT: psraw $15, %xmm4			; SSE2-NEXT: psraw $15, %xmm4
	; SSE2-NEXT: pslld $31, %xmm6			; SSE2-NEXT: pslld $31, %xmm6
	; SSE2-NEXT: psrad $31, %xmm6			; SSE2-NEXT: psrad $31, %xmm6
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm6[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm6[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,2,2,3]
	; SSE2-NEXT: pslld $31, %xmm1			; SSE2-NEXT: pslld $31, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]
	; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
	; SSE2-NEXT: pand %xmm1, %xmm4			; SSE2-NEXT: pand %xmm1, %xmm4
	; SSE2-NEXT: psllw $15, %xmm0			; SSE2-NEXT: psllw $15, %xmm0
	; SSE2-NEXT: psraw $15, %xmm0			; SSE2-NEXT: psraw $15, %xmm0
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE2-NEXT: pand %xmm1, %xmm0
	; SSE2-NEXT: packuswb %xmm4, %xmm0			; SSE2-NEXT: packuswb %xmm4, %xmm0
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,2],xmm4[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm4[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pslld $31, %xmm5			; SSE2-NEXT: pslld $31, %xmm5
	; SSE2-NEXT: psrad $31, %xmm5			; SSE2-NEXT: psrad $31, %xmm5
	; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
	; SSE2-NEXT: pslld $31, %xmm3			; SSE2-NEXT: pslld $31, %xmm3
	; SSE2-NEXT: psrad $31, %xmm3			; SSE2-NEXT: psrad $31, %xmm3
	; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm5[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm5[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm5[0]
	; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
	; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm2			; SSE2-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm5[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm5[0]
	; SSE2-NEXT: pslld $31, %xmm4			; SSE2-NEXT: pslld $31, %xmm4
	; SSE2-NEXT: psrad $31, %xmm4			; SSE2-NEXT: psrad $31, %xmm4
	; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
	; SSE2-NEXT: pslld $31, %xmm2			; SSE2-NEXT: pslld $31, %xmm2
	; SSE2-NEXT: psrad $31, %xmm2			; SSE2-NEXT: psrad $31, %xmm2
	; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines
	; SSE42-NEXT: pushq %r14			; SSE42-NEXT: pushq %r14
	; SSE42-NEXT: pushq %r13			; SSE42-NEXT: pushq %r13
	; SSE42-NEXT: pushq %r12			; SSE42-NEXT: pushq %r12
	; SSE42-NEXT: pushq %rbx			; SSE42-NEXT: pushq %rbx
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE42-NEXT: cmpltpd %xmm7, %xmm8			; SSE42-NEXT: cmpltpd %xmm7, %xmm8
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm7			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm7
	; SSE42-NEXT: cmpltpd %xmm6, %xmm7			; SSE42-NEXT: cmpltpd %xmm6, %xmm7
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm8[0,1,0,2]			; SSE42-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,2],xmm8[0,2]
	; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm7[0,2,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1,2,3],xmm6[4,5,6,7]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: cmpltpd %xmm5, %xmm6			; SSE42-NEXT: cmpltpd %xmm5, %xmm6
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE42-NEXT: cmpltpd %xmm4, %xmm5			; SSE42-NEXT: cmpltpd %xmm4, %xmm5
	; SSE42-NEXT: pslld $31, %xmm7			; SSE42-NEXT: pslld $31, %xmm7
	; SSE42-NEXT: psrad $31, %xmm7			; SSE42-NEXT: psrad $31, %xmm7
	; SSE42-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,1,0,2]			; SSE42-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,2],xmm6[0,2]
	; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm4[4,5,6,7]
	; SSE42-NEXT: movdqa {{.*#+}} xmm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE42-NEXT: movdqa {{.*#+}} xmm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE42-NEXT: pshufb %xmm4, %xmm7			; SSE42-NEXT: pshufb %xmm4, %xmm7
	; SSE42-NEXT: pslld $31, %xmm5			; SSE42-NEXT: pslld $31, %xmm5
	; SSE42-NEXT: psrad $31, %xmm5			; SSE42-NEXT: psrad $31, %xmm5
	; SSE42-NEXT: pshufb %xmm4, %xmm5			; SSE42-NEXT: pshufb %xmm4, %xmm5
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm7[0]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm7[0]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: cmpltpd %xmm3, %xmm6			; SSE42-NEXT: cmpltpd %xmm3, %xmm6
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm3			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm3
	; SSE42-NEXT: cmpltpd %xmm2, %xmm3			; SSE42-NEXT: cmpltpd %xmm2, %xmm3
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm2			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm2
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm6[0,1,0,2]			; SSE42-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm6[0,2]
	; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm6[4,5,6,7]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: cmpltpd %xmm1, %xmm6			; SSE42-NEXT: cmpltpd %xmm1, %xmm6
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm7
	; SSE42-NEXT: cmpltpd %xmm0, %xmm7
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm1			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm1
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm6[0,1,0,2]			; SSE42-NEXT: cmpltpd %xmm0, %xmm1
	; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,2,2,3]			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm0
	; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm6[4,5,6,7]			; SSE42-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm6[0,2]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: psllw $15, %xmm5			; SSE42-NEXT: psllw $15, %xmm5
	; SSE42-NEXT: psraw $15, %xmm5			; SSE42-NEXT: psraw $15, %xmm5
	; SSE42-NEXT: pslld $31, %xmm3			; SSE42-NEXT: pslld $31, %xmm3
	; SSE42-NEXT: psrad $31, %xmm3			; SSE42-NEXT: psrad $31, %xmm3
	; SSE42-NEXT: pshufb %xmm4, %xmm3			; SSE42-NEXT: pshufb %xmm4, %xmm3
	; SSE42-NEXT: pslld $31, %xmm0			; SSE42-NEXT: pslld $31, %xmm1
	; SSE42-NEXT: psrad $31, %xmm0			; SSE42-NEXT: psrad $31, %xmm1
	; SSE42-NEXT: pshufb %xmm4, %xmm0			; SSE42-NEXT: pshufb %xmm4, %xmm1
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; SSE42-NEXT: movdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; SSE42-NEXT: movdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; SSE42-NEXT: pshufb %xmm3, %xmm5			; SSE42-NEXT: pshufb %xmm3, %xmm5
	; SSE42-NEXT: psllw $15, %xmm0			; SSE42-NEXT: psllw $15, %xmm1
	; SSE42-NEXT: psraw $15, %xmm0			; SSE42-NEXT: psraw $15, %xmm1
	; SSE42-NEXT: pshufb %xmm3, %xmm0			; SSE42-NEXT: pshufb %xmm3, %xmm1
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm5[0]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm5[0]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5			; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5
	; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,1,0,2]
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm6[0,2,2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm5[0,2]
	; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1,2,3],xmm5[4,5,6,7]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5			; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5
	; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,1,0,2]			; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm0
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm1			; SSE42-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,2,2,3]			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm5
	; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm7[4,5,6,7]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm1
	; SSE42-NEXT: pslld $31, %xmm6			; SSE42-NEXT: pslld $31, %xmm6
	; SSE42-NEXT: psrad $31, %xmm6			; SSE42-NEXT: psrad $31, %xmm6
	; SSE42-NEXT: pshufb %xmm4, %xmm6			; SSE42-NEXT: pshufb %xmm4, %xmm6
	; SSE42-NEXT: pslld $31, %xmm5			; SSE42-NEXT: pslld $31, %xmm0
	; SSE42-NEXT: psrad $31, %xmm5			; SSE42-NEXT: psrad $31, %xmm0
	; SSE42-NEXT: pshufb %xmm4, %xmm5			; SSE42-NEXT: pshufb %xmm4, %xmm0
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm6[0]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]
				; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
				; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm6
				; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm5
				; SSE42-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,2],xmm6[0,2]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm6[0,1,0,2]
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm1
	; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,2,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1,2,3],xmm6[4,5,6,7]
	; SSE42-NEXT: movapd {{[0-9]+}}(%rsp), %xmm1
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm1
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,1,0,2]
	; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm2			; SSE42-NEXT: cmpltpd {{[0-9]+}}(%rsp), %xmm2
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm6[0,2]
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm6[4,5,6,7]			; SSE42-NEXT: pslld $31, %xmm5
	; SSE42-NEXT: pslld $31, %xmm7			; SSE42-NEXT: psrad $31, %xmm5
	; SSE42-NEXT: psrad $31, %xmm7			; SSE42-NEXT: pshufb %xmm4, %xmm5
	; SSE42-NEXT: pshufb %xmm4, %xmm7			; SSE42-NEXT: pslld $31, %xmm2
	; SSE42-NEXT: pslld $31, %xmm1			; SSE42-NEXT: psrad $31, %xmm2
	; SSE42-NEXT: psrad $31, %xmm1			; SSE42-NEXT: pshufb %xmm4, %xmm2
	; SSE42-NEXT: pshufb %xmm4, %xmm1			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm5[0]
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm7[0]			; SSE42-NEXT: psllw $15, %xmm0
	; SSE42-NEXT: psllw $15, %xmm5			; SSE42-NEXT: psraw $15, %xmm0
	; SSE42-NEXT: psraw $15, %xmm5			; SSE42-NEXT: pshufb %xmm3, %xmm0
	; SSE42-NEXT: pshufb %xmm3, %xmm5			; SSE42-NEXT: psllw $15, %xmm2
	; SSE42-NEXT: psllw $15, %xmm1			; SSE42-NEXT: psraw $15, %xmm2
	; SSE42-NEXT: psraw $15, %xmm1			; SSE42-NEXT: pshufb %xmm3, %xmm2
	; SSE42-NEXT: pshufb %xmm3, %xmm1			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm5[0]			; SSE42-NEXT: pextrb $15, %xmm2, %eax
	; SSE42-NEXT: pextrb $15, %xmm1, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $14, %xmm1, %eax			; SSE42-NEXT: pextrb $14, %xmm2, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $13, %xmm1, %r8d			; SSE42-NEXT: pextrb $13, %xmm2, %r8d
	; SSE42-NEXT: pextrb $12, %xmm1, %r9d			; SSE42-NEXT: pextrb $12, %xmm2, %r9d
	; SSE42-NEXT: pextrb $11, %xmm1, %r10d			; SSE42-NEXT: pextrb $11, %xmm2, %r10d
	; SSE42-NEXT: pextrb $10, %xmm1, %r11d			; SSE42-NEXT: pextrb $10, %xmm2, %r11d
	; SSE42-NEXT: pextrb $9, %xmm1, %r14d			; SSE42-NEXT: pextrb $9, %xmm2, %r14d
	; SSE42-NEXT: pextrb $8, %xmm1, %r15d			; SSE42-NEXT: pextrb $8, %xmm2, %r15d
	; SSE42-NEXT: pextrb $7, %xmm1, %r12d			; SSE42-NEXT: pextrb $7, %xmm2, %r12d
	; SSE42-NEXT: pextrb $6, %xmm1, %r13d			; SSE42-NEXT: pextrb $6, %xmm2, %r13d
	; SSE42-NEXT: pextrb $5, %xmm1, %ebx			; SSE42-NEXT: pextrb $5, %xmm2, %ebx
	; SSE42-NEXT: pextrb $4, %xmm1, %ebp			; SSE42-NEXT: pextrb $4, %xmm2, %ebp
	; SSE42-NEXT: pextrb $3, %xmm1, %eax			; SSE42-NEXT: pextrb $3, %xmm2, %eax
	; SSE42-NEXT: pextrb $2, %xmm1, %ecx			; SSE42-NEXT: pextrb $2, %xmm2, %ecx
	; SSE42-NEXT: pextrb $1, %xmm1, %edx			; SSE42-NEXT: pextrb $1, %xmm2, %edx
	; SSE42-NEXT: pextrb $0, %xmm1, %esi			; SSE42-NEXT: pextrb $0, %xmm2, %esi
	; SSE42-NEXT: andb $1, %r8b			; SSE42-NEXT: andb $1, %r8b
	; SSE42-NEXT: movb %r8b, 2(%rdi)			; SSE42-NEXT: movb %r8b, 2(%rdi)
	; SSE42-NEXT: andb $1, %r9b			; SSE42-NEXT: andb $1, %r9b
	; SSE42-NEXT: movb %r9b, 2(%rdi)			; SSE42-NEXT: movb %r9b, 2(%rdi)
	; SSE42-NEXT: andb $1, %r10b			; SSE42-NEXT: andb $1, %r10b
	; SSE42-NEXT: movb %r10b, 2(%rdi)			; SSE42-NEXT: movb %r10b, 2(%rdi)
	; SSE42-NEXT: andb $1, %r11b			; SSE42-NEXT: andb $1, %r11b
	; SSE42-NEXT: movb %r11b, 2(%rdi)			; SSE42-NEXT: movb %r11b, 2(%rdi)
	Show All 12 Lines
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: andb $1, %cl			; SSE42-NEXT: andb $1, %cl
	; SSE42-NEXT: movb %cl, 2(%rdi)			; SSE42-NEXT: movb %cl, 2(%rdi)
	; SSE42-NEXT: andb $1, %dl			; SSE42-NEXT: andb $1, %dl
	; SSE42-NEXT: movb %dl, 2(%rdi)			; SSE42-NEXT: movb %dl, 2(%rdi)
	; SSE42-NEXT: andb $1, %sil			; SSE42-NEXT: andb $1, %sil
	; SSE42-NEXT: movb %sil, 2(%rdi)			; SSE42-NEXT: movb %sil, 2(%rdi)
	; SSE42-NEXT: pextrb $15, %xmm0, %eax			; SSE42-NEXT: pextrb $15, %xmm1, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, (%rdi)			; SSE42-NEXT: movb %al, (%rdi)
	; SSE42-NEXT: pextrb $14, %xmm0, %eax			; SSE42-NEXT: pextrb $14, %xmm1, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, (%rdi)			; SSE42-NEXT: movb %al, (%rdi)
	; SSE42-NEXT: pextrb $13, %xmm0, %r8d			; SSE42-NEXT: pextrb $13, %xmm1, %r8d
	; SSE42-NEXT: pextrb $12, %xmm0, %r9d			; SSE42-NEXT: pextrb $12, %xmm1, %r9d
	; SSE42-NEXT: pextrb $11, %xmm0, %r10d			; SSE42-NEXT: pextrb $11, %xmm1, %r10d
	; SSE42-NEXT: pextrb $10, %xmm0, %r11d			; SSE42-NEXT: pextrb $10, %xmm1, %r11d
	; SSE42-NEXT: pextrb $9, %xmm0, %r14d			; SSE42-NEXT: pextrb $9, %xmm1, %r14d
	; SSE42-NEXT: pextrb $8, %xmm0, %r15d			; SSE42-NEXT: pextrb $8, %xmm1, %r15d
	; SSE42-NEXT: pextrb $7, %xmm0, %r12d			; SSE42-NEXT: pextrb $7, %xmm1, %r12d
	; SSE42-NEXT: pextrb $6, %xmm0, %r13d			; SSE42-NEXT: pextrb $6, %xmm1, %r13d
	; SSE42-NEXT: pextrb $5, %xmm0, %ebx			; SSE42-NEXT: pextrb $5, %xmm1, %ebx
	; SSE42-NEXT: pextrb $4, %xmm0, %ebp			; SSE42-NEXT: pextrb $4, %xmm1, %ebp
	; SSE42-NEXT: pextrb $3, %xmm0, %eax			; SSE42-NEXT: pextrb $3, %xmm1, %eax
	; SSE42-NEXT: pextrb $2, %xmm0, %ecx			; SSE42-NEXT: pextrb $2, %xmm1, %ecx
	; SSE42-NEXT: pextrb $1, %xmm0, %edx			; SSE42-NEXT: pextrb $1, %xmm1, %edx
	; SSE42-NEXT: pextrb $0, %xmm0, %esi			; SSE42-NEXT: pextrb $0, %xmm1, %esi
	; SSE42-NEXT: andb $1, %r8b			; SSE42-NEXT: andb $1, %r8b
	; SSE42-NEXT: movb %r8b, (%rdi)			; SSE42-NEXT: movb %r8b, (%rdi)
	; SSE42-NEXT: andb $1, %r9b			; SSE42-NEXT: andb $1, %r9b
	; SSE42-NEXT: movb %r9b, (%rdi)			; SSE42-NEXT: movb %r9b, (%rdi)
	; SSE42-NEXT: andb $1, %r10b			; SSE42-NEXT: andb $1, %r10b
	; SSE42-NEXT: movb %r10b, (%rdi)			; SSE42-NEXT: movb %r10b, (%rdi)
	; SSE42-NEXT: andb $1, %r11b			; SSE42-NEXT: andb $1, %r11b
	; SSE42-NEXT: movb %r11b, (%rdi)			; SSE42-NEXT: movb %r11b, (%rdi)
	▲ Show 20 Lines • Show All 350 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,0,2147483648,0]			; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,0,2147483648,0]
	; SSE2-NEXT: pxor %xmm8, %xmm7			; SSE2-NEXT: pxor %xmm8, %xmm7
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9
	; SSE2-NEXT: pxor %xmm8, %xmm9			; SSE2-NEXT: pxor %xmm8, %xmm9
	; SSE2-NEXT: movdqa %xmm7, %xmm10			; SSE2-NEXT: movdqa %xmm7, %xmm10
	; SSE2-NEXT: pcmpgtd %xmm9, %xmm10			; SSE2-NEXT: pcmpgtd %xmm9, %xmm10
	; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm7, %xmm9			; SSE2-NEXT: pcmpeqd %xmm7, %xmm9
	; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm9[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm9[1,1,3,3]
	; SSE2-NEXT: pand %xmm11, %xmm9			; SSE2-NEXT: pand %xmm11, %xmm7
	; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm10[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm10[1,1,3,3]
	; SSE2-NEXT: por %xmm9, %xmm7			; SSE2-NEXT: por %xmm7, %xmm9
	; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm7[0,2,2,3]
	; SSE2-NEXT: pxor %xmm8, %xmm6			; SSE2-NEXT: pxor %xmm8, %xmm6
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm7			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm7
	; SSE2-NEXT: pxor %xmm8, %xmm7			; SSE2-NEXT: pxor %xmm8, %xmm7
	; SSE2-NEXT: movdqa %xmm6, %xmm10			; SSE2-NEXT: movdqa %xmm6, %xmm10
	; SSE2-NEXT: pcmpgtd %xmm7, %xmm10			; SSE2-NEXT: pcmpgtd %xmm7, %xmm10
	; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm6, %xmm7			; SSE2-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]
	; SSE2-NEXT: pand %xmm11, %xmm6			; SSE2-NEXT: pand %xmm11, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm10[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm10[1,1,3,3]
	; SSE2-NEXT: por %xmm6, %xmm7			; SSE2-NEXT: por %xmm6, %xmm7
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,2],xmm9[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm9[0]			; SSE2-NEXT: pslld $31, %xmm7
	; SSE2-NEXT: pslld $31, %xmm6			; SSE2-NEXT: psrad $31, %xmm7
	; SSE2-NEXT: psrad $31, %xmm6			; SSE2-NEXT: pshuflw {{.*#+}} xmm6 = xmm7[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm6 = xmm6[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm6[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm6[0,2,2,3]
	; SSE2-NEXT: pxor %xmm8, %xmm5			; SSE2-NEXT: pxor %xmm8, %xmm5
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm7			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm7
	; SSE2-NEXT: pxor %xmm8, %xmm7			; SSE2-NEXT: pxor %xmm8, %xmm7
	; SSE2-NEXT: movdqa %xmm5, %xmm6			; SSE2-NEXT: movdqa %xmm5, %xmm6
	; SSE2-NEXT: pcmpgtd %xmm7, %xmm6			; SSE2-NEXT: pcmpgtd %xmm7, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm6[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm6[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm5, %xmm7			; SSE2-NEXT: pcmpeqd %xmm5, %xmm7
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
	; SSE2-NEXT: pand %xmm10, %xmm5			; SSE2-NEXT: pand %xmm10, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
	; SSE2-NEXT: por %xmm5, %xmm6			; SSE2-NEXT: por %xmm5, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm6[0,2,2,3]
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm6			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: pxor %xmm8, %xmm6			; SSE2-NEXT: pxor %xmm8, %xmm5
	; SSE2-NEXT: movdqa %xmm4, %xmm7			; SSE2-NEXT: movdqa %xmm4, %xmm7
	; SSE2-NEXT: pcmpgtd %xmm6, %xmm7			; SSE2-NEXT: pcmpgtd %xmm5, %xmm7
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm7[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm4, %xmm6			; SSE2-NEXT: pcmpeqd %xmm4, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm6[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm4			; SSE2-NEXT: pand %xmm10, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
	; SSE2-NEXT: por %xmm4, %xmm5			; SSE2-NEXT: por %xmm4, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,2],xmm6[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm10[0]			; SSE2-NEXT: pslld $31, %xmm5
	; SSE2-NEXT: pslld $31, %xmm4			; SSE2-NEXT: psrad $31, %xmm5
	; SSE2-NEXT: psrad $31, %xmm4			; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm5[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm9[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm9[0]
	; SSE2-NEXT: psllw $15, %xmm5			; SSE2-NEXT: psllw $15, %xmm5
	; SSE2-NEXT: psraw $15, %xmm5			; SSE2-NEXT: psraw $15, %xmm5
	; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [255,255,255,255,255,255,255,255]
	; SSE2-NEXT: pand %xmm9, %xmm5			; SSE2-NEXT: pand %xmm9, %xmm5
	; SSE2-NEXT: pxor %xmm8, %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm6			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm6
	; SSE2-NEXT: pxor %xmm8, %xmm6			; SSE2-NEXT: pxor %xmm8, %xmm6
	; SSE2-NEXT: movdqa %xmm3, %xmm7			; SSE2-NEXT: movdqa %xmm3, %xmm7
	; SSE2-NEXT: pcmpgtd %xmm6, %xmm7			; SSE2-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm3, %xmm6			; SSE2-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,1,3,3]
	; SSE2-NEXT: pand %xmm4, %xmm3			; SSE2-NEXT: pand %xmm4, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[1,1,3,3]
	; SSE2-NEXT: por %xmm3, %xmm4			; SSE2-NEXT: por %xmm3, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
	; SSE2-NEXT: pxor %xmm8, %xmm2			; SSE2-NEXT: pxor %xmm8, %xmm2
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa %xmm2, %xmm6			; SSE2-NEXT: movdqa %xmm2, %xmm6
	; SSE2-NEXT: pcmpgtd %xmm4, %xmm6			; SSE2-NEXT: pcmpgtd %xmm3, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm4			; SSE2-NEXT: pcmpeqd %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
	; SSE2-NEXT: pand %xmm7, %xmm2			; SSE2-NEXT: pand %xmm7, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm6[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,1,3,3]
	; SSE2-NEXT: por %xmm2, %xmm4			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; SSE2-NEXT: pslld $31, %xmm3
	; SSE2-NEXT: pslld $31, %xmm2			; SSE2-NEXT: psrad $31, %xmm3
	; SSE2-NEXT: psrad $31, %xmm2			; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm3[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; SSE2-NEXT: pxor %xmm8, %xmm1			; SSE2-NEXT: pxor %xmm8, %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pxor %xmm8, %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa %xmm1, %xmm4			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm4			; SSE2-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm1, %xmm3			; SSE2-NEXT: pcmpeqd %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm1			; SSE2-NEXT: pand %xmm6, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm1, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,2,2,3]
	; SSE2-NEXT: pxor %xmm8, %xmm0			; SSE2-NEXT: pxor %xmm8, %xmm0
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1
	; SSE2-NEXT: pxor %xmm8, %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm4			; SSE2-NEXT: movdqa %xmm0, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm4			; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm0, %xmm3			; SSE2-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm0			; SSE2-NEXT: pand %xmm6, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm0, %xmm3			; SSE2-NEXT: por %xmm0, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: pslld $31, %xmm1
	; SSE2-NEXT: pslld $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: psllw $15, %xmm0			; SSE2-NEXT: psllw $15, %xmm0
	; SSE2-NEXT: psraw $15, %xmm0			; SSE2-NEXT: psraw $15, %xmm0
	; SSE2-NEXT: pand %xmm9, %xmm0			; SSE2-NEXT: pand %xmm9, %xmm0
	; SSE2-NEXT: packuswb %xmm5, %xmm0			; SSE2-NEXT: packuswb %xmm5, %xmm0
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1
	; SSE2-NEXT: pxor %xmm8, %xmm1			; SSE2-NEXT: pxor %xmm8, %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2
	; SSE2-NEXT: pxor %xmm8, %xmm2			; SSE2-NEXT: pxor %xmm8, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm3			; SSE2-NEXT: movdqa %xmm2, %xmm3
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm3			; SSE2-NEXT: pcmpgtd %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm1, %xmm2			; SSE2-NEXT: pcmpeqd %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE2-NEXT: pand %xmm4, %xmm1			; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
	; SSE2-NEXT: por %xmm1, %xmm2			; SSE2-NEXT: por %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2			; SSE2-NEXT: pxor %xmm8, %xmm1
	; SSE2-NEXT: pxor %xmm8, %xmm2
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pxor %xmm8, %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa %xmm3, %xmm4			; SSE2-NEXT: movdqa %xmm3, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm2, %xmm4			; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm3			; SSE2-NEXT: pcmpeqd %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm2[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]			; SSE2-NEXT: pslld $31, %xmm3
	; SSE2-NEXT: pslld $31, %xmm2			; SSE2-NEXT: psrad $31, %xmm3
	; SSE2-NEXT: psrad $31, %xmm2			; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm3[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm2[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,2,2,3]
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1
	; SSE2-NEXT: pxor %xmm8, %xmm1			; SSE2-NEXT: pxor %xmm8, %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pxor %xmm8, %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa %xmm3, %xmm4			; SSE2-NEXT: movdqa %xmm3, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm4			; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm1, %xmm3			; SSE2-NEXT: pcmpeqd %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm1			; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm1, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,2,2,3]			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm1
	; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm5			; SSE2-NEXT: movdqa %xmm4, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm5			; SSE2-NEXT: pcmpgtd %xmm1, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm3, %xmm4			; SSE2-NEXT: pcmpeqd %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm3			; SSE2-NEXT: pand %xmm6, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
	; SSE2-NEXT: por %xmm3, %xmm4			; SSE2-NEXT: por %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm3[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm1[0]			; SSE2-NEXT: pslld $31, %xmm4
	; SSE2-NEXT: pslld $31, %xmm3			; SSE2-NEXT: psrad $31, %xmm4
	; SSE2-NEXT: psrad $31, %xmm3			; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm4[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm3[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: psllw $15, %xmm1			; SSE2-NEXT: psllw $15, %xmm1
	; SSE2-NEXT: psraw $15, %xmm1			; SSE2-NEXT: psraw $15, %xmm1
	; SSE2-NEXT: pand %xmm9, %xmm1			; SSE2-NEXT: pand %xmm9, %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2
	; SSE2-NEXT: pxor %xmm8, %xmm2			; SSE2-NEXT: pxor %xmm8, %xmm2
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pxor %xmm8, %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa %xmm3, %xmm4			; SSE2-NEXT: movdqa %xmm3, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm2, %xmm4			; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm3			; SSE2-NEXT: pcmpeqd %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE2-NEXT: pand %xmm5, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm2
	; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm5			; SSE2-NEXT: movdqa %xmm4, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm5			; SSE2-NEXT: pcmpgtd %xmm2, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm3, %xmm4			; SSE2-NEXT: pcmpeqd %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm3			; SSE2-NEXT: pand %xmm6, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
	; SSE2-NEXT: por %xmm3, %xmm4			; SSE2-NEXT: por %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm3[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm2[0]			; SSE2-NEXT: pslld $31, %xmm4
	; SSE2-NEXT: pslld $31, %xmm3			; SSE2-NEXT: psrad $31, %xmm4
	; SSE2-NEXT: psrad $31, %xmm3			; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm4[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm3[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: pxor %xmm8, %xmm3			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm5			; SSE2-NEXT: movdqa %xmm4, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm5			; SSE2-NEXT: pcmpgtd %xmm3, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm3, %xmm4			; SSE2-NEXT: pcmpeqd %xmm3, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm3			; SSE2-NEXT: pand %xmm6, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
	; SSE2-NEXT: por %xmm3, %xmm4			; SSE2-NEXT: por %xmm3, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]			; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm3
	; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: pxor {{[0-9]+}}(%rsp), %xmm8			; SSE2-NEXT: pxor {{[0-9]+}}(%rsp), %xmm8
	; SSE2-NEXT: movdqa %xmm8, %xmm5			; SSE2-NEXT: movdqa %xmm8, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm4, %xmm5			; SSE2-NEXT: pcmpgtd %xmm3, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm4, %xmm8			; SSE2-NEXT: pcmpeqd %xmm3, %xmm8
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm8[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm4			; SSE2-NEXT: pand %xmm6, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: por %xmm4, %xmm5			; SSE2-NEXT: por %xmm3, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,2,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,2],xmm4[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]			; SSE2-NEXT: pslld $31, %xmm5
	; SSE2-NEXT: pslld $31, %xmm4			; SSE2-NEXT: psrad $31, %xmm5
	; SSE2-NEXT: psrad $31, %xmm4			; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm5[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm4[0,2,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,6,6,7]			; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,6,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm2[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm2[0]
	; SSE2-NEXT: psllw $15, %xmm3			; SSE2-NEXT: psllw $15, %xmm3
	; SSE2-NEXT: psraw $15, %xmm3			; SSE2-NEXT: psraw $15, %xmm3
	; SSE2-NEXT: pand %xmm9, %xmm3			; SSE2-NEXT: pand %xmm9, %xmm3
	; SSE2-NEXT: packuswb %xmm1, %xmm3			; SSE2-NEXT: packuswb %xmm1, %xmm3
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i64:			; SSE42-LABEL: test_cmp_v32i64:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: movdqa %xmm0, %xmm8			; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11			; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm11
				; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm10
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm12			; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm12
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm13			; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm9
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm14			; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm14
				; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm13
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm15			; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm15
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm7			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm7
	; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm7[0,1,0,2]
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm6			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm6
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm6[0,2,2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm7[0,2]
	; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1,2,3],xmm7[4,5,6,7]
	; SSE42-NEXT: pslld $31, %xmm6			; SSE42-NEXT: pslld $31, %xmm6
	; SSE42-NEXT: psrad $31, %xmm6			; SSE42-NEXT: psrad $31, %xmm6
	; SSE42-NEXT: movdqa {{.*#+}} xmm7 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE42-NEXT: movdqa {{.*#+}} xmm7 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE42-NEXT: pshufb %xmm7, %xmm6			; SSE42-NEXT: pshufb %xmm7, %xmm6
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm5			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm5
	; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,1,0,2]
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm4			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm4
	; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,2,2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm0[4,5,6,7]			; SSE42-NEXT: pslld $31, %xmm4
	; SSE42-NEXT: pslld $31, %xmm5			; SSE42-NEXT: psrad $31, %xmm4
	; SSE42-NEXT: psrad $31, %xmm5			; SSE42-NEXT: pshufb %xmm7, %xmm4
	; SSE42-NEXT: pshufb %xmm7, %xmm5			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm6[0]
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm6[0]			; SSE42-NEXT: psllw $15, %xmm4
	; SSE42-NEXT: psllw $15, %xmm5			; SSE42-NEXT: psraw $15, %xmm4
	; SSE42-NEXT: psraw $15, %xmm5			; SSE42-NEXT: movdqa {{.*#+}} xmm5 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; SSE42-NEXT: movdqa {{.*#+}} xmm4 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; SSE42-NEXT: pshufb %xmm5, %xmm4
	; SSE42-NEXT: pshufb %xmm4, %xmm5
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm3			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm3
	; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,1,0,2]
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm2			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm2
	; SSE42-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
	; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]
	; SSE42-NEXT: pslld $31, %xmm2			; SSE42-NEXT: pslld $31, %xmm2
	; SSE42-NEXT: psrad $31, %xmm2			; SSE42-NEXT: psrad $31, %xmm2
	; SSE42-NEXT: pshufb %xmm7, %xmm2			; SSE42-NEXT: pshufb %xmm7, %xmm2
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm1			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm1
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm0
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm8			; SSE42-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm8[0,2,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE42-NEXT: pslld $31, %xmm0			; SSE42-NEXT: pslld $31, %xmm0
	; SSE42-NEXT: psrad $31, %xmm0			; SSE42-NEXT: psrad $31, %xmm0
	; SSE42-NEXT: pshufb %xmm7, %xmm0			; SSE42-NEXT: pshufb %xmm7, %xmm0
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE42-NEXT: psllw $15, %xmm0			; SSE42-NEXT: psllw $15, %xmm0
	; SSE42-NEXT: psraw $15, %xmm0			; SSE42-NEXT: psraw $15, %xmm0
	; SSE42-NEXT: pshufb %xmm4, %xmm0			; SSE42-NEXT: pshufb %xmm5, %xmm0
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm5[0]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm15			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm15
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm15[0,1,0,2]
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm14
	; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm14[0,2,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm1[4,5,6,7]
	; SSE42-NEXT: pslld $31, %xmm3
	; SSE42-NEXT: psrad $31, %xmm3
	; SSE42-NEXT: pshufb %xmm7, %xmm3
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm13			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm13
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm13[0,1,0,2]			; SSE42-NEXT: shufps {{.*#+}} xmm13 = xmm13[0,2],xmm15[0,2]
				; SSE42-NEXT: pslld $31, %xmm13
				; SSE42-NEXT: psrad $31, %xmm13
				; SSE42-NEXT: pshufb %xmm7, %xmm13
				; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm14
				; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm9
				; SSE42-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,2],xmm14[0,2]
				; SSE42-NEXT: pslld $31, %xmm9
				; SSE42-NEXT: psrad $31, %xmm9
				; SSE42-NEXT: pshufb %xmm7, %xmm9
				; SSE42-NEXT: punpcklqdq {{.*#+}} xmm9 = xmm9[0],xmm13[0]
				; SSE42-NEXT: psllw $15, %xmm9
				; SSE42-NEXT: psraw $15, %xmm9
				; SSE42-NEXT: pshufb %xmm5, %xmm9
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm12			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm12
	; SSE42-NEXT: pshufd {{.*#+}} xmm2 = xmm12[0,2,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; SSE42-NEXT: pslld $31, %xmm2
	; SSE42-NEXT: psrad $31, %xmm2
	; SSE42-NEXT: pshufb %xmm7, %xmm2
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; SSE42-NEXT: psllw $15, %xmm2
	; SSE42-NEXT: psraw $15, %xmm2
	; SSE42-NEXT: pshufb %xmm4, %xmm2
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm11
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm11[0,1,0,2]
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm10			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm10
	; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm10[0,2,2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm10 = xmm10[0,2],xmm12[0,2]
	; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm1[4,5,6,7]			; SSE42-NEXT: pslld $31, %xmm10
	; SSE42-NEXT: pslld $31, %xmm3			; SSE42-NEXT: psrad $31, %xmm10
	; SSE42-NEXT: psrad $31, %xmm3			; SSE42-NEXT: pshufb %xmm7, %xmm10
	; SSE42-NEXT: pshufb %xmm7, %xmm3			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm11
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm9			; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm8
	; SSE42-NEXT: pshufd {{.*#+}} xmm5 = xmm9[0,1,0,2]			; SSE42-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,2],xmm11[0,2]
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1			; SSE42-NEXT: pslld $31, %xmm8
	; SSE42-NEXT: pcmpgtq {{[0-9]+}}(%rsp), %xmm1			; SSE42-NEXT: psrad $31, %xmm8
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE42-NEXT: pshufb %xmm7, %xmm8
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm5[4,5,6,7]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm8 = xmm8[0],xmm10[0]
	; SSE42-NEXT: pslld $31, %xmm1			; SSE42-NEXT: psllw $15, %xmm8
	; SSE42-NEXT: psrad $31, %xmm1			; SSE42-NEXT: psraw $15, %xmm8
	; SSE42-NEXT: pshufb %xmm7, %xmm1			; SSE42-NEXT: pshufb %xmm5, %xmm8
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]			; SSE42-NEXT: punpcklqdq {{.*#+}} xmm8 = xmm8[0],xmm9[0]
	; SSE42-NEXT: psllw $15, %xmm1			; SSE42-NEXT: pextrb $15, %xmm8, %eax
	; SSE42-NEXT: psraw $15, %xmm1
	; SSE42-NEXT: pshufb %xmm4, %xmm1
	; SSE42-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE42-NEXT: pextrb $15, %xmm1, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $14, %xmm1, %eax			; SSE42-NEXT: pextrb $14, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $13, %xmm1, %eax			; SSE42-NEXT: pextrb $13, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $12, %xmm1, %eax			; SSE42-NEXT: pextrb $12, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $11, %xmm1, %eax			; SSE42-NEXT: pextrb $11, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $10, %xmm1, %eax			; SSE42-NEXT: pextrb $10, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $9, %xmm1, %eax			; SSE42-NEXT: pextrb $9, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $8, %xmm1, %eax			; SSE42-NEXT: pextrb $8, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $7, %xmm1, %eax			; SSE42-NEXT: pextrb $7, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $6, %xmm1, %eax			; SSE42-NEXT: pextrb $6, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $5, %xmm1, %eax			; SSE42-NEXT: pextrb $5, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $4, %xmm1, %eax			; SSE42-NEXT: pextrb $4, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $3, %xmm1, %eax			; SSE42-NEXT: pextrb $3, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $2, %xmm1, %eax			; SSE42-NEXT: pextrb $2, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $1, %xmm1, %eax			; SSE42-NEXT: pextrb $1, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $0, %xmm1, %eax			; SSE42-NEXT: pextrb $0, %xmm8, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, 2(%rdi)			; SSE42-NEXT: movb %al, 2(%rdi)
	; SSE42-NEXT: pextrb $15, %xmm0, %eax			; SSE42-NEXT: pextrb $15, %xmm0, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, (%rdi)			; SSE42-NEXT: movb %al, (%rdi)
	; SSE42-NEXT: pextrb $14, %xmm0, %eax			; SSE42-NEXT: pextrb $14, %xmm0, %eax
	; SSE42-NEXT: andb $1, %al			; SSE42-NEXT: andb $1, %al
	; SSE42-NEXT: movb %al, (%rdi)			; SSE42-NEXT: movb %al, (%rdi)
	▲ Show 20 Lines • Show All 402 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v4.ll

	Show First 20 Lines • Show All 2,201 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: insert_mem_lo_v4i32:			; AVX512VL-LABEL: insert_mem_lo_v4i32:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero			; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero
	; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[2,3]
	; AVX512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%a = load <2 x i32>, <2 x i32>* %ptr			%a = load <2 x i32>, <2 x i32>* %ptr
	%v = shufflevector <2 x i32> %a, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>			%v = shufflevector <2 x i32> %a, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
	%shuffle = shufflevector <4 x i32> %v, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 7>			%shuffle = shufflevector <4 x i32> %v, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 7>
	ret <4 x i32> %shuffle			ret <4 x i32> %shuffle
	}			}

	define <4 x i32> @insert_reg_hi_v4i32(i64 %a, <4 x i32> %b) {			define <4 x i32> @insert_reg_hi_v4i32(i64 %a, <4 x i32> %b) {
	Show All 25 Lines
	; AVX1OR2: # BB#0:			; AVX1OR2: # BB#0:
	; AVX1OR2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX1OR2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX1OR2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1OR2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512VL-LABEL: insert_mem_hi_v4i32:			; AVX512VL-LABEL: insert_mem_hi_v4i32:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero			; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero
	; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
	; AVX512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%a = load <2 x i32>, <2 x i32>* %ptr			%a = load <2 x i32>, <2 x i32>* %ptr
	%v = shufflevector <2 x i32> %a, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>			%v = shufflevector <2 x i32> %a, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
	%shuffle = shufflevector <4 x i32> %v, <4 x i32> %b, <4 x i32> <i32 4, i32 5, i32 0, i32 1>			%shuffle = shufflevector <4 x i32> %v, <4 x i32> %b, <4 x i32> <i32 4, i32 5, i32 0, i32 1>
	ret <4 x i32> %shuffle			ret <4 x i32> %shuffle
	}			}

	define <4 x float> @insert_reg_lo_v4f32(double %a, <4 x float> %b) {			define <4 x float> @insert_reg_lo_v4f32(double %a, <4 x float> %b) {
	▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining.ll

	Show First 20 Lines • Show All 511 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 5, i32 2, i32 7>			%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 5, i32 2, i32 7>
	%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 5, i32 2, i32 7>			%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 5, i32 2, i32 7>
	%xor = xor <4 x i32> %shuf1, %shuf2			%xor = xor <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %xor			ret <4 x i32> %xor
	}			}

	define <4 x i32> @combine_bitwise_ops_test1c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @combine_bitwise_ops_test1c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; SSE2-LABEL: combine_bitwise_ops_test1c:			; SSE-LABEL: combine_bitwise_ops_test1c:
	; SSE2: # BB#0:			; SSE: # BB#0:
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: andps %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[1,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,3,2,3]			; SSE-NEXT: retq
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: combine_bitwise_ops_test1c:
	; SSSE3: # BB#0:
	; SSSE3-NEXT: pand %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,3,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: combine_bitwise_ops_test1c:
	; SSE41: # BB#0:
	; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; SSE41-NEXT: retq
	;
	; AVX1-LABEL: combine_bitwise_ops_test1c:
	; AVX1: # BB#0:
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_bitwise_ops_test1c:			; AVX-LABEL: combine_bitwise_ops_test1c:
	; AVX2: # BB#0:			; AVX: # BB#0:
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]			; AVX-NEXT: retq
	; AVX2-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %a, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf1 = shufflevector <4 x i32> %a, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%shuf2 = shufflevector <4 x i32> %b, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf2 = shufflevector <4 x i32> %b, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%and = and <4 x i32> %shuf1, %shuf2			%and = and <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %and			ret <4 x i32> %and
	}			}

	define <4 x i32> @combine_bitwise_ops_test2c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @combine_bitwise_ops_test2c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; SSE2-LABEL: combine_bitwise_ops_test2c:			; SSE-LABEL: combine_bitwise_ops_test2c:
	; SSE2: # BB#0:			; SSE: # BB#0:
	; SSE2-NEXT: por %xmm1, %xmm0			; SSE-NEXT: orps %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[1,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,3,2,3]			; SSE-NEXT: retq
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: combine_bitwise_ops_test2c:
	; SSSE3: # BB#0:
	; SSSE3-NEXT: por %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,3,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: combine_bitwise_ops_test2c:
	; SSE41: # BB#0:
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; SSE41-NEXT: retq
	;
	; AVX1-LABEL: combine_bitwise_ops_test2c:
	; AVX1: # BB#0:
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_bitwise_ops_test2c:			; AVX-LABEL: combine_bitwise_ops_test2c:
	; AVX2: # BB#0:			; AVX: # BB#0:
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]			; AVX-NEXT: retq
	; AVX2-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %a, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf1 = shufflevector <4 x i32> %a, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%shuf2 = shufflevector <4 x i32> %b, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf2 = shufflevector <4 x i32> %b, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%or = or <4 x i32> %shuf1, %shuf2			%or = or <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %or			ret <4 x i32> %or
	}			}

	define <4 x i32> @combine_bitwise_ops_test3c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @combine_bitwise_ops_test3c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; SSE2-LABEL: combine_bitwise_ops_test3c:			; SSE2-LABEL: combine_bitwise_ops_test3c:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pxor %xmm1, %xmm0			; SSE2-NEXT: xorps %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: combine_bitwise_ops_test3c:			; SSSE3-LABEL: combine_bitwise_ops_test3c:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pxor %xmm1, %xmm0			; SSSE3-NEXT: xorps %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]			; SSSE3-NEXT: xorps %xmm1, %xmm1
	; SSSE3-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: combine_bitwise_ops_test3c:			; SSE41-LABEL: combine_bitwise_ops_test3c:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: xorps %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; SSE41-NEXT: movq {{.*#+}} xmm0 = xmm0[0],zero
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: combine_bitwise_ops_test3c:			; AVX-LABEL: combine_bitwise_ops_test3c:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %a, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf1 = shufflevector <4 x i32> %a, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%shuf2 = shufflevector <4 x i32> %b, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf2 = shufflevector <4 x i32> %b, <4 x i32> %c, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%xor = xor <4 x i32> %shuf1, %shuf2			%xor = xor <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %xor			ret <4 x i32> %xor
	}			}

	define <4 x i32> @combine_bitwise_ops_test4c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @combine_bitwise_ops_test4c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; SSE2-LABEL: combine_bitwise_ops_test4c:			; SSE-LABEL: combine_bitwise_ops_test4c:
	; SSE2: # BB#0:			; SSE: # BB#0:
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: andps %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm0[1,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: retq
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: combine_bitwise_ops_test4c:
	; SSSE3: # BB#0:
	; SSSE3-NEXT: pand %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: combine_bitwise_ops_test4c:
	; SSE41: # BB#0:
	; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3],xmm2[4,5],xmm0[6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; SSE41-NEXT: retq
	;
	; AVX1-LABEL: combine_bitwise_ops_test4c:
	; AVX1: # BB#0:
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3],xmm2[4,5],xmm0[6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_bitwise_ops_test4c:			; AVX-LABEL: combine_bitwise_ops_test4c:
	; AVX2: # BB#0:			; AVX: # BB#0:
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm2[0],xmm0[1],xmm2[2],xmm0[3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm2[0,2],xmm0[1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]			; AVX-NEXT: retq
	; AVX2-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%and = and <4 x i32> %shuf1, %shuf2			%and = and <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %and			ret <4 x i32> %and
	}			}

	define <4 x i32> @combine_bitwise_ops_test5c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @combine_bitwise_ops_test5c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; SSE2-LABEL: combine_bitwise_ops_test5c:			; SSE-LABEL: combine_bitwise_ops_test5c:
	; SSE2: # BB#0:			; SSE: # BB#0:
	; SSE2-NEXT: por %xmm1, %xmm0			; SSE-NEXT: orps %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm0[1,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: retq
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: combine_bitwise_ops_test5c:
	; SSSE3: # BB#0:
	; SSSE3-NEXT: por %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: combine_bitwise_ops_test5c:
	; SSE41: # BB#0:
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3],xmm2[4,5],xmm0[6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; SSE41-NEXT: retq
	;
	; AVX1-LABEL: combine_bitwise_ops_test5c:
	; AVX1: # BB#0:
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3],xmm2[4,5],xmm0[6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_bitwise_ops_test5c:			; AVX-LABEL: combine_bitwise_ops_test5c:
	; AVX2: # BB#0:			; AVX: # BB#0:
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm2[0],xmm0[1],xmm2[2],xmm0[3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm2[0,2],xmm0[1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]			; AVX-NEXT: retq
	; AVX2-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%or = or <4 x i32> %shuf1, %shuf2			%or = or <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %or			ret <4 x i32> %or
	}			}

	define <4 x i32> @combine_bitwise_ops_test6c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @combine_bitwise_ops_test6c(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; SSE2-LABEL: combine_bitwise_ops_test6c:			; SSE2-LABEL: combine_bitwise_ops_test6c:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pxor %xmm1, %xmm0			; SSE2-NEXT: xorps %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[1,3]
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: combine_bitwise_ops_test6c:			; SSSE3-LABEL: combine_bitwise_ops_test6c:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pxor %xmm1, %xmm0			; SSSE3-NEXT: xorps %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSSE3-NEXT: xorps %xmm1, %xmm1
	; SSSE3-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7]			; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[1,3]
				; SSSE3-NEXT: movaps %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: combine_bitwise_ops_test6c:			; SSE41-LABEL: combine_bitwise_ops_test6c:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: xorps %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,1,3]			; SSE41-NEXT: insertps {{.*#+}} xmm0 = zero,zero,xmm0[1,3]
	; SSE41-NEXT: pxor %xmm0, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_bitwise_ops_test6c:			; AVX-LABEL: combine_bitwise_ops_test6c:
	; AVX1: # BB#0:			; AVX: # BB#0:
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = zero,zero,xmm0[1,3]
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX-NEXT: retq
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: combine_bitwise_ops_test6c:
	; AVX2: # BB#0:
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX2-NEXT: retq
	%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf1 = shufflevector <4 x i32> %c, <4 x i32> %a, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 2, i32 5, i32 7>			%shuf2 = shufflevector <4 x i32> %c, <4 x i32> %b, <4 x i32><i32 0, i32 2, i32 5, i32 7>
	%xor = xor <4 x i32> %shuf1, %shuf2			%xor = xor <4 x i32> %shuf1, %shuf2
	ret <4 x i32> %xor			ret <4 x i32> %xor
	}			}

	define <4 x i32> @combine_nested_undef_test1(<4 x i32> %A, <4 x i32> %B) {			define <4 x i32> @combine_nested_undef_test1(<4 x i32> %A, <4 x i32> %B) {
	; SSE-LABEL: combine_nested_undef_test1:			; SSE-LABEL: combine_nested_undef_test1:
	▲ Show 20 Lines • Show All 2,245 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512F			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512BW

	;			;
	; add			; add
	;			;

	define <4 x i32> @trunc_add_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {			define <4 x i32> @trunc_add_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {
	; SSE-LABEL: trunc_add_v4i64_4i32:			; SSE-LABEL: trunc_add_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: paddq %xmm2, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm1			; SSE-NEXT: paddq %xmm3, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: paddq %xmm2, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_add_v4i64_4i32:			; AVX1-LABEL: trunc_add_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_add_v4i64_4i32:			; AVX2-LABEL: trunc_add_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 354 Lines • ▼ Show 20 Lines
	;			;

	define <4 x i32> @trunc_add_const_v4i64_4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_add_const_v4i64_4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_add_const_v4i64_4i32:			; SSE-LABEL: trunc_add_const_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movl $1, %eax			; SSE-NEXT: movl $1, %eax
	; SSE-NEXT: movd %rax, %xmm2			; SSE-NEXT: movd %rax, %xmm2
	; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; SSE-NEXT: paddq %xmm0, %xmm2			; SSE-NEXT: paddq %xmm2, %xmm0
	; SSE-NEXT: paddq {{.*}}(%rip), %xmm1			; SSE-NEXT: paddq {{.*}}(%rip), %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_add_const_v4i64_4i32:			; AVX1-LABEL: trunc_add_const_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: movl $1, %eax			; AVX1-NEXT: movl $1, %eax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; AVX1-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_add_const_v4i64_4i32:			; AVX2-LABEL: trunc_add_const_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 352 Lines • ▼ Show 20 Lines

	;			;
	; sub			; sub
	;			;

	define <4 x i32> @trunc_sub_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {			define <4 x i32> @trunc_sub_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {
	; SSE-LABEL: trunc_sub_v4i64_4i32:			; SSE-LABEL: trunc_sub_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: psubq %xmm2, %xmm0
	; SSE-NEXT: psubq %xmm3, %xmm1			; SSE-NEXT: psubq %xmm3, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: psubq %xmm2, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_v4i64_4i32:			; AVX1-LABEL: trunc_sub_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_v4i64_4i32:			; AVX2-LABEL: trunc_sub_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 356 Lines • ▼ Show 20 Lines
	define <4 x i32> @trunc_sub_const_v4i64_4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_sub_const_v4i64_4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v4i64_4i32:			; SSE-LABEL: trunc_sub_const_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movl $1, %eax			; SSE-NEXT: movl $1, %eax
	; SSE-NEXT: movd %rax, %xmm2			; SSE-NEXT: movd %rax, %xmm2
	; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; SSE-NEXT: psubq %xmm2, %xmm0			; SSE-NEXT: psubq %xmm2, %xmm0
	; SSE-NEXT: psubq {{.*}}(%rip), %xmm1			; SSE-NEXT: psubq {{.*}}(%rip), %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v4i64_4i32:			; AVX1-LABEL: trunc_sub_const_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: movl $1, %eax			; AVX1-NEXT: movl $1, %eax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; AVX1-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsubq {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v4i64_4i32:			; AVX2-LABEL: trunc_sub_const_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsubq {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpsubq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 353 Lines • ▼ Show 20 Lines

	;			;
	; mul			; mul
	;			;

	define <4 x i32> @trunc_mul_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {			define <4 x i32> @trunc_mul_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {
	; SSE-LABEL: trunc_mul_v4i64_4i32:			; SSE-LABEL: trunc_mul_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movdqa %xmm0, %xmm4			; SSE-NEXT: movdqa %xmm1, %xmm4
	; SSE-NEXT: pmuludq %xmm2, %xmm4			; SSE-NEXT: pmuludq %xmm3, %xmm4
	; SSE-NEXT: movdqa %xmm2, %xmm5			; SSE-NEXT: movdqa %xmm3, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5			; SSE-NEXT: psrlq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm0, %xmm5			; SSE-NEXT: pmuludq %xmm1, %xmm5
	; SSE-NEXT: psllq $32, %xmm5			; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: psrlq $32, %xmm0
	; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: psllq $32, %xmm0
	; SSE-NEXT: paddq %xmm5, %xmm0
	; SSE-NEXT: paddq %xmm4, %xmm0
	; SSE-NEXT: movdqa %xmm1, %xmm2
	; SSE-NEXT: pmuludq %xmm3, %xmm2
	; SSE-NEXT: movdqa %xmm3, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm1, %xmm4
	; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: psrlq $32, %xmm1			; SSE-NEXT: psrlq $32, %xmm1
	; SSE-NEXT: pmuludq %xmm3, %xmm1			; SSE-NEXT: pmuludq %xmm3, %xmm1
	; SSE-NEXT: psllq $32, %xmm1			; SSE-NEXT: psllq $32, %xmm1
				; SSE-NEXT: paddq %xmm5, %xmm1
	; SSE-NEXT: paddq %xmm4, %xmm1			; SSE-NEXT: paddq %xmm4, %xmm1
	; SSE-NEXT: paddq %xmm2, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: psrlq $32, %xmm4
				; SSE-NEXT: pmuludq %xmm0, %xmm4
				; SSE-NEXT: psllq $32, %xmm4
				; SSE-NEXT: psrlq $32, %xmm0
				; SSE-NEXT: pmuludq %xmm2, %xmm0
				; SSE-NEXT: psllq $32, %xmm0
				; SSE-NEXT: paddq %xmm4, %xmm0
				; SSE-NEXT: paddq %xmm3, %xmm0
				; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_v4i64_4i32:			; AVX1-LABEL: trunc_mul_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm4			; AVX1-NEXT: vpmuludq %xmm5, %xmm3, %xmm5
	; AVX1-NEXT: vpmuludq %xmm1, %xmm4, %xmm4			; AVX1-NEXT: vpsllq $32, %xmm5, %xmm5
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4			; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm3
	; AVX1-NEXT: vpaddq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm4			; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4			; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0			; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpaddq %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_mul_v4i64_4i32:			; AVX2-LABEL: trunc_mul_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	▲ Show 20 Lines • Show All 699 Lines • ▼ Show 20 Lines

	;			;
	; mul to constant			; mul to constant
	;			;

	define <4 x i32> @trunc_mul_const_v4i64_4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_mul_const_v4i64_4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_mul_const_v4i64_4i32:			; SSE-LABEL: trunc_mul_const_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
				; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2,3]
				; SSE-NEXT: movdqa %xmm1, %xmm3
				; SSE-NEXT: pmuludq %xmm2, %xmm3
				; SSE-NEXT: psrlq $32, %xmm1
				; SSE-NEXT: pmuludq %xmm2, %xmm1
				; SSE-NEXT: psllq $32, %xmm1
				; SSE-NEXT: paddq %xmm3, %xmm1
	; SSE-NEXT: movl $1, %eax			; SSE-NEXT: movl $1, %eax
	; SSE-NEXT: movd %rax, %xmm2			; SSE-NEXT: movd %rax, %xmm2
	; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: pmuludq %xmm2, %xmm3			; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: psrlq $32, %xmm0			; SSE-NEXT: psrlq $32, %xmm0
	; SSE-NEXT: pmuludq %xmm2, %xmm0			; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: psllq $32, %xmm0			; SSE-NEXT: psllq $32, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: psrlq $32, %xmm1
	; SSE-NEXT: pmuludq %xmm2, %xmm1
	; SSE-NEXT: psllq $32, %xmm1
	; SSE-NEXT: paddq %xmm3, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_const_v4i64_4i32:			; AVX1-LABEL: trunc_mul_const_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: movl $1, %eax			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpaddq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2,3]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2,3]
				; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm3
				; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm1
				; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
				; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
				; AVX1-NEXT: movl $1, %eax
				; AVX1-NEXT: vmovq %rax, %xmm2
				; AVX1-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpaddq %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_mul_const_v4i64_4i32:			; AVX2-LABEL: trunc_mul_const_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [0,1,2,3]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [0,1,2,3]
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 578 Lines • ▼ Show 20 Lines

	;			;
	; and			; and
	;			;

	define <4 x i32> @trunc_and_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {			define <4 x i32> @trunc_and_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {
	; SSE-LABEL: trunc_and_v4i64_4i32:			; SSE-LABEL: trunc_and_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: andps %xmm3, %xmm1
	; SSE-NEXT: pand %xmm3, %xmm1			; SSE-NEXT: andps %xmm2, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_and_v4i64_4i32:			; AVX1-LABEL: trunc_and_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_and_v4i64_4i32:			; AVX2-LABEL: trunc_and_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 334 Lines • ▼ Show 20 Lines
	;			;

	define <4 x i32> @trunc_and_const_v4i64_4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_and_const_v4i64_4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_and_const_v4i64_4i32:			; SSE-LABEL: trunc_and_const_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movl $1, %eax			; SSE-NEXT: movl $1, %eax
	; SSE-NEXT: movd %rax, %xmm2			; SSE-NEXT: movd %rax, %xmm2
	; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; SSE-NEXT: pand %xmm0, %xmm2			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: pand {{.*}}(%rip), %xmm1			; SSE-NEXT: andps {{.*}}(%rip), %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_and_const_v4i64_4i32:			; AVX1-LABEL: trunc_and_const_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_and_const_v4i64_4i32:			; AVX2-LABEL: trunc_and_const_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 336 Lines • ▼ Show 20 Lines

	;			;
	; xor			; xor
	;			;

	define <4 x i32> @trunc_xor_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {			define <4 x i32> @trunc_xor_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {
	; SSE-LABEL: trunc_xor_v4i64_4i32:			; SSE-LABEL: trunc_xor_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE-NEXT: xorps %xmm3, %xmm1
	; SSE-NEXT: pxor %xmm3, %xmm1			; SSE-NEXT: xorps %xmm2, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_xor_v4i64_4i32:			; AVX1-LABEL: trunc_xor_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_xor_v4i64_4i32:			; AVX2-LABEL: trunc_xor_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 334 Lines • ▼ Show 20 Lines
	;			;

	define <4 x i32> @trunc_xor_const_v4i64_4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_xor_const_v4i64_4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_xor_const_v4i64_4i32:			; SSE-LABEL: trunc_xor_const_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movl $1, %eax			; SSE-NEXT: movl $1, %eax
	; SSE-NEXT: movd %rax, %xmm2			; SSE-NEXT: movd %rax, %xmm2
	; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; SSE-NEXT: pxor %xmm0, %xmm2			; SSE-NEXT: pxor %xmm2, %xmm0
	; SSE-NEXT: pxor {{.*}}(%rip), %xmm1			; SSE-NEXT: xorps {{.*}}(%rip), %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_xor_const_v4i64_4i32:			; AVX1-LABEL: trunc_xor_const_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vxorps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vxorps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_xor_const_v4i64_4i32:			; AVX2-LABEL: trunc_xor_const_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 336 Lines • ▼ Show 20 Lines

	;			;
	; or			; or
	;			;

	define <4 x i32> @trunc_or_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {			define <4 x i32> @trunc_or_v4i64_4i32(<4 x i64> %a0, <4 x i64> %a1) nounwind {
	; SSE-LABEL: trunc_or_v4i64_4i32:			; SSE-LABEL: trunc_or_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: por %xmm2, %xmm0			; SSE-NEXT: orps %xmm3, %xmm1
	; SSE-NEXT: por %xmm3, %xmm1			; SSE-NEXT: orps %xmm2, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_or_v4i64_4i32:			; AVX1-LABEL: trunc_or_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_or_v4i64_4i32:			; AVX2-LABEL: trunc_or_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 334 Lines • ▼ Show 20 Lines
	;			;

	define <4 x i32> @trunc_or_const_v4i64_4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_or_const_v4i64_4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_or_const_v4i64_4i32:			; SSE-LABEL: trunc_or_const_v4i64_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movl $1, %eax			; SSE-NEXT: movl $1, %eax
	; SSE-NEXT: movd %rax, %xmm2			; SSE-NEXT: movd %rax, %xmm2
	; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; SSE-NEXT: por %xmm0, %xmm2			; SSE-NEXT: por %xmm2, %xmm0
	; SSE-NEXT: por {{.*}}(%rip), %xmm1			; SSE-NEXT: orps {{.*}}(%rip), %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_or_const_v4i64_4i32:			; AVX1-LABEL: trunc_or_const_v4i64_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_or_const_v4i64_4i32:			; AVX2-LABEL: trunc_or_const_v4i64_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpor {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpor {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	▲ Show 20 Lines • Show All 336 Lines • ▼ Show 20 Lines

	;			;
	; complex patterns - often created by vectorizer			; complex patterns - often created by vectorizer
	;			;

	define <4 x i32> @mul_add_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {			define <4 x i32> @mul_add_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {
	; SSE-LABEL: mul_add_v4i64_v4i32:			; SSE-LABEL: mul_add_v4i64_v4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
				; SSE-NEXT: movdqa %xmm0, %xmm3
				; SSE-NEXT: psrad $31, %xmm3
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
				; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; SSE-NEXT: movdqa %xmm2, %xmm3			; SSE-NEXT: movdqa %xmm2, %xmm3
	; SSE-NEXT: psrad $31, %xmm3			; SSE-NEXT: psrad $31, %xmm3
	; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: psrad $31, %xmm3			; SSE-NEXT: psrad $31, %xmm3
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE-NEXT: movdqa %xmm3, %xmm4			; SSE-NEXT: movdqa %xmm4, %xmm3
	; SSE-NEXT: psrad $31, %xmm4			; SSE-NEXT: psrad $31, %xmm3
	; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
	; SSE-NEXT: movdqa %xmm1, %xmm4			; SSE-NEXT: movdqa %xmm2, %xmm3
	; SSE-NEXT: psrad $31, %xmm4			; SSE-NEXT: pmuludq %xmm4, %xmm3
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]			; SSE-NEXT: movdqa %xmm4, %xmm5
	; SSE-NEXT: movdqa %xmm0, %xmm4
	; SSE-NEXT: pmuludq %xmm1, %xmm4
	; SSE-NEXT: movdqa %xmm1, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5			; SSE-NEXT: psrlq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm0, %xmm5			; SSE-NEXT: pmuludq %xmm2, %xmm5
	; SSE-NEXT: psllq $32, %xmm5			; SSE-NEXT: psllq $32, %xmm5
				; SSE-NEXT: psrlq $32, %xmm2
				; SSE-NEXT: pmuludq %xmm4, %xmm2
				; SSE-NEXT: psllq $32, %xmm2
				; SSE-NEXT: paddq %xmm5, %xmm2
				; SSE-NEXT: paddq %xmm3, %xmm2
				; SSE-NEXT: movdqa %xmm0, %xmm3
				; SSE-NEXT: pmuludq %xmm1, %xmm3
				; SSE-NEXT: movdqa %xmm1, %xmm4
				; SSE-NEXT: psrlq $32, %xmm4
				; SSE-NEXT: pmuludq %xmm0, %xmm4
				; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: psrlq $32, %xmm0			; SSE-NEXT: psrlq $32, %xmm0
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: psllq $32, %xmm0			; SSE-NEXT: psllq $32, %xmm0
	; SSE-NEXT: paddq %xmm5, %xmm0
	; SSE-NEXT: paddq %xmm4, %xmm0			; SSE-NEXT: paddq %xmm4, %xmm0
	; SSE-NEXT: movdqa %xmm2, %xmm1			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pmuludq %xmm3, %xmm1
	; SSE-NEXT: movdqa %xmm3, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm2, %xmm4
	; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm3, %xmm2
	; SSE-NEXT: psllq $32, %xmm2
	; SSE-NEXT: paddq %xmm4, %xmm2
	; SSE-NEXT: paddq %xmm1, %xmm2
	; SSE-NEXT: paddq {{.*}}(%rip), %xmm2
	; SSE-NEXT: paddq {{.*}}(%rip), %xmm0			; SSE-NEXT: paddq {{.*}}(%rip), %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: paddq {{.*}}(%rip), %xmm2
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: mul_add_v4i64_v4i32:			; AVX1-LABEL: mul_add_v4i64_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpmovsxdq %xmm0, %xmm2
	; AVX1-NEXT: vpmovsxdq %xmm2, %xmm2			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0			; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; AVX1-NEXT: vpmovsxdq %xmm1, %xmm3
	; AVX1-NEXT: vpmovsxdq %xmm3, %xmm3			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxdq %xmm1, %xmm1			; AVX1-NEXT: vpmovsxdq %xmm1, %xmm1
	; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmuldq %xmm3, %xmm2, %xmm1			; AVX1-NEXT: vpmuldq %xmm3, %xmm2, %xmm1
	; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: mul_add_v4i64_v4i32:			; AVX2-LABEL: mul_add_v4i64_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpmovsxdq %xmm0, %ymm0			; AVX2-NEXT: vpmovsxdq %xmm0, %ymm0
	; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1			; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1
	; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0
	Show All 22 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+ssse3 \| FileCheck %s --check-prefix=SSE --check-prefix=SSSE3			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+ssse3 \| FileCheck %s --check-prefix=SSE --check-prefix=SSSE3
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512VL
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BWVL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BWVL

	define <8 x i32> @trunc8i64_8i32(<8 x i64> %a) {			define <8 x i32> @trunc8i64_8i32(<8 x i64> %a) {
	; SSE2-LABEL: trunc8i64_8i32:			; SSE-LABEL: trunc8i64_8i32:
	; SSE2: # BB#0: # %entry			; SSE: # BB#0: # %entry
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE-NEXT: retq
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: trunc8i64_8i32:
	; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: trunc8i64_8i32:
	; SSE41: # BB#0: # %entry
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,0,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc8i64_8i32:			; AVX1-LABEL: trunc8i64_8i32:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i64_8i32:			; AVX2-LABEL: trunc8i64_8i32:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]
	▲ Show 20 Lines • Show All 624 Lines • ▼ Show 20 Lines
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	entry:			entry:
	%0 = trunc <32 x i16> %a to <32 x i8>			%0 = trunc <32 x i16> %a to <32 x i8>
	store <32 x i8> %0, <32 x i8>* undef, align 4			store <32 x i8> %0, <32 x i8>* undef, align 4
	ret void			ret void
	}			}

	define <8 x i32> @trunc2x4i64_8i32(<4 x i64> %a, <4 x i64> %b) {			define <8 x i32> @trunc2x4i64_8i32(<4 x i64> %a, <4 x i64> %b) {
	; SSE2-LABEL: trunc2x4i64_8i32:			; SSE-LABEL: trunc2x4i64_8i32:
	; SSE2: # BB#0: # %entry			; SSE: # BB#0: # %entry
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE-NEXT: retq
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: trunc2x4i64_8i32:
	; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: trunc2x4i64_8i32:
	; SSE41: # BB#0: # %entry
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,0,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc2x4i64_8i32:			; AVX1-LABEL: trunc2x4i64_8i32:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc2x4i64_8i32:			; AVX2-LABEL: trunc2x4i64_8i32:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]			; SSE41-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
	; SSE41-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE41-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc2x4i64_8i16:			; AVX1-LABEL: trunc2x4i64_8i16:
	; AVX1: # BB#0: # %entry			; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc2x4i64_8i16:			; AVX2-LABEL: trunc2x4i64_8i16:
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	entry:			entry:
	%0 = trunc <4 x i64> %a to <4 x i16>			%0 = trunc <4 x i64> %a to <4 x i16>
	%1 = trunc <4 x i64> %b to <4 x i16>			%1 = trunc <4 x i64> %b to <4 x i16>
	%2 = shufflevector <4 x i16> %0, <4 x i16> %1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%2 = shufflevector <4 x i16> %0, <4 x i16> %1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	define <4 x i32> @trunc2x2i64_4i32(<2 x i64> %a, <2 x i64> %b) {			define <4 x i32> @trunc2x2i64_4i32(<2 x i64> %a, <2 x i64> %b) {
	; SSE2-LABEL: trunc2x2i64_4i32:			; SSE-LABEL: trunc2x2i64_4i32:
	; SSE2: # BB#0: # %entry			; SSE: # BB#0: # %entry
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: retq
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: trunc2x2i64_4i32:
	; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: trunc2x2i64_4i32:
	; SSE41: # BB#0: # %entry
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq
	;
	; AVX1-LABEL: trunc2x2i64_4i32:
	; AVX1: # BB#0: # %entry
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc2x2i64_4i32:			; AVX-LABEL: trunc2x2i64_4i32:
	; AVX2: # BB#0: # %entry			; AVX: # BB#0: # %entry
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX-NEXT: retq
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc2x2i64_4i32:			; AVX512-LABEL: trunc2x2i64_4i32:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%0 = trunc <2 x i64> %a to <2 x i32>			%0 = trunc <2 x i64> %a to <2 x i32>
	%1 = trunc <2 x i64> %b to <2 x i32>			%1 = trunc <2 x i64> %b to <2 x i32>
	%2 = shufflevector <2 x i32> %0, <2 x i32> %1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <2 x i32> %0, <2 x i32> %1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	▲ Show 20 Lines • Show All 343 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vsplit-and.ll

	Show All 20 Lines
	}			}

	define void @t2(<3 x i64>* %dst, <3 x i64> %src1, <3 x i64> %src2) nounwind readonly {			define void @t2(<3 x i64>* %dst, <3 x i64> %src1, <3 x i64> %src2) nounwind readonly {
	; CHECK-LABEL: t2:			; CHECK-LABEL: t2:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: movd %r9, %xmm1			; CHECK-NEXT: movd %r9, %xmm1
	; CHECK-NEXT: movd %r8, %xmm0			; CHECK-NEXT: movd %r8, %xmm0
	; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; CHECK-NEXT: movd %rdx, %xmm1			; CHECK-NEXT: movd %rdx, %xmm2
	; CHECK-NEXT: movd %rsi, %xmm2			; CHECK-NEXT: movd %rsi, %xmm1
	; CHECK-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; CHECK-NEXT: movd %rcx, %xmm1			; CHECK-NEXT: movd %rcx, %xmm2
	; CHECK-NEXT: movq {{.*#+}} xmm3 = mem[0],zero			; CHECK-NEXT: movq {{.*#+}} xmm3 = mem[0],zero
	; CHECK-NEXT: pxor %xmm4, %xmm4			; CHECK-NEXT: pxor %xmm4, %xmm4
	; CHECK-NEXT: pcmpeqq %xmm4, %xmm1
	; CHECK-NEXT: pcmpeqd %xmm5, %xmm5
	; CHECK-NEXT: pxor %xmm5, %xmm1
	; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
	; CHECK-NEXT: pcmpeqq %xmm4, %xmm2			; CHECK-NEXT: pcmpeqq %xmm4, %xmm2
				; CHECK-NEXT: pcmpeqd %xmm5, %xmm5
	; CHECK-NEXT: pxor %xmm5, %xmm2			; CHECK-NEXT: pxor %xmm5, %xmm2
	; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; CHECK-NEXT: pcmpeqq %xmm4, %xmm1
	; CHECK-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]			; CHECK-NEXT: pxor %xmm5, %xmm1
	; CHECK-NEXT: pslld $31, %xmm2			; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; CHECK-NEXT: psrad $31, %xmm2			; CHECK-NEXT: pslld $31, %xmm1
				; CHECK-NEXT: psrad $31, %xmm1
	; CHECK-NEXT: pcmpeqq %xmm4, %xmm3			; CHECK-NEXT: pcmpeqq %xmm4, %xmm3
	; CHECK-NEXT: pxor %xmm5, %xmm3			; CHECK-NEXT: pxor %xmm5, %xmm3
	; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,1,0,2]
	; CHECK-NEXT: pcmpeqq %xmm4, %xmm0			; CHECK-NEXT: pcmpeqq %xmm4, %xmm0
	; CHECK-NEXT: pxor %xmm5, %xmm0			; CHECK-NEXT: pxor %xmm5, %xmm0
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
	; CHECK-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; CHECK-NEXT: pslld $31, %xmm0			; CHECK-NEXT: pslld $31, %xmm0
	; CHECK-NEXT: psrad $31, %xmm0			; CHECK-NEXT: psrad $31, %xmm0
	; CHECK-NEXT: pand %xmm2, %xmm0			; CHECK-NEXT: pand %xmm1, %xmm0
	; CHECK-NEXT: pmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero			; CHECK-NEXT: pmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
	; CHECK-NEXT: psllq $63, %xmm1			; CHECK-NEXT: psllq $63, %xmm1
	; CHECK-NEXT: psrad $31, %xmm1			; CHECK-NEXT: psrad $31, %xmm1
	; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; CHECK-NEXT: psllq $63, %xmm0			; CHECK-NEXT: psllq $63, %xmm0
	; CHECK-NEXT: psrad $31, %xmm0			; CHECK-NEXT: psrad $31, %xmm0
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	Show All 10 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[x86] use a single shufps when it can save instructionsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 81611

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/test/CodeGen/X86/SwizzleShuff.ll

llvm/trunk/test/CodeGen/X86/avx-trunc.ll

llvm/trunk/test/CodeGen/X86/combine-or.ll

llvm/trunk/test/CodeGen/X86/combine-shl.ll

llvm/trunk/test/CodeGen/X86/combine-sra.ll

llvm/trunk/test/CodeGen/X86/combine-srl.ll

llvm/trunk/test/CodeGen/X86/compress_expand.ll

llvm/trunk/test/CodeGen/X86/i64-to-float.ll

llvm/trunk/test/CodeGen/X86/masked_gather_scatter.ll

llvm/trunk/test/CodeGen/X86/masked_memop.ll

llvm/trunk/test/CodeGen/X86/oddshuffles.ll

llvm/trunk/test/CodeGen/X86/palignr.ll

llvm/trunk/test/CodeGen/X86/pmul.ll

llvm/trunk/test/CodeGen/X86/reduce-trunc-shl.ll

llvm/trunk/test/CodeGen/X86/sse-fsignum.ll

llvm/trunk/test/CodeGen/X86/vec_fp_to_int.ll

llvm/trunk/test/CodeGen/X86/vector-compare-results.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v4.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

llvm/trunk/test/CodeGen/X86/vsplit-and.ll

[x86] use a single shufps when it can save instructions
ClosedPublic