This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Change BUILD_VECTOR interleaving ordering to improve coalescing/combine opportunities
ClosedPublic

Authored by RKSimon on Jun 3 2017, 8:10 AM.

Download Raw Diff

Details

Reviewers

efriedma
zvi
craig.topper
spatel
andreadb

Commits

rG46dd55f1e1fd: [X86][SSE] Change BUILD_VECTOR interleaving ordering to improve…
rL304688: [X86][SSE] Change BUILD_VECTOR interleaving ordering to improve…

Summary

We currently generate BUILD_VECTOR as a tree of UNPCKL shuffles of the same type:

e.g. for v4f32:

Step 1: unpcklps 0, 2 ==> X: <?, ?, 2, 0>
      : unpcklps 1, 3 ==> Y: <?, ?, 3, 1>
Step 2: unpcklps X, Y ==>    <3, 2, 1, 0>

The issue is because we are not placing sequential vector elements together early enough, we fail to recognise many combinable patterns - consecutive scalar loads, extractions etc.

Instead, this patch unpacks progressively larger sequential vector elements together:

e.g. for v4f32:

Step 1: unpcklps 0, 2 ==> X: <?, ?, 1, 0>
      : unpcklps 1, 3 ==> Y: <?, ?, 3, 2>
Step 2: unpcklpd X, Y ==>    <3, 2, 1, 0>

This does mean that we are creating UNPCKL shuffle of different value types, but the relevant combines that benefit from this are quite capable of handling the additional BITCASTs that are now included in the shuffle tree.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Jun 3 2017, 8:10 AM

LGTM.

This revision is now accepted and ready to land.Jun 4 2017, 11:57 AM

Closed by commit rL304688: [X86][SSE] Change BUILD_VECTOR interleaving ordering to improve… (authored by RKSimon). · Explain WhyJun 4 2017, 1:12 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 304660)

29 lines

test/

CodeGen/

X86/

	build-vector-128.ll
	build-vector-128.ll (revision 304660)

92 lines

	buildvec-insertvec.ll
	buildvec-insertvec.ll (revision 304660)

72 lines

	clear_upper_vector_element_bits.ll
	clear_upper_vector_element_bits.ll (revision 304660)

205 lines

	haddsub-2.ll
	haddsub-2.ll (revision 304660)

348 lines

	haddsub-undef.ll
	haddsub-undef.ll (revision 304660)

5 lines

	merge-consecutive-loads-128.ll
	merge-consecutive-loads-128.ll (revision 304660)

36 lines

	select.ll
	select.ll (revision 304660)

14 lines

	sse-intrinsics-fast-isel.ll
	sse-intrinsics-fast-isel.ll (revision 304660)

74 lines

	sse1.ll
	sse1.ll (revision 304660)

80 lines

	sse2-intrinsics-fast-isel.ll
	sse2-intrinsics-fast-isel.ll (revision 304660)

159 lines

	sse3-avx-addsub-2.ll
	sse3-avx-addsub-2.ll (revision 304660)

14 lines

	vec_fp_to_int.ll
	vec_fp_to_int.ll (revision 304660)

18 lines

	vec_int_to_fp.ll
	vec_int_to_fp.ll (revision 304660)

286 lines

	vec_set.ll
	vec_set.ll (revision 304660)

24 lines

	vector-rem.ll
	vector-rem.ll (revision 304660)

34 lines

	vector-sext.ll
	vector-sext.ll (revision 304660)

784 lines

	vector-shuffle-variable-128.ll
	vector-shuffle-variable-128.ll (revision 304660)

274 lines

	vshift-1.ll
	vshift-1.ll (revision 304660)

9 lines

	vshift-2.ll
	vshift-2.ll (revision 304660)

9 lines

Diff 101317

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,819 Lines • ▼ Show 20 Lines	if (Values.size() > 1 && VT.is128BitVector()) {
for (unsigned i = 0; i < NumElems; ++i) {		for (unsigned i = 0; i < NumElems; ++i) {
if (!Op.getOperand(i).isUndef())		if (!Op.getOperand(i).isUndef())
Ops[i] = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, Op.getOperand(i));		Ops[i] = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, Op.getOperand(i));
else		else
Ops[i] = DAG.getUNDEF(VT);		Ops[i] = DAG.getUNDEF(VT);
}		}

// Next, we iteratively mix elements, e.g. for v4f32:		// Next, we iteratively mix elements, e.g. for v4f32:
// Step 1: unpcklps 0, 2 ==> X: <?, ?, 2, 0>		// Step 1: unpcklps 0, 1 ==> X: <?, ?, 1, 0>
// : unpcklps 1, 3 ==> Y: <?, ?, 3, 1>		// : unpcklps 2, 3 ==> Y: <?, ?, 3, 2>
// Step 2: unpcklps X, Y ==> <3, 2, 1, 0>		// Step 2: unpcklpd X, Y ==> <3, 2, 1, 0>
unsigned EltStride = NumElems >> 1;		for (unsigned Scale = 1; Scale < NumElems; Scale *= 2) {
while (EltStride != 0) {		SmallVector<int, 16> Mask;
for (unsigned i = 0; i < EltStride; ++i) {		for(unsigned i = 0; i != Scale; ++i)
// If Ops[i+EltStride] is undef and this is the first round of mixing,		Mask.push_back(i);
// then it is safe to just drop this shuffle: V[i] is already in the		for (unsigned i = 0; i != Scale; ++i)
// right place, the one element (since it's the first round) being		Mask.push_back(NumElems+i);
// inserted as undef can be dropped. This isn't safe for successive		Mask.append(NumElems - Mask.size(), SM_SentinelUndef);
// rounds because they will permute elements within both vectors.
if (Ops[i+EltStride].isUndef() &&
EltStride == NumElems/2)
continue;

Ops[i] = getUnpackl(DAG, dl, VT, Ops[i], Ops[i + EltStride]);		for (unsigned i = 0, e = NumElems / (2 * Scale); i != e; ++i)
}		Ops[i] = DAG.getVectorShuffle(VT, dl, Ops[2i], Ops[(2i)+1], Mask);
EltStride >>= 1;
}		}
return Ops[0];		return Ops[0];
}		}
return SDValue();		return SDValue();
}		}

// 256-bit AVX can use the vinsertf128 instruction		// 256-bit AVX can use the vinsertf128 instruction
// to create 256-bit vectors from two other 128-bit ones.		// to create 256-bit vectors from two other 128-bit ones.
▲ Show 20 Lines • Show All 28,339 Lines • Show Last 20 Lines

test/CodeGen/X86/build-vector-128.ll

Show All 35 Lines
define <4 x float> @test_buildvector_v4f32(float %a0, float %a1, float %a2, float %a3) {		define <4 x float> @test_buildvector_v4f32(float %a0, float %a1, float %a2, float %a3) {
; SSE-32-LABEL: test_buildvector_v4f32:		; SSE-32-LABEL: test_buildvector_v4f32:
; SSE-32: # BB#0:		; SSE-32: # BB#0:
; SSE-32-NEXT: movups {{[0-9]+}}(%esp), %xmm0		; SSE-32-NEXT: movups {{[0-9]+}}(%esp), %xmm0
; SSE-32-NEXT: retl		; SSE-32-NEXT: retl
;		;
; SSE2-64-LABEL: test_buildvector_v4f32:		; SSE2-64-LABEL: test_buildvector_v4f32:
; SSE2-64: # BB#0:		; SSE2-64: # BB#0:
; SSE2-64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; SSE2-64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE2-64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; SSE2-64-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-64-NEXT: retq		; SSE2-64-NEXT: retq
;		;
; SSE41-64-LABEL: test_buildvector_v4f32:		; SSE41-64-LABEL: test_buildvector_v4f32:
; SSE41-64: # BB#0:		; SSE41-64: # BB#0:
; SSE41-64-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; SSE41-64-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; SSE41-64-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]		; SSE41-64-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
; SSE41-64-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[0]		; SSE41-64-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[0]
; SSE41-64-NEXT: retq		; SSE41-64-NEXT: retq
Show All 14 Lines	; AVX-64-NEXT: retq
%ins2 = insertelement <4 x float> %ins1, float %a2, i32 2		%ins2 = insertelement <4 x float> %ins1, float %a2, i32 2
%ins3 = insertelement <4 x float> %ins2, float %a3, i32 3		%ins3 = insertelement <4 x float> %ins2, float %a3, i32 3
ret <4 x float> %ins3		ret <4 x float> %ins3
}		}

define <2 x i64> @test_buildvector_v2i64(i64 %a0, i64 %a1) {		define <2 x i64> @test_buildvector_v2i64(i64 %a0, i64 %a1) {
; SSE2-32-LABEL: test_buildvector_v2i64:		; SSE2-32-LABEL: test_buildvector_v2i64:
; SSE2-32: # BB#0:		; SSE2-32: # BB#0:
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE2-32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; SSE2-32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-32-NEXT: retl		; SSE2-32-NEXT: retl
;		;
; SSE-64-LABEL: test_buildvector_v2i64:		; SSE-64-LABEL: test_buildvector_v2i64:
; SSE-64: # BB#0:		; SSE-64: # BB#0:
; SSE-64-NEXT: movq %rsi, %xmm1		; SSE-64-NEXT: movq %rsi, %xmm1
; SSE-64-NEXT: movq %rdi, %xmm0		; SSE-64-NEXT: movq %rdi, %xmm0
; SSE-64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-64-NEXT: retq		; SSE-64-NEXT: retq
Show All 29 Lines
; SSE-32-LABEL: test_buildvector_v4i32:		; SSE-32-LABEL: test_buildvector_v4i32:
; SSE-32: # BB#0:		; SSE-32: # BB#0:
; SSE-32-NEXT: movups {{[0-9]+}}(%esp), %xmm0		; SSE-32-NEXT: movups {{[0-9]+}}(%esp), %xmm0
; SSE-32-NEXT: retl		; SSE-32-NEXT: retl
;		;
; SSE2-64-LABEL: test_buildvector_v4i32:		; SSE2-64-LABEL: test_buildvector_v4i32:
; SSE2-64: # BB#0:		; SSE2-64: # BB#0:
; SSE2-64-NEXT: movd %ecx, %xmm0		; SSE2-64-NEXT: movd %ecx, %xmm0
; SSE2-64-NEXT: movd %esi, %xmm1		; SSE2-64-NEXT: movd %edx, %xmm1
; SSE2-64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; SSE2-64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-64-NEXT: movd %edx, %xmm2		; SSE2-64-NEXT: movd %esi, %xmm2
; SSE2-64-NEXT: movd %edi, %xmm0		; SSE2-64-NEXT: movd %edi, %xmm0
; SSE2-64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-64-NEXT: retq		; SSE2-64-NEXT: retq
;		;
; SSE41-64-LABEL: test_buildvector_v4i32:		; SSE41-64-LABEL: test_buildvector_v4i32:
; SSE41-64: # BB#0:		; SSE41-64: # BB#0:
; SSE41-64-NEXT: movd %edi, %xmm0		; SSE41-64-NEXT: movd %edi, %xmm0
; SSE41-64-NEXT: pinsrd $1, %esi, %xmm0		; SSE41-64-NEXT: pinsrd $1, %esi, %xmm0
; SSE41-64-NEXT: pinsrd $2, %edx, %xmm0		; SSE41-64-NEXT: pinsrd $2, %edx, %xmm0
; SSE41-64-NEXT: pinsrd $3, %ecx, %xmm0		; SSE41-64-NEXT: pinsrd $3, %ecx, %xmm0
Show All 22 Lines
; SSE2-32-LABEL: test_buildvector_v8i16:		; SSE2-32-LABEL: test_buildvector_v8i16:
; SSE2-32: # BB#0:		; SSE2-32: # BB#0:
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSE2-32-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-32-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-32-NEXT: retl		; SSE2-32-NEXT: retl
;		;
; SSE2-64-LABEL: test_buildvector_v8i16:		; SSE2-64-LABEL: test_buildvector_v8i16:
; SSE2-64: # BB#0:		; SSE2-64: # BB#0:
; SSE2-64-NEXT: movd %ecx, %xmm0		; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-64-NEXT: movd %r9d, %xmm1		; SSE2-64-NEXT: movd %r9d, %xmm0
; SSE2-64-NEXT: movd %esi, %xmm2		; SSE2-64-NEXT: movd %r8d, %xmm2
; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
		; SSE2-64-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; SSE2-64-NEXT: movd %ecx, %xmm0
; SSE2-64-NEXT: movd %edx, %xmm1		; SSE2-64-NEXT: movd %edx, %xmm1
; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-64-NEXT: movd %r8d, %xmm3		; SSE2-64-NEXT: movd %esi, %xmm3
; SSE2-64-NEXT: movd %edi, %xmm0		; SSE2-64-NEXT: movd %edi, %xmm0
; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-64-NEXT: retq		; SSE2-64-NEXT: retq
;		;
; SSE41-32-LABEL: test_buildvector_v8i16:		; SSE41-32-LABEL: test_buildvector_v8i16:
; SSE41-32: # BB#0:		; SSE41-32: # BB#0:
; SSE41-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE41-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE41-32-NEXT: pinsrw $1, {{[0-9]+}}(%esp), %xmm0		; SSE41-32-NEXT: pinsrw $1, {{[0-9]+}}(%esp), %xmm0
; SSE41-32-NEXT: pinsrw $2, {{[0-9]+}}(%esp), %xmm0		; SSE41-32-NEXT: pinsrw $2, {{[0-9]+}}(%esp), %xmm0
; SSE41-32-NEXT: pinsrw $3, {{[0-9]+}}(%esp), %xmm0		; SSE41-32-NEXT: pinsrw $3, {{[0-9]+}}(%esp), %xmm0
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; SSE2-32-LABEL: test_buildvector_v16i8:		; SSE2-32-LABEL: test_buildvector_v16i8:
; SSE2-32: # BB#0:		; SSE2-32: # BB#0:
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]		; SSE2-32-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-32-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero
; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE2-32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]		; SSE2-32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSE2-32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
; SSE2-32-NEXT: retl		; SSE2-32-NEXT: retl
;		;
; SSE2-64-LABEL: test_buildvector_v16i8:		; SSE2-64-LABEL: test_buildvector_v16i8:
; SSE2-64: # BB#0:		; SSE2-64: # BB#0:
; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-64-NEXT: movd %ecx, %xmm0		; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-64-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSE2-64-NEXT: movd %r9d, %xmm1
; SSE2-64-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-64-NEXT: movd %esi, %xmm2
; SSE2-64-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-64-NEXT: movd %edx, %xmm3
; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; SSE2-64-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE2-64-NEXT: movd %r8d, %xmm1		; SSE2-64-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; SSE2-64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
		; SSE2-64-NEXT: movd %r9d, %xmm0
		; SSE2-64-NEXT: movd %r8d, %xmm2
		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
		; SSE2-64-NEXT: movd %ecx, %xmm0
		; SSE2-64-NEXT: movd %edx, %xmm1
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
		; SSE2-64-NEXT: movd %esi, %xmm4
; SSE2-64-NEXT: movd %edi, %xmm0		; SSE2-64-NEXT: movd %edi, %xmm0
; SSE2-64-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE2-64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSE2-64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]		; SSE2-64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
; SSE2-64-NEXT: retq		; SSE2-64-NEXT: retq
;		;
; SSE41-32-LABEL: test_buildvector_v16i8:		; SSE41-32-LABEL: test_buildvector_v16i8:
; SSE41-32: # BB#0:		; SSE41-32: # BB#0:
; SSE41-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE41-32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE41-32-NEXT: pinsrb $1, {{[0-9]+}}(%esp), %xmm0		; SSE41-32-NEXT: pinsrb $1, {{[0-9]+}}(%esp), %xmm0
; SSE41-32-NEXT: pinsrb $2, {{[0-9]+}}(%esp), %xmm0		; SSE41-32-NEXT: pinsrb $2, {{[0-9]+}}(%esp), %xmm0
; SSE41-32-NEXT: pinsrb $3, {{[0-9]+}}(%esp), %xmm0		; SSE41-32-NEXT: pinsrb $3, {{[0-9]+}}(%esp), %xmm0
▲ Show 20 Lines • Show All 91 Lines • Show Last 20 Lines

test/CodeGen/X86/buildvec-insertvec.ll

Show First 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	entry:
%1 = insertelement <2 x double> undef, double %0, i32 0		%1 = insertelement <2 x double> undef, double %0, i32 0
%2 = insertelement <2 x double> %1, double -0.0, i32 1		%2 = insertelement <2 x double> %1, double -0.0, i32 1
ret <2 x double> %2		ret <2 x double> %2
}		}

define <4 x float> @test_buildvector_v4f32_register(float %f0, float %f1, float %f2, float %f3) {		define <4 x float> @test_buildvector_v4f32_register(float %f0, float %f1, float %f2, float %f3) {
; SSE2-LABEL: test_buildvector_v4f32_register:		; SSE2-LABEL: test_buildvector_v4f32_register:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; SSE2-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v4f32_register:		; SSE41-LABEL: test_buildvector_v4f32_register:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
%ins0 = insertelement <4 x float> undef, float %f0, i32 0		%ins0 = insertelement <4 x float> undef, float %f0, i32 0
%ins1 = insertelement <4 x float> %ins0, float %f1, i32 1		%ins1 = insertelement <4 x float> %ins0, float %f1, i32 1
%ins2 = insertelement <4 x float> %ins1, float %f2, i32 2		%ins2 = insertelement <4 x float> %ins1, float %f2, i32 2
%ins3 = insertelement <4 x float> %ins2, float %f3, i32 3		%ins3 = insertelement <4 x float> %ins2, float %f3, i32 3
ret <4 x float> %ins3		ret <4 x float> %ins3
}		}

define <4 x float> @test_buildvector_v4f32_load(float* %p0, float* %p1, float* %p2, float* %p3) {		define <4 x float> @test_buildvector_v4f32_load(float* %p0, float* %p1, float* %p2, float* %p3) {
; SSE2-LABEL: test_buildvector_v4f32_load:		; SSE2-LABEL: test_buildvector_v4f32_load:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v4f32_load:		; SSE41-LABEL: test_buildvector_v4f32_load:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
%f0 = load float, float* %p0, align 4		%f0 = load float, float* %p0, align 4
%f1 = load float, float* %p1, align 4		%f1 = load float, float* %p1, align 4
%f2 = load float, float* %p2, align 4		%f2 = load float, float* %p2, align 4
%f3 = load float, float* %p3, align 4		%f3 = load float, float* %p3, align 4
%ins0 = insertelement <4 x float> undef, float %f0, i32 0		%ins0 = insertelement <4 x float> undef, float %f0, i32 0
%ins1 = insertelement <4 x float> %ins0, float %f1, i32 1		%ins1 = insertelement <4 x float> %ins0, float %f1, i32 1
%ins2 = insertelement <4 x float> %ins1, float %f2, i32 2		%ins2 = insertelement <4 x float> %ins1, float %f2, i32 2
%ins3 = insertelement <4 x float> %ins2, float %f3, i32 3		%ins3 = insertelement <4 x float> %ins2, float %f3, i32 3
ret <4 x float> %ins3		ret <4 x float> %ins3
}		}

define <4 x float> @test_buildvector_v4f32_partial_load(float %f0, float %f1, float %f2, float* %p3) {		define <4 x float> @test_buildvector_v4f32_partial_load(float %f0, float %f1, float %f2, float* %p3) {
; SSE2-LABEL: test_buildvector_v4f32_partial_load:		; SSE2-LABEL: test_buildvector_v4f32_partial_load:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; SSE2-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v4f32_partial_load:		; SSE41-LABEL: test_buildvector_v4f32_partial_load:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
%f3 = load float, float* %p3, align 4		%f3 = load float, float* %p3, align 4
%ins0 = insertelement <4 x float> undef, float %f0, i32 0		%ins0 = insertelement <4 x float> undef, float %f0, i32 0
%ins1 = insertelement <4 x float> %ins0, float %f1, i32 1		%ins1 = insertelement <4 x float> %ins0, float %f1, i32 1
%ins2 = insertelement <4 x float> %ins1, float %f2, i32 2		%ins2 = insertelement <4 x float> %ins1, float %f2, i32 2
%ins3 = insertelement <4 x float> %ins2, float %f3, i32 3		%ins3 = insertelement <4 x float> %ins2, float %f3, i32 3
ret <4 x float> %ins3		ret <4 x float> %ins3
}		}

define <4 x i32> @test_buildvector_v4i32_register(i32 %a0, i32 %a1, i32 %a2, i32 %a3) {		define <4 x i32> @test_buildvector_v4i32_register(i32 %a0, i32 %a1, i32 %a2, i32 %a3) {
; SSE2-LABEL: test_buildvector_v4i32_register:		; SSE2-LABEL: test_buildvector_v4i32_register:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movd %ecx, %xmm0		; SSE2-NEXT: movd %ecx, %xmm0
; SSE2-NEXT: movd %esi, %xmm1		; SSE2-NEXT: movd %edx, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movd %edx, %xmm2		; SSE2-NEXT: movd %esi, %xmm2
; SSE2-NEXT: movd %edi, %xmm0		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v4i32_register:		; SSE41-LABEL: test_buildvector_v4i32_register:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movd %edi, %xmm0		; SSE41-NEXT: movd %edi, %xmm0
; SSE41-NEXT: pinsrd $1, %esi, %xmm0		; SSE41-NEXT: pinsrd $1, %esi, %xmm0
; SSE41-NEXT: pinsrd $2, %edx, %xmm0		; SSE41-NEXT: pinsrd $2, %edx, %xmm0
; SSE41-NEXT: pinsrd $3, %ecx, %xmm0		; SSE41-NEXT: pinsrd $3, %ecx, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
%ins0 = insertelement <4 x i32> undef, i32 %a0, i32 0		%ins0 = insertelement <4 x i32> undef, i32 %a0, i32 0
%ins1 = insertelement <4 x i32> %ins0, i32 %a1, i32 1		%ins1 = insertelement <4 x i32> %ins0, i32 %a1, i32 1
%ins2 = insertelement <4 x i32> %ins1, i32 %a2, i32 2		%ins2 = insertelement <4 x i32> %ins1, i32 %a2, i32 2
%ins3 = insertelement <4 x i32> %ins2, i32 %a3, i32 3		%ins3 = insertelement <4 x i32> %ins2, i32 %a3, i32 3
ret <4 x i32> %ins3		ret <4 x i32> %ins3
}		}

define <4 x i32> @test_buildvector_v4i32_partial(i32 %a0, i32 %a3) {		define <4 x i32> @test_buildvector_v4i32_partial(i32 %a0, i32 %a3) {
; SSE2-LABEL: test_buildvector_v4i32_partial:		; SSE2-LABEL: test_buildvector_v4i32_partial:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movd %edi, %xmm0		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: movd %esi, %xmm1		; SSE2-NEXT: movd %esi, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v4i32_partial:		; SSE41-LABEL: test_buildvector_v4i32_partial:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movd %edi, %xmm0		; SSE41-NEXT: movd %edi, %xmm0
; SSE41-NEXT: pinsrd $3, %esi, %xmm0		; SSE41-NEXT: pinsrd $3, %esi, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
%ins0 = insertelement <4 x i32> undef, i32 %a0, i32 0		%ins0 = insertelement <4 x i32> undef, i32 %a0, i32 0
Show All 33 Lines	; CHECK-NEXT: retq
%ins2 = insertelement <4 x i32> %ins1, i32 %a2, i32 2		%ins2 = insertelement <4 x i32> %ins1, i32 %a2, i32 2
%ins3 = insertelement <4 x i32> %ins2, i32 %a3, i32 3		%ins3 = insertelement <4 x i32> %ins2, i32 %a3, i32 3
ret <4 x i32> %ins3		ret <4 x i32> %ins3
}		}

define <8 x i16> @test_buildvector_v8i16_register(i16 %a0, i16 %a1, i16 %a2, i16 %a3, i16 %a4, i16 %a5, i16 %a6, i16 %a7) {		define <8 x i16> @test_buildvector_v8i16_register(i16 %a0, i16 %a1, i16 %a2, i16 %a3, i16 %a4, i16 %a5, i16 %a6, i16 %a7) {
; SSE2-LABEL: test_buildvector_v8i16_register:		; SSE2-LABEL: test_buildvector_v8i16_register:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movd %ecx, %xmm0		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: movd %r9d, %xmm1		; SSE2-NEXT: movd %r9d, %xmm0
; SSE2-NEXT: movd %esi, %xmm2		; SSE2-NEXT: movd %r8d, %xmm2
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
		; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; SSE2-NEXT: movd %ecx, %xmm0
; SSE2-NEXT: movd %edx, %xmm1		; SSE2-NEXT: movd %edx, %xmm1
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: movd %r8d, %xmm3		; SSE2-NEXT: movd %esi, %xmm3
; SSE2-NEXT: movd %edi, %xmm0		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v8i16_register:		; SSE41-LABEL: test_buildvector_v8i16_register:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movd %edi, %xmm0		; SSE41-NEXT: movd %edi, %xmm0
; SSE41-NEXT: pinsrw $1, %esi, %xmm0		; SSE41-NEXT: pinsrw $1, %esi, %xmm0
; SSE41-NEXT: pinsrw $2, %edx, %xmm0		; SSE41-NEXT: pinsrw $2, %edx, %xmm0
; SSE41-NEXT: pinsrw $3, %ecx, %xmm0		; SSE41-NEXT: pinsrw $3, %ecx, %xmm0
▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
}		}

define <16 x i8> @test_buildvector_v16i8_register(i8 %a0, i8 %a1, i8 %a2, i8 %a3, i8 %a4, i8 %a5, i8 %a6, i8 %a7, i8 %a8, i8 %a9, i8 %a10, i8 %a11, i8 %a12, i8 %a13, i8 %a14, i8 %a15) {		define <16 x i8> @test_buildvector_v16i8_register(i8 %a0, i8 %a1, i8 %a2, i8 %a3, i8 %a4, i8 %a5, i8 %a6, i8 %a7, i8 %a8, i8 %a9, i8 %a10, i8 %a11, i8 %a12, i8 %a13, i8 %a14, i8 %a15) {
; SSE2-LABEL: test_buildvector_v16i8_register:		; SSE2-LABEL: test_buildvector_v16i8_register:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-NEXT: movd %ecx, %xmm0		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSE2-NEXT: movd %r9d, %xmm1
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-NEXT: movd %esi, %xmm2
; SSE2-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-NEXT: movd %edx, %xmm3
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; SSE2-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE2-NEXT: movd %r8d, %xmm1		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
		; SSE2-NEXT: movd %r9d, %xmm0
		; SSE2-NEXT: movd %r8d, %xmm2
		; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
		; SSE2-NEXT: movd %ecx, %xmm0
		; SSE2-NEXT: movd %edx, %xmm1
		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
		; SSE2-NEXT: movd %esi, %xmm4
; SSE2-NEXT: movd %edi, %xmm0		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v16i8_register:		; SSE41-LABEL: test_buildvector_v16i8_register:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movd %edi, %xmm0		; SSE41-NEXT: movd %edi, %xmm0
; SSE41-NEXT: pinsrb $1, %esi, %xmm0		; SSE41-NEXT: pinsrb $1, %esi, %xmm0
; SSE41-NEXT: pinsrb $2, %edx, %xmm0		; SSE41-NEXT: pinsrb $2, %edx, %xmm0
; SSE41-NEXT: pinsrb $3, %ecx, %xmm0		; SSE41-NEXT: pinsrb $3, %ecx, %xmm0
▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

test/CodeGen/X86/clear_upper_vector_element_bits.ll

Show First 20 Lines • Show All 153 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%v6 = insertelement <8 x i32> %v5, i32 %ext6, i32 6		%v6 = insertelement <8 x i32> %v5, i32 %ext6, i32 6
%v7 = insertelement <8 x i32> %v6, i32 %ext7, i32 7		%v7 = insertelement <8 x i32> %v6, i32 %ext7, i32 7
ret <8 x i32> %v7		ret <8 x i32> %v7
}		}

define <8 x i16> @_clearupper8xi16a(<8 x i16>) nounwind {		define <8 x i16> @_clearupper8xi16a(<8 x i16>) nounwind {
; SSE-LABEL: _clearupper8xi16a:		; SSE-LABEL: _clearupper8xi16a:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pextrw $1, %xmm0, %eax		; SSE-NEXT: pextrw $4, %xmm0, %eax
; SSE-NEXT: pextrw $2, %xmm0, %r9d		; SSE-NEXT: pextrw $5, %xmm0, %ecx
; SSE-NEXT: pextrw $3, %xmm0, %edx		; SSE-NEXT: pextrw $6, %xmm0, %edx
; SSE-NEXT: pextrw $4, %xmm0, %r8d		; SSE-NEXT: pextrw $7, %xmm0, %esi
; SSE-NEXT: pextrw $5, %xmm0, %edi		; SSE-NEXT: movd %esi, %xmm1
; SSE-NEXT: pextrw $6, %xmm0, %esi
; SSE-NEXT: pextrw $7, %xmm0, %ecx
; SSE-NEXT: movd %ecx, %xmm1
; SSE-NEXT: movd %edx, %xmm2		; SSE-NEXT: movd %edx, %xmm2
; SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE-NEXT: movd %edi, %xmm1		; SSE-NEXT: movd %ecx, %xmm1
; SSE-NEXT: movd %eax, %xmm3		; SSE-NEXT: movd %eax, %xmm3
; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]		; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE-NEXT: movd %esi, %xmm1		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
; SSE-NEXT: movd %r9d, %xmm2
; SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE-NEXT: movd %r8d, %xmm1
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE-NEXT: pand {{.*}}(%rip), %xmm0		; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: _clearupper8xi16a:		; AVX-LABEL: _clearupper8xi16a:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <8 x i16> %0, i32 0		%x0 = extractelement <8 x i16> %0, i32 0
Show All 29 Lines	; AVX-NEXT: retq
%v6 = insertelement <8 x i16> %v5, i16 %ext6, i32 6		%v6 = insertelement <8 x i16> %v5, i16 %ext6, i32 6
%v7 = insertelement <8 x i16> %v6, i16 %ext7, i32 7		%v7 = insertelement <8 x i16> %v6, i16 %ext7, i32 7
ret <8 x i16> %v7		ret <8 x i16> %v7
}		}

define <16 x i16> @_clearupper16xi16a(<16 x i16>) nounwind {		define <16 x i16> @_clearupper16xi16a(<16 x i16>) nounwind {
; SSE-LABEL: _clearupper16xi16a:		; SSE-LABEL: _clearupper16xi16a:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pushq %rbp		; SSE-NEXT: pextrw $4, %xmm0, %eax
; SSE-NEXT: pushq %r15		; SSE-NEXT: pextrw $5, %xmm0, %ecx
; SSE-NEXT: pushq %r14		; SSE-NEXT: pextrw $6, %xmm0, %edx
; SSE-NEXT: pushq %r12		; SSE-NEXT: pextrw $7, %xmm0, %esi
; SSE-NEXT: pushq %rbx
; SSE-NEXT: pextrw $1, %xmm0, %edi
; SSE-NEXT: pextrw $2, %xmm0, %eax
; SSE-NEXT: pextrw $3, %xmm0, %ecx
; SSE-NEXT: pextrw $4, %xmm0, %edx
; SSE-NEXT: pextrw $5, %xmm0, %esi
; SSE-NEXT: pextrw $6, %xmm0, %ebx
; SSE-NEXT: pextrw $7, %xmm0, %ebp
; SSE-NEXT: pextrw $1, %xmm1, %r10d
; SSE-NEXT: pextrw $2, %xmm1, %r9d
; SSE-NEXT: pextrw $3, %xmm1, %r14d
; SSE-NEXT: pextrw $4, %xmm1, %r8d		; SSE-NEXT: pextrw $4, %xmm1, %r8d
; SSE-NEXT: pextrw $5, %xmm1, %r15d		; SSE-NEXT: pextrw $5, %xmm1, %r9d
; SSE-NEXT: pextrw $6, %xmm1, %r11d		; SSE-NEXT: pextrw $6, %xmm1, %r10d
; SSE-NEXT: pextrw $7, %xmm1, %r12d		; SSE-NEXT: pextrw $7, %xmm1, %edi
; SSE-NEXT: movd %ebp, %xmm2
; SSE-NEXT: movd %ecx, %xmm3
; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSE-NEXT: movd %esi, %xmm2		; SSE-NEXT: movd %esi, %xmm2
; SSE-NEXT: movd %edi, %xmm4		; SSE-NEXT: movd %edx, %xmm3
; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
; SSE-NEXT: movd %ebx, %xmm2
; SSE-NEXT: movd %eax, %xmm3
; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSE-NEXT: movd %edx, %xmm2		; SSE-NEXT: movd %ecx, %xmm2
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE-NEXT: movd %eax, %xmm4
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]		; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]		; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
; SSE-NEXT: pand %xmm2, %xmm0		; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: movd %r12d, %xmm3		; SSE-NEXT: movd %edi, %xmm3
; SSE-NEXT: movd %r14d, %xmm4		; SSE-NEXT: movd %r10d, %xmm4
; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
; SSE-NEXT: movd %r15d, %xmm3		; SSE-NEXT: movd %r9d, %xmm3
; SSE-NEXT: movd %r10d, %xmm5		; SSE-NEXT: movd %r8d, %xmm5
; SSE-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3]		; SSE-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
; SSE-NEXT: movd %r11d, %xmm3		; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm5[0]
; SSE-NEXT: movd %r9d, %xmm4
; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
; SSE-NEXT: movd %r8d, %xmm3
; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
; SSE-NEXT: pand %xmm2, %xmm1		; SSE-NEXT: pand %xmm2, %xmm1
; SSE-NEXT: popq %rbx
; SSE-NEXT: popq %r12
; SSE-NEXT: popq %r14
; SSE-NEXT: popq %r15
; SSE-NEXT: popq %rbp
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: _clearupper16xi16a:		; AVX-LABEL: _clearupper16xi16a:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0		; AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <16 x i16> %0, i32 0		%x0 = extractelement <16 x i16> %0, i32 0
%x1 = extractelement <16 x i16> %0, i32 1		%x1 = extractelement <16 x i16> %0, i32 1
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm1		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE-NEXT: movd %eax, %xmm2
; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm3		; SSE-NEXT: movd %eax, %xmm3
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm2		; SSE-NEXT: movd %eax, %xmm2
		; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm3		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]		; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
		; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
		; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm2		; SSE-NEXT: movd %eax, %xmm2
		; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm4		; SSE-NEXT: movd %eax, %xmm4
; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]		; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
		; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: pand {{.*}}(%rip), %xmm0		; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: _clearupper16xi8a:		; AVX-LABEL: _clearupper16xi8a:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <16 x i8> %0, i32 0		%x0 = extractelement <16 x i8> %0, i32 0
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
; SSE-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)		; SSE-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm1		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE-NEXT: movd %eax, %xmm2
; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm3		; SSE-NEXT: movd %eax, %xmm3
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm2		; SSE-NEXT: movd %eax, %xmm2
		; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm3		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]		; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
		; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
		; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm2		; SSE-NEXT: movd %eax, %xmm2
		; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm4		; SSE-NEXT: movd %eax, %xmm4
; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]		; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
		; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE-NEXT: pand %xmm2, %xmm0		; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm1		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm3		; SSE-NEXT: movd %eax, %xmm3
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm1		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero
; SSE-NEXT: movd %eax, %xmm4
; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm1		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm5		; SSE-NEXT: movd %eax, %xmm5
; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm1		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE-NEXT: movd %eax, %xmm3
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1],xmm3[2],xmm5[2],xmm3[3],xmm5[3],xmm3[4],xmm5[4],xmm3[5],xmm5[5],xmm3[6],xmm5[6],xmm3[7],xmm5[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1],xmm3[2],xmm5[2],xmm3[3],xmm5[3]
; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]		; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
; SSE-NEXT: movd {{.*#+}} xmm5 = mem[0],zero,zero,zero
; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3],xmm1[4],xmm5[4],xmm1[5],xmm5[5],xmm1[6],xmm5[6],xmm1[7],xmm5[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm4		; SSE-NEXT: movd %eax, %xmm4
		; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm5		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]		; SSE-NEXT: movd {{.*#+}} xmm5 = mem[0],zero,zero,zero
		; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]
		; SSE-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3]
		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm4		; SSE-NEXT: movd %eax, %xmm4
		; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movd %eax, %xmm6		; SSE-NEXT: movd %eax, %xmm6
; SSE-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm4[0],xmm6[1],xmm4[1],xmm6[2],xmm4[2],xmm6[3],xmm4[3],xmm6[4],xmm4[4],xmm6[5],xmm4[5],xmm6[6],xmm4[6],xmm6[7],xmm4[7]		; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3],xmm6[4],xmm5[4],xmm6[5],xmm5[5],xmm6[6],xmm5[6],xmm6[7],xmm5[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]		; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3]
		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]
		; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
; SSE-NEXT: pand %xmm2, %xmm1		; SSE-NEXT: pand %xmm2, %xmm1
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: _clearupper32xi8a:		; AVX-LABEL: _clearupper32xi8a:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0		; AVX-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <32 x i8> %0, i32 0		%x0 = extractelement <32 x i8> %0, i32 0
▲ Show 20 Lines • Show All 1,072 Lines • Show Last 20 Lines

test/CodeGen/X86/haddsub-2.ll

	Show First 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %esi
	; SSE3-NEXT: addl %eax, %esi			; SSE3-NEXT: addl %eax, %esi
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %edi			; SSE3-NEXT: movd %xmm0, %edi
	; SSE3-NEXT: addl %eax, %edi			; SSE3-NEXT: addl %eax, %edi
	; SSE3-NEXT: movd %edi, %xmm0			; SSE3-NEXT: movd %edi, %xmm0
	; SSE3-NEXT: movd %edx, %xmm1			; SSE3-NEXT: movd %esi, %xmm1
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE3-NEXT: movd %esi, %xmm2			; SSE3-NEXT: movd %edx, %xmm2
	; SSE3-NEXT: movd %ecx, %xmm0			; SSE3-NEXT: movd %ecx, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: phadd_d_test1:			; SSSE3-LABEL: phadd_d_test1:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: phaddd %xmm1, %xmm0			; SSSE3-NEXT: phaddd %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; AVX-LABEL: phadd_d_test1:			; AVX-LABEL: phadd_d_test1:
	Show All 32 Lines
	; SSE3-NEXT: movd %xmm0, %edx			; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: addl %eax, %edx			; SSE3-NEXT: addl %eax, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %esi
	; SSE3-NEXT: addl %eax, %esi			; SSE3-NEXT: addl %eax, %esi
	; SSE3-NEXT: movd %esi, %xmm0			; SSE3-NEXT: movd %esi, %xmm0
				; SSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,2,3]
				; SSE3-NEXT: movd %xmm2, %eax
				; SSE3-NEXT: movd %xmm1, %esi
				; SSE3-NEXT: addl %eax, %esi
				; SSE3-NEXT: movd %esi, %xmm1
				; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE3-NEXT: movd %ecx, %xmm2			; SSE3-NEXT: movd %ecx, %xmm2
	; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: movd %xmm1, %ecx
	; SSE3-NEXT: addl %eax, %ecx
	; SSE3-NEXT: movd %ecx, %xmm1
	; SSE3-NEXT: movd %edx, %xmm0			; SSE3-NEXT: movd %edx, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: phadd_d_test2:			; SSSE3-LABEL: phadd_d_test2:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: phaddd %xmm1, %xmm0			; SSSE3-NEXT: phaddd %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; AVX-LABEL: phadd_d_test2:			; AVX-LABEL: phadd_d_test2:
	Show All 36 Lines
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %esi
	; SSE3-NEXT: subl %esi, %edx			; SSE3-NEXT: subl %esi, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %esi
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %edi			; SSE3-NEXT: movd %xmm0, %edi
	; SSE3-NEXT: subl %edi, %esi			; SSE3-NEXT: subl %edi, %esi
	; SSE3-NEXT: movd %esi, %xmm0			; SSE3-NEXT: movd %esi, %xmm0
	; SSE3-NEXT: movd %ecx, %xmm1			; SSE3-NEXT: movd %edx, %xmm1
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE3-NEXT: movd %edx, %xmm2			; SSE3-NEXT: movd %ecx, %xmm2
	; SSE3-NEXT: movd %eax, %xmm0			; SSE3-NEXT: movd %eax, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: phsub_d_test1:			; SSSE3-LABEL: phsub_d_test1:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: phsubd %xmm1, %xmm0			; SSSE3-NEXT: phsubd %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; AVX-LABEL: phsub_d_test1:			; AVX-LABEL: phsub_d_test1:
	Show All 32 Lines
	; SSE3-NEXT: movd %xmm0, %edx			; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: subl %edx, %ecx			; SSE3-NEXT: subl %edx, %ecx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %edx			; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %esi
	; SSE3-NEXT: subl %esi, %edx			; SSE3-NEXT: subl %esi, %edx
	; SSE3-NEXT: movd %edx, %xmm0			; SSE3-NEXT: movd %edx, %xmm0
				; SSE3-NEXT: movd %xmm1, %edx
				; SSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
				; SSE3-NEXT: movd %xmm1, %esi
				; SSE3-NEXT: subl %esi, %edx
				; SSE3-NEXT: movd %edx, %xmm1
				; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE3-NEXT: movd %eax, %xmm2			; SSE3-NEXT: movd %eax, %xmm2
	; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE3-NEXT: movd %xmm1, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: subl %edx, %eax
	; SSE3-NEXT: movd %eax, %xmm1
	; SSE3-NEXT: movd %ecx, %xmm0			; SSE3-NEXT: movd %ecx, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: phsub_d_test2:			; SSSE3-LABEL: phsub_d_test2:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: phsubd %xmm1, %xmm0			; SSSE3-NEXT: phsubd %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; AVX-LABEL: phsub_d_test2:			; AVX-LABEL: phsub_d_test2:
	▲ Show 20 Lines • Show All 180 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,2,3]
	; SSE3-NEXT: movd %xmm4, %r8d			; SSE3-NEXT: movd %xmm4, %r8d
	; SSE3-NEXT: addl %ecx, %r8d			; SSE3-NEXT: addl %ecx, %r8d
	; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; SSE3-NEXT: movd %xmm4, %edx			; SSE3-NEXT: movd %xmm4, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %r9d			; SSE3-NEXT: movd %xmm0, %r9d
	; SSE3-NEXT: addl %edx, %r9d			; SSE3-NEXT: addl %edx, %r9d
	; SSE3-NEXT: movd %xmm1, %esi			; SSE3-NEXT: movd %xmm1, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %r10d
	; SSE3-NEXT: addl %esi, %r10d
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %esi
				; SSE3-NEXT: addl %edx, %esi
				; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
				; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %edi			; SSE3-NEXT: movd %xmm0, %edi
	; SSE3-NEXT: addl %esi, %edi			; SSE3-NEXT: addl %edx, %edi
	; SSE3-NEXT: movd %xmm2, %eax			; SSE3-NEXT: movd %xmm2, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %r11d			; SSE3-NEXT: movd %xmm0, %r10d
	; SSE3-NEXT: addl %eax, %r11d			; SSE3-NEXT: addl %eax, %r10d
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %ecx			; SSE3-NEXT: movd %xmm0, %ecx
	; SSE3-NEXT: addl %eax, %ecx			; SSE3-NEXT: addl %eax, %ecx
	; SSE3-NEXT: movd %xmm3, %eax			; SSE3-NEXT: movd %xmm3, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %edx			; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: addl %eax, %edx			; SSE3-NEXT: addl %eax, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %r11d
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: addl %eax, %esi			; SSE3-NEXT: addl %r11d, %eax
	; SSE3-NEXT: movd %edi, %xmm0			; SSE3-NEXT: movd %edi, %xmm0
	; SSE3-NEXT: movd %r9d, %xmm1			; SSE3-NEXT: movd %esi, %xmm1
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE3-NEXT: movd %r10d, %xmm2			; SSE3-NEXT: movd %r9d, %xmm2
	; SSE3-NEXT: movd %r8d, %xmm0			; SSE3-NEXT: movd %r8d, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE3-NEXT: movd %esi, %xmm1			; SSE3-NEXT: movd %eax, %xmm1
	; SSE3-NEXT: movd %ecx, %xmm2			; SSE3-NEXT: movd %edx, %xmm2
	; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSE3-NEXT: movd %edx, %xmm3			; SSE3-NEXT: movd %ecx, %xmm3
	; SSE3-NEXT: movd %r11d, %xmm1			; SSE3-NEXT: movd %r10d, %xmm1
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: avx2_vphadd_d_test:			; SSSE3-LABEL: avx2_vphadd_d_test:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: phaddd %xmm1, %xmm0			; SSSE3-NEXT: phaddd %xmm1, %xmm0
	; SSSE3-NEXT: phaddd %xmm3, %xmm2			; SSSE3-NEXT: phaddd %xmm3, %xmm2
	; SSSE3-NEXT: movdqa %xmm2, %xmm1			; SSSE3-NEXT: movdqa %xmm2, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: .cfi_offset %r15, -24			; SSE3-NEXT: .cfi_offset %r15, -24
	; SSE3-NEXT: .Lcfi11:			; SSE3-NEXT: .Lcfi11:
	; SSE3-NEXT: .cfi_offset %rbp, -16			; SSE3-NEXT: .cfi_offset %rbp, -16
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: pextrw $1, %xmm0, %ecx			; SSE3-NEXT: pextrw $1, %xmm0, %ecx
	; SSE3-NEXT: addl %eax, %ecx			; SSE3-NEXT: addl %eax, %ecx
	; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill			; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill
	; SSE3-NEXT: pextrw $2, %xmm0, %eax			; SSE3-NEXT: pextrw $2, %xmm0, %eax
	; SSE3-NEXT: pextrw $3, %xmm0, %r11d			; SSE3-NEXT: pextrw $3, %xmm0, %ecx
	; SSE3-NEXT: addl %eax, %r11d			; SSE3-NEXT: addl %eax, %ecx
				; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill
	; SSE3-NEXT: pextrw $4, %xmm0, %eax			; SSE3-NEXT: pextrw $4, %xmm0, %eax
	; SSE3-NEXT: pextrw $5, %xmm0, %r10d			; SSE3-NEXT: pextrw $5, %xmm0, %r11d
	; SSE3-NEXT: addl %eax, %r10d			; SSE3-NEXT: addl %eax, %r11d
	; SSE3-NEXT: pextrw $6, %xmm0, %eax			; SSE3-NEXT: pextrw $6, %xmm0, %eax
	; SSE3-NEXT: pextrw $7, %xmm0, %r13d			; SSE3-NEXT: pextrw $7, %xmm0, %r15d
	; SSE3-NEXT: addl %eax, %r13d			; SSE3-NEXT: addl %eax, %r15d
	; SSE3-NEXT: movd %xmm1, %eax			; SSE3-NEXT: movd %xmm1, %eax
	; SSE3-NEXT: pextrw $1, %xmm1, %r14d			; SSE3-NEXT: pextrw $1, %xmm1, %r13d
	; SSE3-NEXT: addl %eax, %r14d			; SSE3-NEXT: addl %eax, %r13d
	; SSE3-NEXT: pextrw $2, %xmm1, %eax			; SSE3-NEXT: pextrw $2, %xmm1, %eax
	; SSE3-NEXT: pextrw $3, %xmm1, %ebp			; SSE3-NEXT: pextrw $3, %xmm1, %ebx
	; SSE3-NEXT: addl %eax, %ebp
	; SSE3-NEXT: pextrw $4, %xmm1, %eax
	; SSE3-NEXT: pextrw $5, %xmm1, %ebx
	; SSE3-NEXT: addl %eax, %ebx			; SSE3-NEXT: addl %eax, %ebx
				; SSE3-NEXT: pextrw $4, %xmm1, %eax
				; SSE3-NEXT: pextrw $5, %xmm1, %r8d
				; SSE3-NEXT: addl %eax, %r8d
	; SSE3-NEXT: pextrw $6, %xmm1, %eax			; SSE3-NEXT: pextrw $6, %xmm1, %eax
	; SSE3-NEXT: pextrw $7, %xmm1, %edx			; SSE3-NEXT: pextrw $7, %xmm1, %esi
	; SSE3-NEXT: addl %eax, %edx			; SSE3-NEXT: addl %eax, %esi
	; SSE3-NEXT: movd %xmm2, %eax			; SSE3-NEXT: movd %xmm2, %eax
	; SSE3-NEXT: pextrw $1, %xmm2, %ecx			; SSE3-NEXT: pextrw $1, %xmm2, %r10d
	; SSE3-NEXT: addl %eax, %ecx			; SSE3-NEXT: addl %eax, %r10d
	; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill
	; SSE3-NEXT: pextrw $2, %xmm2, %eax			; SSE3-NEXT: pextrw $2, %xmm2, %eax
	; SSE3-NEXT: pextrw $3, %xmm2, %r12d			; SSE3-NEXT: pextrw $3, %xmm2, %r14d
	; SSE3-NEXT: addl %eax, %r12d			; SSE3-NEXT: addl %eax, %r14d
	; SSE3-NEXT: pextrw $4, %xmm2, %eax			; SSE3-NEXT: pextrw $4, %xmm2, %eax
	; SSE3-NEXT: pextrw $5, %xmm2, %r15d			; SSE3-NEXT: pextrw $5, %xmm2, %r12d
	; SSE3-NEXT: addl %eax, %r15d			; SSE3-NEXT: addl %eax, %r12d
	; SSE3-NEXT: pextrw $6, %xmm2, %eax			; SSE3-NEXT: pextrw $6, %xmm2, %eax
	; SSE3-NEXT: pextrw $7, %xmm2, %r8d			; SSE3-NEXT: pextrw $7, %xmm2, %r9d
	; SSE3-NEXT: addl %eax, %r8d
	; SSE3-NEXT: movd %xmm3, %eax
	; SSE3-NEXT: pextrw $1, %xmm3, %r9d
	; SSE3-NEXT: addl %eax, %r9d			; SSE3-NEXT: addl %eax, %r9d
	; SSE3-NEXT: pextrw $2, %xmm3, %eax			; SSE3-NEXT: movd %xmm3, %eax
	; SSE3-NEXT: pextrw $3, %xmm3, %esi			; SSE3-NEXT: pextrw $1, %xmm3, %ebp
	; SSE3-NEXT: addl %eax, %esi			; SSE3-NEXT: addl %eax, %ebp
	; SSE3-NEXT: pextrw $4, %xmm3, %eax			; SSE3-NEXT: pextrw $2, %xmm3, %edx
	; SSE3-NEXT: pextrw $5, %xmm3, %edi			; SSE3-NEXT: pextrw $3, %xmm3, %edi
	; SSE3-NEXT: addl %eax, %edi			; SSE3-NEXT: addl %edx, %edi
	; SSE3-NEXT: pextrw $6, %xmm3, %ecx			; SSE3-NEXT: pextrw $4, %xmm3, %edx
				; SSE3-NEXT: pextrw $5, %xmm3, %ecx
				; SSE3-NEXT: addl %edx, %ecx
				; SSE3-NEXT: pextrw $6, %xmm3, %edx
	; SSE3-NEXT: pextrw $7, %xmm3, %eax			; SSE3-NEXT: pextrw $7, %xmm3, %eax
	; SSE3-NEXT: addl %ecx, %eax			; SSE3-NEXT: addl %edx, %eax
	; SSE3-NEXT: movd %edx, %xmm8			; SSE3-NEXT: movd %esi, %xmm8
	; SSE3-NEXT: movd %r13d, %xmm3			; SSE3-NEXT: movd %r8d, %xmm3
	; SSE3-NEXT: movd %ebp, %xmm9			; SSE3-NEXT: movd %ebx, %xmm9
	; SSE3-NEXT: movd %r11d, %xmm4			; SSE3-NEXT: movd %r13d, %xmm4
	; SSE3-NEXT: movd %ebx, %xmm10			; SSE3-NEXT: movd %r15d, %xmm10
	; SSE3-NEXT: movd %r10d, %xmm7			; SSE3-NEXT: movd %r11d, %xmm7
	; SSE3-NEXT: movd %r14d, %xmm11			; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm11 # 4-byte Folded Reload
				; SSE3-NEXT: # xmm11 = mem[0],zero,zero,zero
	; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm0 # 4-byte Folded Reload			; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm0 # 4-byte Folded Reload
	; SSE3-NEXT: # xmm0 = mem[0],zero,zero,zero			; SSE3-NEXT: # xmm0 = mem[0],zero,zero,zero
	; SSE3-NEXT: movd %eax, %xmm12			; SSE3-NEXT: movd %eax, %xmm12
	; SSE3-NEXT: movd %r8d, %xmm6			; SSE3-NEXT: movd %ecx, %xmm6
	; SSE3-NEXT: movd %esi, %xmm13			; SSE3-NEXT: movd %edi, %xmm13
	; SSE3-NEXT: movd %r12d, %xmm5			; SSE3-NEXT: movd %ebp, %xmm5
	; SSE3-NEXT: movd %edi, %xmm14			; SSE3-NEXT: movd %r9d, %xmm14
	; SSE3-NEXT: movd %r15d, %xmm2			; SSE3-NEXT: movd %r12d, %xmm2
	; SSE3-NEXT: movd %r9d, %xmm15			; SSE3-NEXT: movd %r14d, %xmm15
	; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm1 # 4-byte Folded Reload			; SSE3-NEXT: movd %r10d, %xmm1
	; SSE3-NEXT: # xmm1 = mem[0],zero,zero,zero
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm9[0],xmm4[1],xmm9[1],xmm4[2],xmm9[2],xmm4[3],xmm9[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm9[0],xmm4[1],xmm9[1],xmm4[2],xmm9[2],xmm4[3],xmm9[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm11[0],xmm0[1],xmm11[1],xmm0[2],xmm11[2],xmm0[3],xmm11[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm11[0],xmm0[1],xmm11[1],xmm0[2],xmm11[2],xmm0[3],xmm11[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1],xmm6[2],xmm12[2],xmm6[3],xmm12[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1],xmm6[2],xmm12[2],xmm6[3],xmm12[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm13[0],xmm5[1],xmm13[1],xmm5[2],xmm13[2],xmm5[3],xmm13[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm13[0],xmm5[1],xmm13[1],xmm5[2],xmm13[2],xmm5[3],xmm13[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1],xmm5[2],xmm6[2],xmm5[3],xmm6[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm5[0]
	; SSE3-NEXT: popq %rbx			; SSE3-NEXT: popq %rbx
	; SSE3-NEXT: popq %r12			; SSE3-NEXT: popq %r12
	; SSE3-NEXT: popq %r13			; SSE3-NEXT: popq %r13
	; SSE3-NEXT: popq %r14			; SSE3-NEXT: popq %r14
	; SSE3-NEXT: popq %r15			; SSE3-NEXT: popq %r15
	; SSE3-NEXT: popq %rbp			; SSE3-NEXT: popq %rbp
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movd %xmm1, %esi			; SSE-NEXT: movd %xmm1, %esi
	; SSE-NEXT: subl %esi, %edx			; SSE-NEXT: subl %esi, %edx
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	; SSE-NEXT: movd %xmm0, %esi			; SSE-NEXT: movd %xmm0, %esi
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: movd %xmm0, %edi			; SSE-NEXT: movd %xmm0, %edi
	; SSE-NEXT: subl %edi, %esi			; SSE-NEXT: subl %edi, %esi
	; SSE-NEXT: movd %esi, %xmm0			; SSE-NEXT: movd %esi, %xmm0
	; SSE-NEXT: movd %ecx, %xmm1			; SSE-NEXT: movd %edx, %xmm1
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE-NEXT: movd %edx, %xmm2			; SSE-NEXT: movd %ecx, %xmm2
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: not_a_hsub_1:			; AVX-LABEL: not_a_hsub_1:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: vpextrd $1, %xmm0, %ecx			; AVX-NEXT: vpextrd $1, %xmm0, %ecx
	; AVX-NEXT: subl %ecx, %eax			; AVX-NEXT: subl %ecx, %eax
	; AVX-NEXT: vpextrd $2, %xmm0, %ecx			; AVX-NEXT: vpextrd $2, %xmm0, %ecx
	Show All 39 Lines
	; SSE-NEXT: subss %xmm3, %xmm2			; SSE-NEXT: subss %xmm3, %xmm2
	; SSE-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE-NEXT: subss %xmm3, %xmm0			; SSE-NEXT: subss %xmm3, %xmm0
	; SSE-NEXT: movaps %xmm1, %xmm3			; SSE-NEXT: movaps %xmm1, %xmm3
	; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]
	; SSE-NEXT: movaps %xmm1, %xmm4			; SSE-NEXT: movaps %xmm1, %xmm4
	; SSE-NEXT: movhlps {{.*#+}} xmm4 = xmm4[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm4 = xmm4[1,1]
	; SSE-NEXT: subss %xmm4, %xmm3			; SSE-NEXT: subss %xmm4, %xmm3
	; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; SSE-NEXT: movshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; SSE-NEXT: movshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; SSE-NEXT: subss %xmm4, %xmm1
	; SSE-NEXT: subss %xmm3, %xmm1			; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: not_a_hsub_2:			; AVX-LABEL: not_a_hsub_2:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[3,1,2,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[3,1,2,3]
	; AVX-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,2,3]
	; SSE3-NEXT: movd %xmm4, %r8d			; SSE3-NEXT: movd %xmm4, %r8d
	; SSE3-NEXT: addl %ecx, %r8d			; SSE3-NEXT: addl %ecx, %r8d
	; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; SSE3-NEXT: movd %xmm4, %edx			; SSE3-NEXT: movd %xmm4, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %r9d			; SSE3-NEXT: movd %xmm0, %r9d
	; SSE3-NEXT: addl %edx, %r9d			; SSE3-NEXT: addl %edx, %r9d
	; SSE3-NEXT: movd %xmm2, %esi			; SSE3-NEXT: movd %xmm2, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %r10d
	; SSE3-NEXT: addl %esi, %r10d
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %esi
				; SSE3-NEXT: addl %edx, %esi
				; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
				; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %edi			; SSE3-NEXT: movd %xmm0, %edi
	; SSE3-NEXT: addl %esi, %edi			; SSE3-NEXT: addl %edx, %edi
	; SSE3-NEXT: movd %xmm1, %eax			; SSE3-NEXT: movd %xmm1, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %r11d			; SSE3-NEXT: movd %xmm0, %r10d
	; SSE3-NEXT: addl %eax, %r11d			; SSE3-NEXT: addl %eax, %r10d
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %ecx			; SSE3-NEXT: movd %xmm0, %ecx
	; SSE3-NEXT: addl %eax, %ecx			; SSE3-NEXT: addl %eax, %ecx
	; SSE3-NEXT: movd %xmm3, %eax			; SSE3-NEXT: movd %xmm3, %eax
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]
	; SSE3-NEXT: movd %xmm0, %edx			; SSE3-NEXT: movd %xmm0, %edx
	; SSE3-NEXT: addl %eax, %edx			; SSE3-NEXT: addl %eax, %edx
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[2,3,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[2,3,0,1]
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %r11d
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[3,1,2,3]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[3,1,2,3]
	; SSE3-NEXT: movd %xmm0, %esi			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: addl %eax, %esi			; SSE3-NEXT: addl %r11d, %eax
	; SSE3-NEXT: movd %edi, %xmm0			; SSE3-NEXT: movd %edi, %xmm0
	; SSE3-NEXT: movd %r9d, %xmm1			; SSE3-NEXT: movd %esi, %xmm1
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE3-NEXT: movd %r10d, %xmm2			; SSE3-NEXT: movd %r9d, %xmm2
	; SSE3-NEXT: movd %r8d, %xmm0			; SSE3-NEXT: movd %r8d, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE3-NEXT: movd %esi, %xmm1			; SSE3-NEXT: movd %eax, %xmm1
	; SSE3-NEXT: movd %ecx, %xmm2			; SSE3-NEXT: movd %edx, %xmm2
	; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSE3-NEXT: movd %edx, %xmm3			; SSE3-NEXT: movd %ecx, %xmm3
	; SSE3-NEXT: movd %r11d, %xmm1			; SSE3-NEXT: movd %r10d, %xmm1
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: avx2_hadd_d:			; SSSE3-LABEL: avx2_hadd_d:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: phaddd %xmm2, %xmm0			; SSSE3-NEXT: phaddd %xmm2, %xmm0
	; SSSE3-NEXT: phaddd %xmm3, %xmm1			; SSSE3-NEXT: phaddd %xmm3, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: .cfi_offset %r13, -40			; SSE3-NEXT: .cfi_offset %r13, -40
	; SSE3-NEXT: .Lcfi21:			; SSE3-NEXT: .Lcfi21:
	; SSE3-NEXT: .cfi_offset %r14, -32			; SSE3-NEXT: .cfi_offset %r14, -32
	; SSE3-NEXT: .Lcfi22:			; SSE3-NEXT: .Lcfi22:
	; SSE3-NEXT: .cfi_offset %r15, -24			; SSE3-NEXT: .cfi_offset %r15, -24
	; SSE3-NEXT: .Lcfi23:			; SSE3-NEXT: .Lcfi23:
	; SSE3-NEXT: .cfi_offset %rbp, -16			; SSE3-NEXT: .cfi_offset %rbp, -16
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: pextrw $1, %xmm0, %ecx			; SSE3-NEXT: pextrw $1, %xmm0, %r10d
	; SSE3-NEXT: addl %eax, %ecx			; SSE3-NEXT: addl %eax, %r10d
	; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill
	; SSE3-NEXT: pextrw $2, %xmm0, %eax			; SSE3-NEXT: pextrw $2, %xmm0, %eax
	; SSE3-NEXT: pextrw $3, %xmm0, %r15d			; SSE3-NEXT: pextrw $3, %xmm0, %r11d
	; SSE3-NEXT: addl %eax, %r15d			; SSE3-NEXT: addl %eax, %r11d
	; SSE3-NEXT: pextrw $4, %xmm0, %eax			; SSE3-NEXT: pextrw $4, %xmm0, %eax
	; SSE3-NEXT: pextrw $5, %xmm0, %r14d			; SSE3-NEXT: pextrw $5, %xmm0, %r12d
	; SSE3-NEXT: addl %eax, %r14d			; SSE3-NEXT: addl %eax, %r12d
	; SSE3-NEXT: pextrw $6, %xmm0, %eax			; SSE3-NEXT: pextrw $6, %xmm0, %eax
	; SSE3-NEXT: pextrw $7, %xmm0, %r13d			; SSE3-NEXT: pextrw $7, %xmm0, %r13d
	; SSE3-NEXT: addl %eax, %r13d			; SSE3-NEXT: addl %eax, %r13d
	; SSE3-NEXT: movd %xmm1, %eax			; SSE3-NEXT: movd %xmm1, %eax
	; SSE3-NEXT: pextrw $1, %xmm1, %ecx			; SSE3-NEXT: pextrw $1, %xmm1, %ecx
	; SSE3-NEXT: addl %eax, %ecx			; SSE3-NEXT: addl %eax, %ecx
	; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill			; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill
	; SSE3-NEXT: pextrw $2, %xmm1, %eax			; SSE3-NEXT: pextrw $2, %xmm1, %eax
	; SSE3-NEXT: pextrw $3, %xmm1, %r11d			; SSE3-NEXT: pextrw $3, %xmm1, %ecx
	; SSE3-NEXT: addl %eax, %r11d
	; SSE3-NEXT: pextrw $4, %xmm1, %eax
	; SSE3-NEXT: pextrw $5, %xmm1, %r10d
	; SSE3-NEXT: addl %eax, %r10d
	; SSE3-NEXT: pextrw $6, %xmm1, %eax
	; SSE3-NEXT: pextrw $7, %xmm1, %r12d
	; SSE3-NEXT: addl %eax, %r12d
	; SSE3-NEXT: movd %xmm2, %eax
	; SSE3-NEXT: pextrw $1, %xmm2, %ebx
	; SSE3-NEXT: addl %eax, %ebx
	; SSE3-NEXT: pextrw $2, %xmm2, %eax
	; SSE3-NEXT: pextrw $3, %xmm2, %ecx
	; SSE3-NEXT: addl %eax, %ecx			; SSE3-NEXT: addl %eax, %ecx
				; SSE3-NEXT: movl %ecx, -{{[0-9]+}}(%rsp) # 4-byte Spill
				; SSE3-NEXT: pextrw $4, %xmm1, %eax
				; SSE3-NEXT: pextrw $5, %xmm1, %r14d
				; SSE3-NEXT: addl %eax, %r14d
				; SSE3-NEXT: pextrw $6, %xmm1, %esi
				; SSE3-NEXT: pextrw $7, %xmm1, %r15d
				; SSE3-NEXT: addl %esi, %r15d
				; SSE3-NEXT: movd %xmm2, %esi
				; SSE3-NEXT: pextrw $1, %xmm2, %ebp
				; SSE3-NEXT: addl %esi, %ebp
				; SSE3-NEXT: pextrw $2, %xmm2, %esi
				; SSE3-NEXT: pextrw $3, %xmm2, %edi
				; SSE3-NEXT: addl %esi, %edi
	; SSE3-NEXT: pextrw $4, %xmm2, %esi			; SSE3-NEXT: pextrw $4, %xmm2, %esi
	; SSE3-NEXT: pextrw $5, %xmm2, %r8d			; SSE3-NEXT: pextrw $5, %xmm2, %eax
	; SSE3-NEXT: addl %esi, %r8d			; SSE3-NEXT: addl %esi, %eax
	; SSE3-NEXT: pextrw $6, %xmm2, %esi			; SSE3-NEXT: pextrw $6, %xmm2, %esi
	; SSE3-NEXT: pextrw $7, %xmm2, %edx			; SSE3-NEXT: pextrw $7, %xmm2, %ecx
	; SSE3-NEXT: addl %esi, %edx			; SSE3-NEXT: addl %esi, %ecx
	; SSE3-NEXT: movd %xmm3, %edi			; SSE3-NEXT: movd %xmm3, %ebx
	; SSE3-NEXT: pextrw $1, %xmm3, %r9d			; SSE3-NEXT: pextrw $1, %xmm3, %r9d
	; SSE3-NEXT: addl %edi, %r9d			; SSE3-NEXT: addl %ebx, %r9d
	; SSE3-NEXT: pextrw $2, %xmm3, %ebp			; SSE3-NEXT: pextrw $2, %xmm3, %edx
	; SSE3-NEXT: pextrw $3, %xmm3, %edi			; SSE3-NEXT: pextrw $3, %xmm3, %ebx
	; SSE3-NEXT: addl %ebp, %edi			; SSE3-NEXT: addl %edx, %ebx
	; SSE3-NEXT: pextrw $4, %xmm3, %eax			; SSE3-NEXT: pextrw $4, %xmm3, %edx
	; SSE3-NEXT: pextrw $5, %xmm3, %ebp			; SSE3-NEXT: pextrw $5, %xmm3, %esi
	; SSE3-NEXT: addl %eax, %ebp			; SSE3-NEXT: addl %edx, %esi
	; SSE3-NEXT: pextrw $6, %xmm3, %esi			; SSE3-NEXT: pextrw $6, %xmm3, %r8d
	; SSE3-NEXT: pextrw $7, %xmm3, %eax			; SSE3-NEXT: pextrw $7, %xmm3, %edx
	; SSE3-NEXT: addl %esi, %eax			; SSE3-NEXT: addl %r8d, %edx
	; SSE3-NEXT: movd %edx, %xmm8			; SSE3-NEXT: movd %ecx, %xmm8
	; SSE3-NEXT: movd %r13d, %xmm3			; SSE3-NEXT: movd %eax, %xmm3
	; SSE3-NEXT: movd %ecx, %xmm9			; SSE3-NEXT: movd %edi, %xmm9
	; SSE3-NEXT: movd %r15d, %xmm4			; SSE3-NEXT: movd %ebp, %xmm4
	; SSE3-NEXT: movd %r8d, %xmm10			; SSE3-NEXT: movd %r13d, %xmm10
	; SSE3-NEXT: movd %r14d, %xmm7			; SSE3-NEXT: movd %r12d, %xmm7
	; SSE3-NEXT: movd %ebx, %xmm11			; SSE3-NEXT: movd %r11d, %xmm11
	; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm0 # 4-byte Folded Reload			; SSE3-NEXT: movd %r10d, %xmm0
	; SSE3-NEXT: # xmm0 = mem[0],zero,zero,zero			; SSE3-NEXT: movd %edx, %xmm12
	; SSE3-NEXT: movd %eax, %xmm12			; SSE3-NEXT: movd %esi, %xmm6
	; SSE3-NEXT: movd %r12d, %xmm6			; SSE3-NEXT: movd %ebx, %xmm13
	; SSE3-NEXT: movd %edi, %xmm13			; SSE3-NEXT: movd %r9d, %xmm5
	; SSE3-NEXT: movd %r11d, %xmm5			; SSE3-NEXT: movd %r15d, %xmm14
	; SSE3-NEXT: movd %ebp, %xmm14			; SSE3-NEXT: movd %r14d, %xmm2
	; SSE3-NEXT: movd %r10d, %xmm2			; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm15 # 4-byte Folded Reload
	; SSE3-NEXT: movd %r9d, %xmm15			; SSE3-NEXT: # xmm15 = mem[0],zero,zero,zero
	; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm1 # 4-byte Folded Reload			; SSE3-NEXT: movd -{{[0-9]+}}(%rsp), %xmm1 # 4-byte Folded Reload
	; SSE3-NEXT: # xmm1 = mem[0],zero,zero,zero			; SSE3-NEXT: # xmm1 = mem[0],zero,zero,zero
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm9[0],xmm4[1],xmm9[1],xmm4[2],xmm9[2],xmm4[3],xmm9[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm9[0],xmm4[1],xmm9[1],xmm4[2],xmm9[2],xmm4[3],xmm9[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm11[0],xmm0[1],xmm11[1],xmm0[2],xmm11[2],xmm0[3],xmm11[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm11[0],xmm0[1],xmm11[1],xmm0[2],xmm11[2],xmm0[3],xmm11[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1],xmm6[2],xmm12[2],xmm6[3],xmm12[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1],xmm6[2],xmm12[2],xmm6[3],xmm12[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm13[0],xmm5[1],xmm13[1],xmm5[2],xmm13[2],xmm5[3],xmm13[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm13[0],xmm5[1],xmm13[1],xmm5[2],xmm13[2],xmm5[3],xmm13[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1],xmm5[2],xmm6[2],xmm5[3],xmm6[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm5[0]
	; SSE3-NEXT: popq %rbx			; SSE3-NEXT: popq %rbx
	; SSE3-NEXT: popq %r12			; SSE3-NEXT: popq %r12
	; SSE3-NEXT: popq %r13			; SSE3-NEXT: popq %r13
	; SSE3-NEXT: popq %r14			; SSE3-NEXT: popq %r14
	; SSE3-NEXT: popq %r15			; SSE3-NEXT: popq %r15
	; SSE3-NEXT: popq %rbp			; SSE3-NEXT: popq %rbp
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 85 Lines • Show Last 20 Lines

test/CodeGen/X86/haddsub-undef.ll

	Show First 20 Lines • Show All 165 Lines • ▼ Show 20 Lines
	; SSE-LABEL: test8_undef:			; SSE-LABEL: test8_undef:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE-NEXT: addss %xmm0, %xmm1			; SSE-NEXT: addss %xmm0, %xmm1
	; SSE-NEXT: movaps %xmm0, %xmm2			; SSE-NEXT: movaps %xmm0, %xmm2
	; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; SSE-NEXT: addss %xmm2, %xmm0			; SSE-NEXT: addss %xmm2, %xmm0
	; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1,1,3]			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test8_undef:			; AVX-LABEL: test8_undef:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	▲ Show 20 Lines • Show All 268 Lines • Show Last 20 Lines

test/CodeGen/X86/merge-consecutive-loads-128.ll

Show First 20 Lines • Show All 263 Lines • ▼ Show 20 Lines	; X32-SSE41-NEXT: retl
%res1 = insertelement <4 x float> %res0, float %val1, i32 1		%res1 = insertelement <4 x float> %res0, float %val1, i32 1
ret <4 x float> %res1		ret <4 x float> %res1
}		}

define <4 x float> @merge_4f32_f32_012u(float* %ptr) nounwind uwtable noinline ssp {		define <4 x float> @merge_4f32_f32_012u(float* %ptr) nounwind uwtable noinline ssp {
; SSE2-LABEL: merge_4f32_f32_012u:		; SSE2-LABEL: merge_4f32_f32_012u:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: merge_4f32_f32_012u:		; SSE41-LABEL: merge_4f32_f32_012u:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: merge_4f32_f32_012u:		; AVX-LABEL: merge_4f32_f32_012u:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; X32-SSE1-LABEL: merge_4f32_f32_012u:		; X32-SSE1-LABEL: merge_4f32_f32_012u:
; X32-SSE1: # BB#0:		; X32-SSE1: # BB#0:
; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; X32-SSE1-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X32-SSE1-NEXT: retl		; X32-SSE1-NEXT: retl
;		;
; X32-SSE41-LABEL: merge_4f32_f32_012u:		; X32-SSE41-LABEL: merge_4f32_f32_012u:
; X32-SSE41: # BB#0:		; X32-SSE41: # BB#0:
; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X32-SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; X32-SSE41-NEXT: retl		; X32-SSE41-NEXT: retl
Show All 9 Lines	; X32-SSE41-NEXT: retl
%res3 = insertelement <4 x float> %res2, float undef, i32 3		%res3 = insertelement <4 x float> %res2, float undef, i32 3
ret <4 x float> %res3		ret <4 x float> %res3
}		}

define <4 x float> @merge_4f32_f32_019u(float* %ptr) nounwind uwtable noinline ssp {		define <4 x float> @merge_4f32_f32_019u(float* %ptr) nounwind uwtable noinline ssp {
; SSE2-LABEL: merge_4f32_f32_019u:		; SSE2-LABEL: merge_4f32_f32_019u:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: merge_4f32_f32_019u:		; SSE41-LABEL: merge_4f32_f32_019u:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: merge_4f32_f32_019u:		; AVX-LABEL: merge_4f32_f32_019u:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; X32-SSE1-LABEL: merge_4f32_f32_019u:		; X32-SSE1-LABEL: merge_4f32_f32_019u:
; X32-SSE1: # BB#0:		; X32-SSE1: # BB#0:
; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; X32-SSE1-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X32-SSE1-NEXT: retl		; X32-SSE1-NEXT: retl
;		;
; X32-SSE41-LABEL: merge_4f32_f32_019u:		; X32-SSE41-LABEL: merge_4f32_f32_019u:
; X32-SSE41: # BB#0:		; X32-SSE41: # BB#0:
; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X32-SSE41-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; X32-SSE41-NEXT: retl		; X32-SSE41-NEXT: retl
▲ Show 20 Lines • Show All 675 Lines • ▼ Show 20 Lines	; X32-SSE41-NEXT: retl
%res0 = insertelement <2 x i64> undef, i64 %val0, i32 0		%res0 = insertelement <2 x i64> undef, i64 %val0, i32 0
%res1 = insertelement <2 x i64> %res0, i64 %val1, i32 1		%res1 = insertelement <2 x i64> %res0, i64 %val1, i32 1
ret <2 x i64> %res1		ret <2 x i64> %res1
}		}

define <4 x float> @merge_4f32_f32_2345_volatile(float* %ptr) nounwind uwtable noinline ssp {		define <4 x float> @merge_4f32_f32_2345_volatile(float* %ptr) nounwind uwtable noinline ssp {
; SSE2-LABEL: merge_4f32_f32_2345_volatile:		; SSE2-LABEL: merge_4f32_f32_2345_volatile:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
		; SSE2-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: merge_4f32_f32_2345_volatile:		; SSE41-LABEL: merge_4f32_f32_2345_volatile:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: merge_4f32_f32_2345_volatile:		; AVX-LABEL: merge_4f32_f32_2345_volatile:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; X32-SSE1-LABEL: merge_4f32_f32_2345_volatile:		; X32-SSE1-LABEL: merge_4f32_f32_2345_volatile:
; X32-SSE1: # BB#0:		; X32-SSE1: # BB#0:
; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax
		; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-SSE1-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
		; X32-SSE1-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X32-SSE1-NEXT: retl		; X32-SSE1-NEXT: retl
;		;
; X32-SSE41-LABEL: merge_4f32_f32_2345_volatile:		; X32-SSE41-LABEL: merge_4f32_f32_2345_volatile:
; X32-SSE41: # BB#0:		; X32-SSE41: # BB#0:
; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

test/CodeGen/X86/select.ll

	Show First 20 Lines • Show All 308 Lines • ▼ Show 20 Lines
	; GENERIC-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; GENERIC-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; GENERIC-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; GENERIC-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; GENERIC-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; GENERIC-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; GENERIC-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; GENERIC-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; GENERIC-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; GENERIC-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; GENERIC-NEXT: jmp LBB7_6			; GENERIC-NEXT: jmp LBB7_6
	; GENERIC-NEXT: LBB7_4:			; GENERIC-NEXT: LBB7_4:
	; GENERIC-NEXT: movd %r9d, %xmm1			; GENERIC-NEXT: movd %r9d, %xmm1
	; GENERIC-NEXT: movd %ecx, %xmm2			; GENERIC-NEXT: movd %r8d, %xmm2
	; GENERIC-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; GENERIC-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; GENERIC-NEXT: movd %r8d, %xmm3			; GENERIC-NEXT: movd %ecx, %xmm3
	; GENERIC-NEXT: movd %edx, %xmm1			; GENERIC-NEXT: movd %edx, %xmm1
	; GENERIC-NEXT: LBB7_6:			; GENERIC-NEXT: LBB7_6:
	; GENERIC-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; GENERIC-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; GENERIC-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; GENERIC-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; GENERIC-NEXT: psubd {{.*}}(%rip), %xmm1			; GENERIC-NEXT: psubd {{.*}}(%rip), %xmm1
	; GENERIC-NEXT: psubd {{.*}}(%rip), %xmm0			; GENERIC-NEXT: psubd {{.*}}(%rip), %xmm0
	; GENERIC-NEXT: movq %xmm0, 16(%rsi)			; GENERIC-NEXT: movq %xmm0, 16(%rsi)
	; GENERIC-NEXT: movdqa %xmm1, (%rsi)			; GENERIC-NEXT: movdqa %xmm1, (%rsi)
	; GENERIC-NEXT: retq			; GENERIC-NEXT: retq
	; GENERIC-NEXT: ## -- End function			; GENERIC-NEXT: ## -- End function
	;			;
	; ATOM-LABEL: test8:			; ATOM-LABEL: test8:
	Show All 13 Lines
	; ATOM-NEXT: jne LBB7_4			; ATOM-NEXT: jne LBB7_4
	; ATOM-NEXT: ## BB#5:			; ATOM-NEXT: ## BB#5:
	; ATOM-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; ATOM-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; ATOM-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; ATOM-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; ATOM-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero			; ATOM-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero
	; ATOM-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; ATOM-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; ATOM-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; ATOM-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; ATOM-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]			; ATOM-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]
	; ATOM-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; ATOM-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; ATOM-NEXT: jmp LBB7_6			; ATOM-NEXT: jmp LBB7_6
	; ATOM-NEXT: LBB7_4:			; ATOM-NEXT: LBB7_4:
	; ATOM-NEXT: movd %r9d, %xmm1			; ATOM-NEXT: movd %r9d, %xmm1
	; ATOM-NEXT: movd %ecx, %xmm2			; ATOM-NEXT: movd %r8d, %xmm2
	; ATOM-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; ATOM-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; ATOM-NEXT: movd %r8d, %xmm3			; ATOM-NEXT: movd %ecx, %xmm3
	; ATOM-NEXT: movd %edx, %xmm1			; ATOM-NEXT: movd %edx, %xmm1
	; ATOM-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; ATOM-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; ATOM-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; ATOM-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; ATOM-NEXT: LBB7_6:			; ATOM-NEXT: LBB7_6:
	; ATOM-NEXT: psubd {{.*}}(%rip), %xmm0			; ATOM-NEXT: psubd {{.*}}(%rip), %xmm0
	; ATOM-NEXT: psubd {{.*}}(%rip), %xmm1			; ATOM-NEXT: psubd {{.*}}(%rip), %xmm1
	; ATOM-NEXT: movq %xmm0, 16(%rsi)			; ATOM-NEXT: movq %xmm0, 16(%rsi)
	; ATOM-NEXT: movdqa %xmm1, (%rsi)			; ATOM-NEXT: movdqa %xmm1, (%rsi)
	; ATOM-NEXT: retq			; ATOM-NEXT: retq
	; ATOM-NEXT: ## -- End function			; ATOM-NEXT: ## -- End function
	;			;
	▲ Show 20 Lines • Show All 832 Lines • Show Last 20 Lines

test/CodeGen/X86/sse-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edx			; X32-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %esi			; X32-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)			; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)
	; X32-NEXT: andl {{[0-9]+}}(%esp), %esi			; X32-NEXT: andl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movl %esi, (%esp)			; X32-NEXT: movl %esi, (%esp)
	; X32-NEXT: andl {{[0-9]+}}(%esp), %edx			; X32-NEXT: andl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)
	; X32-NEXT: andl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: andl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: andl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)
				; X32-NEXT: andl {{[0-9]+}}(%esp), %eax
				; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: leal -4(%ebp), %esp			; X32-NEXT: leal -4(%ebp), %esp
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_and_ps:			; X64-LABEL: test_mm_and_ps:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rax			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rax
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8
	; X64-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx
	; X64-NEXT: movq %rdx, %rsi			; X64-NEXT: movq %rdx, %rsi
	; X64-NEXT: andl %eax, %edx			; X64-NEXT: andl %eax, %edx
	; X64-NEXT: shrq $32, %rax			; X64-NEXT: shrq $32, %rax
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rcx
	; X64-NEXT: movq %rcx, %rdi			; X64-NEXT: movq %rcx, %rdi
	; X64-NEXT: andl %r8d, %ecx			; X64-NEXT: andl %r8d, %ecx
	; X64-NEXT: shrq $32, %r8			; X64-NEXT: shrq $32, %r8
	; X64-NEXT: shrq $32, %rsi			; X64-NEXT: shrq $32, %rsi
	; X64-NEXT: shrq $32, %rdi			; X64-NEXT: shrq $32, %rdi
	; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: andl %r8d, %edi			; X64-NEXT: andl %r8d, %edi
	; X64-NEXT: movl %edi, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %edi, -{{[0-9]+}}(%rsp)
				; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: andl %eax, %esi			; X64-NEXT: andl %eax, %esi
	; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; X64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <4 x float> %a0 to <4 x i32>			%arg0 = bitcast <4 x float> %a0 to <4 x i32>
	%arg1 = bitcast <4 x float> %a1 to <4 x i32>			%arg1 = bitcast <4 x float> %a1 to <4 x i32>
	%res = and <4 x i32> %arg0, %arg1			%res = and <4 x i32> %arg0, %arg1
	%bc = bitcast <4 x i32> %res to <4 x float>			%bc = bitcast <4 x i32> %res to <4 x float>
	ret <4 x float> %bc			ret <4 x float> %bc
	}			}

	define <4 x float> @test_mm_andnot_ps(<4 x float> %a0, <4 x float> %a1) nounwind {			define <4 x float> @test_mm_andnot_ps(<4 x float> %a0, <4 x float> %a1) nounwind {
	; X32-LABEL: test_mm_andnot_ps:			; X32-LABEL: test_mm_andnot_ps:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: pushl %ebp			; X32-NEXT: pushl %ebp
	; X32-NEXT: movl %esp, %ebp			; X32-NEXT: movl %esp, %ebp
	; X32-NEXT: pushl %esi			; X32-NEXT: pushl %esi
	; X32-NEXT: andl $-16, %esp			; X32-NEXT: andl $-16, %esp
	; X32-NEXT: subl $64, %esp			; X32-NEXT: subl $64, %esp
	; X32-NEXT: movaps %xmm0, {{[0-9]+}}(%esp)			; X32-NEXT: movaps %xmm0, {{[0-9]+}}(%esp)
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edx			; X32-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %esi			; X32-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)			; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)
	; X32-NEXT: notl %edx			; X32-NEXT: notl %edx
	; X32-NEXT: notl %ecx
	; X32-NEXT: notl %esi			; X32-NEXT: notl %esi
				; X32-NEXT: notl %ecx
	; X32-NEXT: notl %eax			; X32-NEXT: notl %eax
	; X32-NEXT: andl {{[0-9]+}}(%esp), %eax			; X32-NEXT: andl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl %eax, (%esp)			; X32-NEXT: movl %eax, (%esp)
	; X32-NEXT: andl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movl %esi, {{[0-9]+}}(%esp)
	; X32-NEXT: andl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: andl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)
				; X32-NEXT: andl {{[0-9]+}}(%esp), %esi
				; X32-NEXT: movl %esi, {{[0-9]+}}(%esp)
	; X32-NEXT: andl {{[0-9]+}}(%esp), %edx			; X32-NEXT: andl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: leal -4(%ebp), %esp			; X32-NEXT: leal -4(%ebp), %esp
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_andnot_ps:			; X64-LABEL: test_mm_andnot_ps:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	Show All 10 Lines
	; X64-NEXT: andl %edi, %eax			; X64-NEXT: andl %edi, %eax
	; X64-NEXT: shrq $32, %rdi			; X64-NEXT: shrq $32, %rdi
	; X64-NEXT: notl %ecx			; X64-NEXT: notl %ecx
	; X64-NEXT: andl %r8d, %ecx			; X64-NEXT: andl %r8d, %ecx
	; X64-NEXT: shrq $32, %r8			; X64-NEXT: shrq $32, %r8
	; X64-NEXT: notl %esi			; X64-NEXT: notl %esi
	; X64-NEXT: notl %edx			; X64-NEXT: notl %edx
	; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movl %eax, -{{[0-9]+}}(%rsp)
	; X64-NEXT: andl %r8d, %edx			; X64-NEXT: andl %r8d, %edx
	; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
				; X64-NEXT: movl %eax, -{{[0-9]+}}(%rsp)
	; X64-NEXT: andl %edi, %esi			; X64-NEXT: andl %edi, %esi
	; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; X64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <4 x float> %a0 to <4 x i32>			%arg0 = bitcast <4 x float> %a0 to <4 x i32>
	%arg1 = bitcast <4 x float> %a1 to <4 x i32>			%arg1 = bitcast <4 x float> %a1 to <4 x i32>
	%not = xor <4 x i32> %arg0, <i32 -1, i32 -1, i32 -1, i32 -1>			%not = xor <4 x i32> %arg0, <i32 -1, i32 -1, i32 -1, i32 -1>
	%res = and <4 x i32> %not, %arg1			%res = and <4 x i32> %not, %arg1
	%bc = bitcast <4 x i32> %res to <4 x float>			%bc = bitcast <4 x i32> %res to <4 x float>
	ret <4 x float> %bc			ret <4 x float> %bc
	}			}
	▲ Show 20 Lines • Show All 1,084 Lines • ▼ Show 20 Lines
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edx			; X32-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %esi			; X32-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)			; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)
	; X32-NEXT: orl {{[0-9]+}}(%esp), %esi			; X32-NEXT: orl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movl %esi, (%esp)			; X32-NEXT: movl %esi, (%esp)
	; X32-NEXT: orl {{[0-9]+}}(%esp), %edx			; X32-NEXT: orl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)
	; X32-NEXT: orl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: orl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: orl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)
				; X32-NEXT: orl {{[0-9]+}}(%esp), %eax
				; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: leal -4(%ebp), %esp			; X32-NEXT: leal -4(%ebp), %esp
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_or_ps:			; X64-LABEL: test_mm_or_ps:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rax			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rax
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8
	; X64-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx
	; X64-NEXT: movq %rdx, %rsi			; X64-NEXT: movq %rdx, %rsi
	; X64-NEXT: orl %eax, %edx			; X64-NEXT: orl %eax, %edx
	; X64-NEXT: shrq $32, %rax			; X64-NEXT: shrq $32, %rax
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rcx
	; X64-NEXT: movq %rcx, %rdi			; X64-NEXT: movq %rcx, %rdi
	; X64-NEXT: orl %r8d, %ecx			; X64-NEXT: orl %r8d, %ecx
	; X64-NEXT: shrq $32, %r8			; X64-NEXT: shrq $32, %r8
	; X64-NEXT: shrq $32, %rsi			; X64-NEXT: shrq $32, %rsi
	; X64-NEXT: shrq $32, %rdi			; X64-NEXT: shrq $32, %rdi
	; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: orl %r8d, %edi			; X64-NEXT: orl %r8d, %edi
	; X64-NEXT: movl %edi, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %edi, -{{[0-9]+}}(%rsp)
				; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: orl %eax, %esi			; X64-NEXT: orl %eax, %esi
	; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; X64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <4 x float> %a0 to <4 x i32>			%arg0 = bitcast <4 x float> %a0 to <4 x i32>
	%arg1 = bitcast <4 x float> %a1 to <4 x i32>			%arg1 = bitcast <4 x float> %a1 to <4 x i32>
	%res = or <4 x i32> %arg0, %arg1			%res = or <4 x i32> %arg0, %arg1
	%bc = bitcast <4 x i32> %res to <4 x float>			%bc = bitcast <4 x i32> %res to <4 x float>
	ret <4 x float> %bc			ret <4 x float> %bc
	}			}

	▲ Show 20 Lines • Show All 200 Lines • ▼ Show 20 Lines

	define <4 x float> @test_mm_set_ps(float %a0, float %a1, float %a2, float %a3) nounwind {			define <4 x float> @test_mm_set_ps(float %a0, float %a1, float %a2, float %a3) nounwind {
	; X32-LABEL: test_mm_set_ps:			; X32-LABEL: test_mm_set_ps:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; X32-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_set_ps:			; X64-LABEL: test_mm_set_ps:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; X64-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
				; X64-NEXT: movlhps {{.*#+}} xmm3 = xmm3[0],xmm1[0]
	; X64-NEXT: movaps %xmm3, %xmm0			; X64-NEXT: movaps %xmm3, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <4 x float> undef, float %a3, i32 0			%res0 = insertelement <4 x float> undef, float %a3, i32 0
	%res1 = insertelement <4 x float> %res0, float %a2, i32 1			%res1 = insertelement <4 x float> %res0, float %a2, i32 1
	%res2 = insertelement <4 x float> %res1, float %a1, i32 2			%res2 = insertelement <4 x float> %res1, float %a1, i32 2
	%res3 = insertelement <4 x float> %res2, float %a0, i32 3			%res3 = insertelement <4 x float> %res2, float %a0, i32 3
	ret <4 x float> %res3			ret <4 x float> %res3
	}			}
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines

	define <4 x float> @test_mm_setr_ps(float %a0, float %a1, float %a2, float %a3) nounwind {			define <4 x float> @test_mm_setr_ps(float %a0, float %a1, float %a2, float %a3) nounwind {
	; X32-LABEL: test_mm_setr_ps:			; X32-LABEL: test_mm_setr_ps:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]			; X32-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
				; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_setr_ps:			; X64-LABEL: test_mm_setr_ps:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; X64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <4 x float> undef, float %a0, i32 0			%res0 = insertelement <4 x float> undef, float %a0, i32 0
	%res1 = insertelement <4 x float> %res0, float %a1, i32 1			%res1 = insertelement <4 x float> %res0, float %a1, i32 1
	%res2 = insertelement <4 x float> %res1, float %a2, i32 2			%res2 = insertelement <4 x float> %res1, float %a2, i32 2
	%res3 = insertelement <4 x float> %res2, float %a3, i32 3			%res3 = insertelement <4 x float> %res2, float %a3, i32 3
	ret <4 x float> %res3			ret <4 x float> %res3
	}			}

	▲ Show 20 Lines • Show All 536 Lines • ▼ Show 20 Lines
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edx			; X32-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %esi			; X32-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)			; X32-NEXT: movaps %xmm1, {{[0-9]+}}(%esp)
	; X32-NEXT: xorl {{[0-9]+}}(%esp), %esi			; X32-NEXT: xorl {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movl %esi, (%esp)			; X32-NEXT: movl %esi, (%esp)
	; X32-NEXT: xorl {{[0-9]+}}(%esp), %edx			; X32-NEXT: xorl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %edx, {{[0-9]+}}(%esp)
	; X32-NEXT: xorl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: xorl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: xorl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)
				; X32-NEXT: xorl {{[0-9]+}}(%esp), %eax
				; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: leal -4(%ebp), %esp			; X32-NEXT: leal -4(%ebp), %esp
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_xor_ps:			; X64-LABEL: test_mm_xor_ps:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rax			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rax
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8
	; X64-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx
	; X64-NEXT: movq %rdx, %rsi			; X64-NEXT: movq %rdx, %rsi
	; X64-NEXT: xorl %eax, %edx			; X64-NEXT: xorl %eax, %edx
	; X64-NEXT: shrq $32, %rax			; X64-NEXT: shrq $32, %rax
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rcx
	; X64-NEXT: movq %rcx, %rdi			; X64-NEXT: movq %rcx, %rdi
	; X64-NEXT: xorl %r8d, %ecx			; X64-NEXT: xorl %r8d, %ecx
	; X64-NEXT: shrq $32, %r8			; X64-NEXT: shrq $32, %r8
	; X64-NEXT: shrq $32, %rsi			; X64-NEXT: shrq $32, %rsi
	; X64-NEXT: shrq $32, %rdi			; X64-NEXT: shrq $32, %rdi
	; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: xorl %r8d, %edi			; X64-NEXT: xorl %r8d, %edi
	; X64-NEXT: movl %edi, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %edi, -{{[0-9]+}}(%rsp)
				; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: xorl %eax, %esi			; X64-NEXT: xorl %eax, %esi
	; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; X64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <4 x float> %a0 to <4 x i32>			%arg0 = bitcast <4 x float> %a0 to <4 x i32>
	%arg1 = bitcast <4 x float> %a1 to <4 x i32>			%arg1 = bitcast <4 x float> %a1 to <4 x i32>
	%res = xor <4 x i32> %arg0, %arg1			%res = xor <4 x i32> %arg0, %arg1
	%bc = bitcast <4 x i32> %res to <4 x float>			%bc = bitcast <4 x i32> %res to <4 x float>
	ret <4 x float> %bc			ret <4 x float> %bc
	}			}

	!0 = !{i32 1}			!0 = !{i32 1}

test/CodeGen/X86/sse1.ll

	Show First 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; X32-NEXT: xorps %xmm3, %xmm3			; X32-NEXT: xorps %xmm3, %xmm3
	; X32-NEXT: cmpl $0, {{[0-9]+}}(%esp)			; X32-NEXT: cmpl $0, {{[0-9]+}}(%esp)
	; X32-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; X32-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; X32-NEXT: jne .LBB1_11			; X32-NEXT: jne .LBB1_11
	; X32-NEXT: .LBB1_10:			; X32-NEXT: .LBB1_10:
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: .LBB1_11: # %entry			; X32-NEXT: .LBB1_11: # %entry
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: vselect:			; X64-LABEL: vselect:
	; X64: # BB#0: # %entry			; X64: # BB#0: # %entry
	; X64-NEXT: testl %ecx, %ecx			; X64-NEXT: testl %edx, %edx
	; X64-NEXT: xorps %xmm0, %xmm0			; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: je .LBB1_1			; X64-NEXT: je .LBB1_1
	; X64-NEXT: # BB#2: # %entry			; X64-NEXT: # BB#2: # %entry
	; X64-NEXT: xorps %xmm1, %xmm1			; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: testl %edx, %edx			; X64-NEXT: testl %ecx, %ecx
	; X64-NEXT: jne .LBB1_5			; X64-NEXT: jne .LBB1_5
	; X64-NEXT: .LBB1_4:			; X64-NEXT: .LBB1_4:
	; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: testl %r8d, %r8d			; X64-NEXT: testl %r8d, %r8d
	; X64-NEXT: jne .LBB1_8			; X64-NEXT: jne .LBB1_8
	; X64-NEXT: .LBB1_7:			; X64-NEXT: .LBB1_7:
	; X64-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; X64-NEXT: testl %esi, %esi			; X64-NEXT: testl %esi, %esi
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; X64-NEXT: je .LBB1_10			; X64-NEXT: je .LBB1_10
	; X64-NEXT: jmp .LBB1_11			; X64-NEXT: jmp .LBB1_11
	; X64-NEXT: .LBB1_1:			; X64-NEXT: .LBB1_1:
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: testl %edx, %edx			; X64-NEXT: testl %ecx, %ecx
	; X64-NEXT: je .LBB1_4			; X64-NEXT: je .LBB1_4
	; X64-NEXT: .LBB1_5: # %entry			; X64-NEXT: .LBB1_5: # %entry
	; X64-NEXT: xorps %xmm2, %xmm2			; X64-NEXT: xorps %xmm2, %xmm2
	; X64-NEXT: testl %r8d, %r8d			; X64-NEXT: testl %r8d, %r8d
	; X64-NEXT: je .LBB1_7			; X64-NEXT: je .LBB1_7
	; X64-NEXT: .LBB1_8: # %entry			; X64-NEXT: .LBB1_8: # %entry
	; X64-NEXT: xorps %xmm3, %xmm3			; X64-NEXT: xorps %xmm3, %xmm3
	; X64-NEXT: testl %esi, %esi			; X64-NEXT: testl %esi, %esi
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; X64-NEXT: jne .LBB1_11			; X64-NEXT: jne .LBB1_11
	; X64-NEXT: .LBB1_10:			; X64-NEXT: .LBB1_10:
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: .LBB1_11: # %entry			; X64-NEXT: .LBB1_11: # %entry
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%a1 = icmp eq <4 x i32> %q, zeroinitializer			%a1 = icmp eq <4 x i32> %q, zeroinitializer
	%a14 = select <4 x i1> %a1, <4 x float> <float 1.000000e+00, float 2.000000e+00, float 3.000000e+00, float 4.000000e+0> , <4 x float> zeroinitializer			%a14 = select <4 x i1> %a1, <4 x float> <float 1.000000e+00, float 2.000000e+00, float 3.000000e+00, float 4.000000e+0> , <4 x float> zeroinitializer
	ret <4 x float> %a14			ret <4 x float> %a14
	}			}

	; v4i32 isn't legal for SSE1, but this should be cmpps.			; v4i32 isn't legal for SSE1, but this should be cmpps.
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: andl %eax, %ecx			; X32-NEXT: andl %eax, %ecx
	; X32-NEXT: notl %eax			; X32-NEXT: notl %eax
	; X32-NEXT: andl {{[0-9]+}}(%esp), %eax			; X32-NEXT: andl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: orl %ecx, %eax			; X32-NEXT: orl %ecx, %eax
	; X32-NEXT: movl %eax, (%esp)			; X32-NEXT: movl %eax, (%esp)
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edx			; X32-NEXT: andl %eax, %ecx
	; X32-NEXT: andl %ecx, %edx			; X32-NEXT: notl %eax
	; X32-NEXT: notl %ecx			; X32-NEXT: andl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: andl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: orl %ecx, %eax
	; X32-NEXT: orl %edx, %ecx			; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edx			; X32-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X32-NEXT: andl %ecx, %edx			; X32-NEXT: andl %ecx, %edx
	; X32-NEXT: notl %ecx			; X32-NEXT: notl %ecx
	; X32-NEXT: andl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: andl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: orl %edx, %ecx			; X32-NEXT: orl %edx, %ecx
	; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; X32-NEXT: movl %ecx, {{[0-9]+}}(%esp)
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: andl %eax, %ecx			; X32-NEXT: andl %eax, %ecx
	; X32-NEXT: notl %eax			; X32-NEXT: notl %eax
	; X32-NEXT: andl {{[0-9]+}}(%esp), %eax			; X32-NEXT: andl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: orl %ecx, %eax			; X32-NEXT: orl %ecx, %eax
	; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)			; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: movl %ebp, %esp			; X32-NEXT: movl %ebp, %esp
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: PR31672:			; X64-LABEL: PR31672:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: xorps %xmm0, %xmm0			; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movaps {{.*#+}} xmm1 = <42,3,u,u>			; X64-NEXT: movaps {{.*#+}} xmm1 = <42,3,u,u>
	; X64-NEXT: cmpeqps %xmm1, %xmm0			; X64-NEXT: cmpeqps %xmm1, %xmm0
	; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: rsqrtps %xmm1, %xmm0			; X64-NEXT: rsqrtps %xmm1, %xmm0
	; X64-NEXT: mulps %xmm0, %xmm1			; X64-NEXT: mulps %xmm0, %xmm1
	; X64-NEXT: mulps %xmm0, %xmm1			; X64-NEXT: mulps %xmm0, %xmm1
	; X64-NEXT: addps {{.*}}(%rip), %xmm1			; X64-NEXT: addps {{.*}}(%rip), %xmm1
	; X64-NEXT: mulps {{.*}}(%rip), %xmm0			; X64-NEXT: mulps {{.*}}(%rip), %xmm0
	; X64-NEXT: mulps %xmm1, %xmm0			; X64-NEXT: mulps %xmm1, %xmm0
	; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r8
				; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rsi
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r9			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r9
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r10
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdi			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdi
	; X64-NEXT: movl %r9d, %esi			; X64-NEXT: movl %esi, %eax
	; X64-NEXT: andl %edi, %esi			; X64-NEXT: andl %edi, %eax
	; X64-NEXT: movl %edi, %ecx			; X64-NEXT: movl %edi, %ecx
	; X64-NEXT: notl %ecx			; X64-NEXT: notl %ecx
				; X64-NEXT: movq -{{[0-9]+}}(%rsp), %r10
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rdx
	; X64-NEXT: movq -{{[0-9]+}}(%rsp), %rax			; X64-NEXT: andl %edx, %ecx
	; X64-NEXT: andl %eax, %ecx			; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: orl %esi, %ecx
	; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movl %r8d, %ecx			; X64-NEXT: shrq $32, %rsi
	; X64-NEXT: andl %r10d, %ecx
	; X64-NEXT: movl %r10d, %esi
	; X64-NEXT: notl %esi
	; X64-NEXT: andl %edx, %esi
	; X64-NEXT: orl %ecx, %esi
	; X64-NEXT: movl %esi, -{{[0-9]+}}(%rsp)
	; X64-NEXT: shrq $32, %r9
	; X64-NEXT: shrq $32, %rdi			; X64-NEXT: shrq $32, %rdi
	; X64-NEXT: andl %edi, %r9d			; X64-NEXT: andl %edi, %esi
	; X64-NEXT: notl %edi			; X64-NEXT: notl %edi
	; X64-NEXT: shrq $32, %rax
	; X64-NEXT: andl %edi, %eax
	; X64-NEXT: orl %r9d, %eax
	; X64-NEXT: movl %eax, -{{[0-9]+}}(%rsp)
	; X64-NEXT: shrq $32, %r8
	; X64-NEXT: shrq $32, %r10
	; X64-NEXT: andl %r10d, %r8d
	; X64-NEXT: notl %r10d
	; X64-NEXT: shrq $32, %rdx			; X64-NEXT: shrq $32, %rdx
	; X64-NEXT: andl %r10d, %edx			; X64-NEXT: andl %edi, %edx
	; X64-NEXT: orl %r8d, %edx			; X64-NEXT: orl %esi, %edx
	; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)			; X64-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
				; X64-NEXT: movl %r8d, %eax
				; X64-NEXT: andl %r9d, %eax
				; X64-NEXT: movl %r9d, %ecx
				; X64-NEXT: notl %ecx
				; X64-NEXT: andl %r10d, %ecx
				; X64-NEXT: orl %eax, %ecx
				; X64-NEXT: movl %ecx, -{{[0-9]+}}(%rsp)
				; X64-NEXT: shrq $32, %r8
				; X64-NEXT: shrq $32, %r9
				; X64-NEXT: andl %r9d, %r8d
				; X64-NEXT: notl %r9d
				; X64-NEXT: shrq $32, %r10
				; X64-NEXT: andl %r9d, %r10d
				; X64-NEXT: orl %r8d, %r10d
				; X64-NEXT: movl %r10d, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X64-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; X64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%t0 = call fast <2 x float> @llvm.sqrt.v2f32(<2 x float> <float 42.0, float 3.0>)			%t0 = call fast <2 x float> @llvm.sqrt.v2f32(<2 x float> <float 42.0, float 3.0>)
	ret <2 x float> %t0			ret <2 x float> %t0
	}			}

	declare <2 x float> @llvm.sqrt.v2f32(<2 x float>) #1			declare <2 x float> @llvm.sqrt.v2f32(<2 x float>) #1

	attributes #0 = { nounwind "unsafe-fp-math"="true" }			attributes #0 = { nounwind "unsafe-fp-math"="true" }

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 2,070 Lines • ▼ Show 20 Lines
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm1			; X32-NEXT: movd %eax, %xmm1
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm2			; X32-NEXT: movd %eax, %xmm2
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm3			; X32-NEXT: movd %eax, %xmm3
	; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm1			; X32-NEXT: movd %eax, %xmm1
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm2			; X32-NEXT: movd %eax, %xmm2
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm3			; X32-NEXT: movd %eax, %xmm3
	; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm2			; X32-NEXT: movd %eax, %xmm2
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm4			; X32-NEXT: movd %eax, %xmm4
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_set_epi8:			; X64-LABEL: test_mm_set_epi8:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movzbl %dil, %eax			; X64-NEXT: movzbl %dil, %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl %sil, %eax
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: movd %eax, %xmm1
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X64-NEXT: movzbl %r8b, %eax			; X64-NEXT: movzbl %dl, %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl %cl, %eax
	; X64-NEXT: movd %eax, %xmm2			; X64-NEXT: movd %eax, %xmm2
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X64-NEXT: movzbl %dl, %eax			; X64-NEXT: movzbl %r8b, %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl %r9b, %eax
	; X64-NEXT: movd %eax, %xmm3			; X64-NEXT: movd %eax, %xmm3
	; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: movd %eax, %xmm1
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; X64-NEXT: movzbl %sil, %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm2			; X64-NEXT: movd %eax, %xmm2
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X64-NEXT: movzbl %r9b, %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm3			; X64-NEXT: movd %eax, %xmm3
	; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; X64-NEXT: movzbl %cl, %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm2			; X64-NEXT: movd %eax, %xmm2
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm4			; X64-NEXT: movd %eax, %xmm4
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <16 x i8> undef, i8 %a15, i32 0			%res0 = insertelement <16 x i8> undef, i8 %a15, i32 0
	%res1 = insertelement <16 x i8> %res0, i8 %a14, i32 1			%res1 = insertelement <16 x i8> %res0, i8 %a14, i32 1
	%res2 = insertelement <16 x i8> %res1, i8 %a13, i32 2			%res2 = insertelement <16 x i8> %res1, i8 %a13, i32 2
	%res3 = insertelement <16 x i8> %res2, i8 %a12, i32 3			%res3 = insertelement <16 x i8> %res2, i8 %a12, i32 3
	%res4 = insertelement <16 x i8> %res3, i8 %a11, i32 4			%res4 = insertelement <16 x i8> %res3, i8 %a11, i32 4
	%res5 = insertelement <16 x i8> %res4, i8 %a10, i32 5			%res5 = insertelement <16 x i8> %res4, i8 %a10, i32 5
	%res6 = insertelement <16 x i8> %res5, i8 %a9 , i32 6			%res6 = insertelement <16 x i8> %res5, i8 %a9 , i32 6
	Show All 26 Lines
	; X32-NEXT: movw {{[0-9]+}}(%esp), %ax			; X32-NEXT: movw {{[0-9]+}}(%esp), %ax
	; X32-NEXT: movd %eax, %xmm6			; X32-NEXT: movd %eax, %xmm6
	; X32-NEXT: movw {{[0-9]+}}(%esp), %ax			; X32-NEXT: movw {{[0-9]+}}(%esp), %ax
	; X32-NEXT: movd %eax, %xmm7			; X32-NEXT: movd %eax, %xmm7
	; X32-NEXT: movw {{[0-9]+}}(%esp), %ax			; X32-NEXT: movw {{[0-9]+}}(%esp), %ax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]			; X32-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1]
	; X32-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1]
	; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]			; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_set_epi16:			; X64-LABEL: test_mm_set_epi16:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movw {{[0-9]+}}(%rsp), %r10w			; X64-NEXT: movw {{[0-9]+}}(%rsp), %r10w
	; X64-NEXT: movw {{[0-9]+}}(%rsp), %ax			; X64-NEXT: movw {{[0-9]+}}(%rsp), %ax
	; X64-NEXT: movd %edi, %xmm0			; X64-NEXT: movd %edi, %xmm0
	; X64-NEXT: movd %r8d, %xmm1			; X64-NEXT: movd %esi, %xmm1
	; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; X64-NEXT: movd %edx, %xmm0			; X64-NEXT: movd %edx, %xmm0
	; X64-NEXT: movd %eax, %xmm2			; X64-NEXT: movd %ecx, %xmm2
	; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; X64-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X64-NEXT: movd %esi, %xmm0			; X64-NEXT: movd %r8d, %xmm0
	; X64-NEXT: movd %r9d, %xmm1			; X64-NEXT: movd %r9d, %xmm1
	; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; X64-NEXT: movd %ecx, %xmm3			; X64-NEXT: movd %eax, %xmm3
	; X64-NEXT: movd %r10d, %xmm0			; X64-NEXT: movd %r10d, %xmm0
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <8 x i16> undef, i16 %a7, i32 0			%res0 = insertelement <8 x i16> undef, i16 %a7, i32 0
	%res1 = insertelement <8 x i16> %res0, i16 %a6, i32 1			%res1 = insertelement <8 x i16> %res0, i16 %a6, i32 1
	%res2 = insertelement <8 x i16> %res1, i16 %a5, i32 2			%res2 = insertelement <8 x i16> %res1, i16 %a5, i32 2
	%res3 = insertelement <8 x i16> %res2, i16 %a4, i32 3			%res3 = insertelement <8 x i16> %res2, i16 %a4, i32 3
	%res4 = insertelement <8 x i16> %res3, i16 %a3, i32 4			%res4 = insertelement <8 x i16> %res3, i16 %a3, i32 4
	%res5 = insertelement <8 x i16> %res4, i16 %a2, i32 5			%res5 = insertelement <8 x i16> %res4, i16 %a2, i32 5
	%res6 = insertelement <8 x i16> %res5, i16 %a1, i32 6			%res6 = insertelement <8 x i16> %res5, i16 %a1, i32 6
	%res7 = insertelement <8 x i16> %res6, i16 %a0, i32 7			%res7 = insertelement <8 x i16> %res6, i16 %a0, i32 7
	%res = bitcast <8 x i16> %res7 to <2 x i64>			%res = bitcast <8 x i16> %res7 to <2 x i64>
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <2 x i64> @test_mm_set_epi32(i32 %a0, i32 %a1, i32 %a2, i32 %a3) nounwind {			define <2 x i64> @test_mm_set_epi32(i32 %a0, i32 %a1, i32 %a2, i32 %a3) nounwind {
	; X32-LABEL: test_mm_set_epi32:			; X32-LABEL: test_mm_set_epi32:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_set_epi32:			; X64-LABEL: test_mm_set_epi32:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movd %edi, %xmm0			; X64-NEXT: movd %edi, %xmm0
	; X64-NEXT: movd %edx, %xmm1			; X64-NEXT: movd %esi, %xmm1
	; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movd %esi, %xmm2			; X64-NEXT: movd %edx, %xmm2
	; X64-NEXT: movd %ecx, %xmm0			; X64-NEXT: movd %ecx, %xmm0
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <4 x i32> undef, i32 %a3, i32 0			%res0 = insertelement <4 x i32> undef, i32 %a3, i32 0
	%res1 = insertelement <4 x i32> %res0, i32 %a2, i32 1			%res1 = insertelement <4 x i32> %res0, i32 %a2, i32 1
	%res2 = insertelement <4 x i32> %res1, i32 %a1, i32 2			%res2 = insertelement <4 x i32> %res1, i32 %a1, i32 2
	%res3 = insertelement <4 x i32> %res2, i32 %a0, i32 3			%res3 = insertelement <4 x i32> %res2, i32 %a0, i32 3
	%res = bitcast <4 x i32> %res3 to <2 x i64>			%res = bitcast <4 x i32> %res3 to <2 x i64>
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	; TODO test_mm_set_epi64			; TODO test_mm_set_epi64

	define <2 x i64> @test_mm_set_epi64x(i64 %a0, i64 %a1) nounwind {			define <2 x i64> @test_mm_set_epi64x(i64 %a0, i64 %a1) nounwind {
	; X32-LABEL: test_mm_set_epi64x:			; X32-LABEL: test_mm_set_epi64x:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_set_epi64x:			; X64-LABEL: test_mm_set_epi64x:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movq %rdi, %xmm1			; X64-NEXT: movq %rdi, %xmm1
	; X64-NEXT: movq %rsi, %xmm0			; X64-NEXT: movq %rsi, %xmm0
	; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	}			}

	; TODO test_mm_set1_epi64			; TODO test_mm_set1_epi64

	define <2 x i64> @test_mm_set1_epi64x(i64 %a0) nounwind {			define <2 x i64> @test_mm_set1_epi64x(i64 %a0) nounwind {
	; X32-LABEL: test_mm_set1_epi64x:			; X32-LABEL: test_mm_set1_epi64x:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
	; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_set1_epi64x:			; X64-LABEL: test_mm_set1_epi64x:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movq %rdi, %xmm0			; X64-NEXT: movq %rdi, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <2 x i64> undef, i64 %a0, i32 0			%res0 = insertelement <2 x i64> undef, i64 %a0, i32 0
	Show All 25 Lines
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm1			; X32-NEXT: movd %eax, %xmm1
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm2			; X32-NEXT: movd %eax, %xmm2
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm3			; X32-NEXT: movd %eax, %xmm3
	; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm1			; X32-NEXT: movd %eax, %xmm1
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; X32-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm2			; X32-NEXT: movd %eax, %xmm2
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm3			; X32-NEXT: movd %eax, %xmm3
	; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm2			; X32-NEXT: movd %eax, %xmm2
	; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm4			; X32-NEXT: movd %eax, %xmm4
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; X32-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_setr_epi8:			; X64-LABEL: test_mm_setr_epi8:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: movd %eax, %xmm1
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl %cl, %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm2			; X64-NEXT: movd %eax, %xmm2
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl %r9b, %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm3			; X64-NEXT: movd %eax, %xmm3
	; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl %sil, %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: movd %eax, %xmm1
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; X64-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; X64-NEXT: movd %eax, %xmm2			; X64-NEXT: movd %eax, %xmm2
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl %r9b, %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl %dl, %eax			; X64-NEXT: movzbl %r8b, %eax
	; X64-NEXT: movd %eax, %xmm3			; X64-NEXT: movd %eax, %xmm3
	; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl %cl, %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movzbl %r8b, %eax			; X64-NEXT: movzbl %dl, %eax
	; X64-NEXT: movd %eax, %xmm2			; X64-NEXT: movd %eax, %xmm2
	; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; X64-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; X64-NEXT: movzbl %sil, %eax
	; X64-NEXT: movd %eax, %xmm4			; X64-NEXT: movd %eax, %xmm4
	; X64-NEXT: movzbl %dil, %eax			; X64-NEXT: movzbl %dil, %eax
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <16 x i8> undef, i8 %a0 , i32 0			%res0 = insertelement <16 x i8> undef, i8 %a0 , i32 0
	%res1 = insertelement <16 x i8> %res0, i8 %a1 , i32 1			%res1 = insertelement <16 x i8> %res0, i8 %a1 , i32 1
	%res2 = insertelement <16 x i8> %res1, i8 %a2 , i32 2			%res2 = insertelement <16 x i8> %res1, i8 %a2 , i32 2
	%res3 = insertelement <16 x i8> %res2, i8 %a3 , i32 3			%res3 = insertelement <16 x i8> %res2, i8 %a3 , i32 3
	%res4 = insertelement <16 x i8> %res3, i8 %a4 , i32 4			%res4 = insertelement <16 x i8> %res3, i8 %a4 , i32 4
	%res5 = insertelement <16 x i8> %res4, i8 %a5 , i32 5			%res5 = insertelement <16 x i8> %res4, i8 %a5 , i32 5
	%res6 = insertelement <16 x i8> %res5, i8 %a6 , i32 6			%res6 = insertelement <16 x i8> %res5, i8 %a6 , i32 6
	Show All 26 Lines
	; X32-NEXT: movw {{[0-9]+}}(%esp), %ax			; X32-NEXT: movw {{[0-9]+}}(%esp), %ax
	; X32-NEXT: movd %eax, %xmm6			; X32-NEXT: movd %eax, %xmm6
	; X32-NEXT: movw {{[0-9]+}}(%esp), %ax			; X32-NEXT: movw {{[0-9]+}}(%esp), %ax
	; X32-NEXT: movd %eax, %xmm7			; X32-NEXT: movd %eax, %xmm7
	; X32-NEXT: movw {{[0-9]+}}(%esp), %ax			; X32-NEXT: movw {{[0-9]+}}(%esp), %ax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: movd %eax, %xmm0
	; X32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]			; X32-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1]
	; X32-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3]			; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3]
	; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1]
	; X32-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]			; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_setr_epi16:			; X64-LABEL: test_mm_setr_epi16:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movw {{[0-9]+}}(%rsp), %ax			; X64-NEXT: movw {{[0-9]+}}(%rsp), %ax
	; X64-NEXT: movw {{[0-9]+}}(%rsp), %r10w			; X64-NEXT: movw {{[0-9]+}}(%rsp), %r10w
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movd %ecx, %xmm1			; X64-NEXT: movd %r10d, %xmm1
	; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; X64-NEXT: movd %r9d, %xmm0			; X64-NEXT: movd %r9d, %xmm0
	; X64-NEXT: movd %esi, %xmm2			; X64-NEXT: movd %r8d, %xmm2
	; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; X64-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X64-NEXT: movd %r10d, %xmm0			; X64-NEXT: movd %ecx, %xmm0
	; X64-NEXT: movd %edx, %xmm1			; X64-NEXT: movd %edx, %xmm1
	; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; X64-NEXT: movd %r8d, %xmm3			; X64-NEXT: movd %esi, %xmm3
	; X64-NEXT: movd %edi, %xmm0			; X64-NEXT: movd %edi, %xmm0
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <8 x i16> undef, i16 %a0, i32 0			%res0 = insertelement <8 x i16> undef, i16 %a0, i32 0
	%res1 = insertelement <8 x i16> %res0, i16 %a1, i32 1			%res1 = insertelement <8 x i16> %res0, i16 %a1, i32 1
	%res2 = insertelement <8 x i16> %res1, i16 %a2, i32 2			%res2 = insertelement <8 x i16> %res1, i16 %a2, i32 2
	%res3 = insertelement <8 x i16> %res2, i16 %a3, i32 3			%res3 = insertelement <8 x i16> %res2, i16 %a3, i32 3
	%res4 = insertelement <8 x i16> %res3, i16 %a4, i32 4			%res4 = insertelement <8 x i16> %res3, i16 %a4, i32 4
	%res5 = insertelement <8 x i16> %res4, i16 %a5, i32 5			%res5 = insertelement <8 x i16> %res4, i16 %a5, i32 5
	%res6 = insertelement <8 x i16> %res5, i16 %a6, i32 6			%res6 = insertelement <8 x i16> %res5, i16 %a6, i32 6
	%res7 = insertelement <8 x i16> %res6, i16 %a7, i32 7			%res7 = insertelement <8 x i16> %res6, i16 %a7, i32 7
	%res = bitcast <8 x i16> %res7 to <2 x i64>			%res = bitcast <8 x i16> %res7 to <2 x i64>
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <2 x i64> @test_mm_setr_epi32(i32 %a0, i32 %a1, i32 %a2, i32 %a3) nounwind {			define <2 x i64> @test_mm_setr_epi32(i32 %a0, i32 %a1, i32 %a2, i32 %a3) nounwind {
	; X32-LABEL: test_mm_setr_epi32:			; X32-LABEL: test_mm_setr_epi32:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_setr_epi32:			; X64-LABEL: test_mm_setr_epi32:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movd %ecx, %xmm0			; X64-NEXT: movd %ecx, %xmm0
	; X64-NEXT: movd %esi, %xmm1			; X64-NEXT: movd %edx, %xmm1
	; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movd %edx, %xmm2			; X64-NEXT: movd %esi, %xmm2
	; X64-NEXT: movd %edi, %xmm0			; X64-NEXT: movd %edi, %xmm0
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <4 x i32> undef, i32 %a0, i32 0			%res0 = insertelement <4 x i32> undef, i32 %a0, i32 0
	%res1 = insertelement <4 x i32> %res0, i32 %a1, i32 1			%res1 = insertelement <4 x i32> %res0, i32 %a1, i32 1
	%res2 = insertelement <4 x i32> %res1, i32 %a2, i32 2			%res2 = insertelement <4 x i32> %res1, i32 %a2, i32 2
	%res3 = insertelement <4 x i32> %res2, i32 %a3, i32 3			%res3 = insertelement <4 x i32> %res2, i32 %a3, i32 3
	%res = bitcast <4 x i32> %res3 to <2 x i64>			%res = bitcast <4 x i32> %res3 to <2 x i64>
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	; TODO test_mm_setr_epi64			; TODO test_mm_setr_epi64

	define <2 x i64> @test_mm_setr_epi64x(i64 %a0, i64 %a1) nounwind {			define <2 x i64> @test_mm_setr_epi64x(i64 %a0, i64 %a1) nounwind {
	; X32-LABEL: test_mm_setr_epi64x:			; X32-LABEL: test_mm_setr_epi64x:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; X32-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
				; X32-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_setr_epi64x:			; X64-LABEL: test_mm_setr_epi64x:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movq %rsi, %xmm1			; X64-NEXT: movq %rsi, %xmm1
	; X64-NEXT: movq %rdi, %xmm0			; X64-NEXT: movq %rdi, %xmm0
	; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	▲ Show 20 Lines • Show All 1,185 Lines • Show Last 20 Lines

test/CodeGen/X86/sse3-avx-addsub-2.ll

	Show First 20 Lines • Show All 336 Lines • ▼ Show 20 Lines
	define <4 x float> @test14(<4 x float> %A, <4 x float> %B) {			define <4 x float> @test14(<4 x float> %A, <4 x float> %B) {
	; SSE-LABEL: test14:			; SSE-LABEL: test14:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps %xmm0, %xmm2			; SSE-NEXT: movaps %xmm0, %xmm2
	; SSE-NEXT: subss %xmm1, %xmm2			; SSE-NEXT: subss %xmm1, %xmm2
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: subss %xmm1, %xmm0			; SSE-NEXT: subss %xmm1, %xmm0
	; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm0[0]
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1,1,3]			; SSE-NEXT: movapd %xmm2, %xmm0
	; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test14:			; AVX-LABEL: test14:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm2			; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm0
	Show All 14 Lines
	; SSE-LABEL: test15:			; SSE-LABEL: test15:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; SSE-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE-NEXT: addss %xmm3, %xmm2			; SSE-NEXT: addss %xmm3, %xmm2
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; SSE-NEXT: addss %xmm0, %xmm1			; SSE-NEXT: addss %xmm0, %xmm1
	; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[0,0]
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0,2,1]
	; SSE-NEXT: movaps %xmm2, %xmm0			; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test15:			; AVX-LABEL: test15:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2
	Show All 24 Lines
	; SSE-NEXT: movaps %xmm1, %xmm4			; SSE-NEXT: movaps %xmm1, %xmm4
	; SSE-NEXT: movhlps {{.*#+}} xmm4 = xmm4[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm4 = xmm4[1,1]
	; SSE-NEXT: subss %xmm4, %xmm3			; SSE-NEXT: subss %xmm4, %xmm3
	; SSE-NEXT: movshdup {{.*#+}} xmm4 = xmm0[1,1,3,3]			; SSE-NEXT: movshdup {{.*#+}} xmm4 = xmm0[1,1,3,3]
	; SSE-NEXT: addss %xmm0, %xmm4			; SSE-NEXT: addss %xmm0, %xmm4
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; SSE-NEXT: addss %xmm0, %xmm1			; SSE-NEXT: addss %xmm0, %xmm1
	; SSE-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
	; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]
	; SSE-NEXT: movaps %xmm2, %xmm0			; SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm3[0]
				; SSE-NEXT: movapd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test16:			; AVX-LABEL: test16:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vsubss %xmm0, %xmm0, %xmm2			; AVX-NEXT: vsubss %xmm0, %xmm0, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX-NEXT: vsubss %xmm4, %xmm3, %xmm3			; AVX-NEXT: vsubss %xmm4, %xmm3, %xmm3
	▲ Show 20 Lines • Show All 48 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_fp_to_int.ll

	Show First 20 Lines • Show All 1,314 Lines • ▼ Show 20 Lines
	define <4 x i32> @fptoui_4f32_to_4i32(<4 x float> %a) {			define <4 x i32> @fptoui_4f32_to_4i32(<4 x float> %a) {
	; SSE-LABEL: fptoui_4f32_to_4i32:			; SSE-LABEL: fptoui_4f32_to_4i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps %xmm0, %xmm1			; SSE-NEXT: movaps %xmm0, %xmm1
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; SSE-NEXT: cvttss2si %xmm1, %rax			; SSE-NEXT: cvttss2si %xmm1, %rax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: movaps %xmm0, %xmm2			; SSE-NEXT: movaps %xmm0, %xmm2
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1,2,3]			; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
	; SSE-NEXT: cvttss2si %xmm2, %rax			; SSE-NEXT: cvttss2si %xmm2, %rax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSE-NEXT: cvttss2si %xmm0, %rax			; SSE-NEXT: cvttss2si %xmm0, %rax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; SSE-NEXT: cvttss2si %xmm0, %rax			; SSE-NEXT: cvttss2si %xmm0, %rax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; VEX-LABEL: fptoui_4f32_to_4i32:			; VEX-LABEL: fptoui_4f32_to_4i32:
	; VEX: # BB#0:			; VEX: # BB#0:
	; VEX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; VEX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; VEX-NEXT: vcvttss2si %xmm1, %rax			; VEX-NEXT: vcvttss2si %xmm1, %rax
	; VEX-NEXT: vcvttss2si %xmm0, %rcx			; VEX-NEXT: vcvttss2si %xmm0, %rcx
	▲ Show 20 Lines • Show All 213 Lines • ▼ Show 20 Lines
	define <8 x i32> @fptoui_8f32_to_8i32(<8 x float> %a) {			define <8 x i32> @fptoui_8f32_to_8i32(<8 x float> %a) {
	; SSE-LABEL: fptoui_8f32_to_8i32:			; SSE-LABEL: fptoui_8f32_to_8i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps %xmm0, %xmm2			; SSE-NEXT: movaps %xmm0, %xmm2
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; SSE-NEXT: cvttss2si %xmm0, %rax			; SSE-NEXT: cvttss2si %xmm0, %rax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movaps %xmm2, %xmm3			; SSE-NEXT: movaps %xmm2, %xmm3
	; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1,2,3]			; SSE-NEXT: movhlps {{.*#+}} xmm3 = xmm3[1,1]
	; SSE-NEXT: cvttss2si %xmm3, %rax			; SSE-NEXT: cvttss2si %xmm3, %rax
	; SSE-NEXT: movd %eax, %xmm3			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1]
	; SSE-NEXT: cvttss2si %xmm2, %rax			; SSE-NEXT: cvttss2si %xmm2, %rax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1,2,3]
	; SSE-NEXT: cvttss2si %xmm2, %rax			; SSE-NEXT: cvttss2si %xmm2, %rax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]			; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE-NEXT: movaps %xmm1, %xmm2			; SSE-NEXT: movaps %xmm1, %xmm2
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,1,2,3]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,1,2,3]
	; SSE-NEXT: cvttss2si %xmm2, %rax			; SSE-NEXT: cvttss2si %xmm2, %rax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: movaps %xmm1, %xmm3			; SSE-NEXT: movaps %xmm1, %xmm3
	; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1,2,3]			; SSE-NEXT: movhlps {{.*#+}} xmm3 = xmm3[1,1]
	; SSE-NEXT: cvttss2si %xmm3, %rax			; SSE-NEXT: cvttss2si %xmm3, %rax
	; SSE-NEXT: movd %eax, %xmm3			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; SSE-NEXT: cvttss2si %xmm1, %rax			; SSE-NEXT: cvttss2si %xmm1, %rax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,2,3]
	; SSE-NEXT: cvttss2si %xmm1, %rax			; SSE-NEXT: cvttss2si %xmm1, %rax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; SSE-NEXT: movdqa %xmm2, %xmm1			; SSE-NEXT: movdqa %xmm2, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: fptoui_8f32_to_8i32:			; AVX1-LABEL: fptoui_8f32_to_8i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-NEXT: vcvttss2si %xmm2, %rax			; AVX1-NEXT: vcvttss2si %xmm2, %rax
	▲ Show 20 Lines • Show All 854 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_int_to_fp.ll

Show First 20 Lines • Show All 1,163 Lines • ▼ Show 20 Lines	; AVX512VLDQ-NEXT: retq
%cvt = sitofp <2 x i64> %a to <2 x float>		%cvt = sitofp <2 x i64> %a to <2 x float>
%ext = shufflevector <2 x float> %cvt, <2 x float> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x float> %cvt, <2 x float> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x float> %ext		ret <4 x float> %ext
}		}

define <4 x float> @sitofp_4i64_to_4f32_undef(<2 x i64> %a) {		define <4 x float> @sitofp_4i64_to_4f32_undef(<2 x i64> %a) {
; SSE-LABEL: sitofp_4i64_to_4f32_undef:		; SSE-LABEL: sitofp_4i64_to_4f32_undef:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
		; SSE-NEXT: xorps %xmm0, %xmm0
		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,0]
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: sitofp_4i64_to_4f32_undef:		; VEX-LABEL: sitofp_4i64_to_4f32_undef:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%shuf = shufflevector <16 x float> %cvt, <16 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuf = shufflevector <16 x float> %cvt, <16 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x float> %shuf		ret <4 x float> %shuf
}		}

define <4 x float> @sitofp_4i64_to_4f32(<4 x i64> %a) {		define <4 x float> @sitofp_4i64_to_4f32(<4 x i64> %a) {
; SSE-LABEL: sitofp_4i64_to_4f32:		; SSE-LABEL: sitofp_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
		; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; SSE-NEXT: movq %xmm0, %rax
		; SSE-NEXT: xorps %xmm1, %xmm1
		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]		; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; SSE-NEXT: movaps %xmm2, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_4i64_to_4f32:		; AVX1-LABEL: sitofp_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
▲ Show 20 Lines • Show All 439 Lines • ▼ Show 20 Lines	; AVX512VLDQ-NEXT: retq
%ext = shufflevector <2 x float> %cvt, <2 x float> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x float> %cvt, <2 x float> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x float> %ext		ret <4 x float> %ext
}		}

define <4 x float> @uitofp_4i64_to_4f32_undef(<2 x i64> %a) {		define <4 x float> @uitofp_4i64_to_4f32_undef(<2 x i64> %a) {
; SSE-LABEL: uitofp_4i64_to_4f32_undef:		; SSE-LABEL: uitofp_4i64_to_4f32_undef:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: js .LBB41_2
; SSE-NEXT: # BB#1:
; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: .LBB41_2:
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB41_3		; SSE-NEXT: js .LBB41_1
; SSE-NEXT: # BB#4:		; SSE-NEXT: # BB#2:
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: jmp .LBB41_5		; SSE-NEXT: jmp .LBB41_3
; SSE-NEXT: .LBB41_3:		; SSE-NEXT: .LBB41_1:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: addss %xmm0, %xmm0		; SSE-NEXT: addss %xmm0, %xmm0
; SSE-NEXT: .LBB41_5:		; SSE-NEXT: .LBB41_3:
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB41_6		; SSE-NEXT: js .LBB41_4
; SSE-NEXT: # BB#7:		; SSE-NEXT: # BB#5:
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: jmp .LBB41_8		; SSE-NEXT: jmp .LBB41_6
; SSE-NEXT: .LBB41_6:		; SSE-NEXT: .LBB41_4:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: addss %xmm1, %xmm1		; SSE-NEXT: addss %xmm1, %xmm1
; SSE-NEXT: .LBB41_8:		; SSE-NEXT: .LBB41_6:
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; SSE-NEXT: testq %rax, %rax
		; SSE-NEXT: xorps %xmm1, %xmm1
		; SSE-NEXT: js .LBB41_8
		; SSE-NEXT: # BB#7:
		; SSE-NEXT: xorps %xmm1, %xmm1
		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
		; SSE-NEXT: .LBB41_8:
		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: uitofp_4i64_to_4f32_undef:		; VEX-LABEL: uitofp_4i64_to_4f32_undef:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB41_1		; VEX-NEXT: js .LBB41_1
; VEX-NEXT: # BB#2:		; VEX-NEXT: # BB#2:
▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines

define <4 x float> @uitofp_4i64_to_4f32(<4 x i64> %a) {		define <4 x float> @uitofp_4i64_to_4f32(<4 x i64> %a) {
; SSE-LABEL: uitofp_4i64_to_4f32:		; SSE-LABEL: uitofp_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB47_1		; SSE-NEXT: js .LBB47_1
; SSE-NEXT: # BB#2:		; SSE-NEXT: # BB#2:
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: jmp .LBB47_3		; SSE-NEXT: jmp .LBB47_3
; SSE-NEXT: .LBB47_1:		; SSE-NEXT: .LBB47_1:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: addss %xmm3, %xmm3		; SSE-NEXT: addss %xmm2, %xmm2
; SSE-NEXT: .LBB47_3:		; SSE-NEXT: .LBB47_3:
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB47_4		; SSE-NEXT: js .LBB47_4
; SSE-NEXT: # BB#5:		; SSE-NEXT: # BB#5:
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: jmp .LBB47_6		; SSE-NEXT: jmp .LBB47_6
; SSE-NEXT: .LBB47_4:		; SSE-NEXT: .LBB47_4:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: addss %xmm2, %xmm2		; SSE-NEXT: addss %xmm3, %xmm3
; SSE-NEXT: .LBB47_6:		; SSE-NEXT: .LBB47_6:
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB47_7		; SSE-NEXT: js .LBB47_7
; SSE-NEXT: # BB#8:		; SSE-NEXT: # BB#8:
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: jmp .LBB47_9		; SSE-NEXT: jmp .LBB47_9
; SSE-NEXT: .LBB47_7:		; SSE-NEXT: .LBB47_7:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
Show All 17 Lines
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: addss %xmm0, %xmm0		; SSE-NEXT: addss %xmm0, %xmm0
; SSE-NEXT: .LBB47_12:		; SSE-NEXT: .LBB47_12:
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]		; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; SSE-NEXT: movaps %xmm2, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: uitofp_4i64_to_4f32:		; AVX1-LABEL: uitofp_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB47_1		; AVX1-NEXT: js .LBB47_1
; AVX1-NEXT: # BB#2:		; AVX1-NEXT: # BB#2:
▲ Show 20 Lines • Show All 1,154 Lines • ▼ Show 20 Lines
;		;
; Load Signed Integer to Float		; Load Signed Integer to Float
;		;

define <4 x float> @sitofp_load_4i64_to_4f32(<4 x i64> *%a) {		define <4 x float> @sitofp_load_4i64_to_4f32(<4 x i64> *%a) {
; SSE-LABEL: sitofp_load_4i64_to_4f32:		; SSE-LABEL: sitofp_load_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movdqa 16(%rdi), %xmm2		; SSE-NEXT: movdqa 16(%rdi), %xmm0
; SSE-NEXT: movq %xmm2, %rax		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
		; SSE-NEXT: movq %xmm0, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
		; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movq %xmm2, %rax
; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_load_4i64_to_4f32:		; AVX1-LABEL: sitofp_load_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%cvt = sitofp <4 x i8> %ld to <4 x float>		%cvt = sitofp <4 x i8> %ld to <4 x float>
ret <4 x float> %cvt		ret <4 x float> %cvt
}		}

define <8 x float> @sitofp_load_8i64_to_8f32(<8 x i64> *%a) {		define <8 x float> @sitofp_load_8i64_to_8f32(<8 x i64> *%a) {
; SSE-LABEL: sitofp_load_8i64_to_8f32:		; SSE-LABEL: sitofp_load_8i64_to_8f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movdqa 16(%rdi), %xmm2		; SSE-NEXT: movdqa 16(%rdi), %xmm0
; SSE-NEXT: movdqa 32(%rdi), %xmm3		; SSE-NEXT: movdqa 32(%rdi), %xmm2
; SSE-NEXT: movdqa 48(%rdi), %xmm4		; SSE-NEXT: movdqa 48(%rdi), %xmm3
; SSE-NEXT: movq %xmm2, %rax		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm5		; SSE-NEXT: cvtsi2ssq %rax, %xmm4
		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
		; SSE-NEXT: movq %xmm0, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
		; SSE-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movq %xmm2, %rax
; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE-NEXT: movq %xmm4, %rax		; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm4[0]
; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: movq %xmm3, %rax		; SSE-NEXT: movq %xmm3, %rax
		; SSE-NEXT: xorps %xmm4, %xmm4
		; SSE-NEXT: cvtsi2ssq %rax, %xmm4
		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm4[2,3,0,1]		; SSE-NEXT: movq %xmm2, %rax
		; SSE-NEXT: xorps %xmm1, %xmm1
		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movq %xmm2, %rax		; SSE-NEXT: movq %xmm2, %rax
; SSE-NEXT: xorps %xmm2, %xmm2		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: movq %xmm3, %rax		; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm4[0]
; SSE-NEXT: xorps %xmm3, %xmm3
; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_load_8i64_to_8f32:		; AVX1-LABEL: sitofp_load_8i64_to_8f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vmovdqa 32(%rdi), %ymm1		; AVX1-NEXT: vmovdqa 32(%rdi), %ymm1
; AVX1-NEXT: vpextrq $1, %xmm1, %rax		; AVX1-NEXT: vpextrq $1, %xmm1, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
▲ Show 20 Lines • Show All 225 Lines • ▼ Show 20 Lines

;		;
; Load Unsigned Integer to Float		; Load Unsigned Integer to Float
;		;

define <4 x float> @uitofp_load_4i64_to_4f32(<4 x i64> *%a) {		define <4 x float> @uitofp_load_4i64_to_4f32(<4 x i64> *%a) {
; SSE-LABEL: uitofp_load_4i64_to_4f32:		; SSE-LABEL: uitofp_load_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm2
; SSE-NEXT: movdqa 16(%rdi), %xmm3		; SSE-NEXT: movdqa 16(%rdi), %xmm0
; SSE-NEXT: movq %xmm3, %rax		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB76_1		; SSE-NEXT: js .LBB76_1
; SSE-NEXT: # BB#2:		; SSE-NEXT: # BB#2:
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: jmp .LBB76_3		; SSE-NEXT: jmp .LBB76_3
; SSE-NEXT: .LBB76_1:		; SSE-NEXT: .LBB76_1:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: addss %xmm2, %xmm2		; SSE-NEXT: addss %xmm1, %xmm1
; SSE-NEXT: .LBB76_3:		; SSE-NEXT: .LBB76_3:
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB76_4		; SSE-NEXT: js .LBB76_4
; SSE-NEXT: # BB#5:		; SSE-NEXT: # BB#5:
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: jmp .LBB76_6		; SSE-NEXT: jmp .LBB76_6
; SSE-NEXT: .LBB76_4:		; SSE-NEXT: .LBB76_4:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: addss %xmm0, %xmm0		; SSE-NEXT: addss %xmm3, %xmm3
; SSE-NEXT: .LBB76_6:		; SSE-NEXT: .LBB76_6:
; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]		; SSE-NEXT: movq %xmm2, %rax
; SSE-NEXT: movq %xmm3, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB76_7		; SSE-NEXT: js .LBB76_7
; SSE-NEXT: # BB#8:		; SSE-NEXT: # BB#8:
; SSE-NEXT: xorps %xmm3, %xmm3		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: jmp .LBB76_9		; SSE-NEXT: jmp .LBB76_9
; SSE-NEXT: .LBB76_7:		; SSE-NEXT: .LBB76_7:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm3, %xmm3		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: addss %xmm3, %xmm3		; SSE-NEXT: addss %xmm0, %xmm0
; SSE-NEXT: .LBB76_9:		; SSE-NEXT: .LBB76_9:
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm2, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB76_10		; SSE-NEXT: js .LBB76_10
; SSE-NEXT: # BB#11:		; SSE-NEXT: # BB#11:
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: jmp .LBB76_12		; SSE-NEXT: jmp .LBB76_12
; SSE-NEXT: .LBB76_10:		; SSE-NEXT: .LBB76_10:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: addss %xmm1, %xmm1		; SSE-NEXT: addss %xmm2, %xmm2
; SSE-NEXT: .LBB76_12:		; SSE-NEXT: .LBB76_12:
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: uitofp_load_4i64_to_4f32:		; AVX1-LABEL: uitofp_load_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB76_1		; AVX1-NEXT: js .LBB76_1
▲ Show 20 Lines • Show All 281 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%ld = load <4 x i8>, <4 x i8> *%a		%ld = load <4 x i8>, <4 x i8> *%a
%cvt = uitofp <4 x i8> %ld to <4 x float>		%cvt = uitofp <4 x i8> %ld to <4 x float>
ret <4 x float> %cvt		ret <4 x float> %cvt
}		}

define <8 x float> @uitofp_load_8i64_to_8f32(<8 x i64> *%a) {		define <8 x float> @uitofp_load_8i64_to_8f32(<8 x i64> *%a) {
; SSE-LABEL: uitofp_load_8i64_to_8f32:		; SSE-LABEL: uitofp_load_8i64_to_8f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm5
; SSE-NEXT: movdqa 16(%rdi), %xmm5		; SSE-NEXT: movdqa 16(%rdi), %xmm0
; SSE-NEXT: movdqa 32(%rdi), %xmm2		; SSE-NEXT: movdqa 32(%rdi), %xmm2
; SSE-NEXT: movdqa 48(%rdi), %xmm3		; SSE-NEXT: movdqa 48(%rdi), %xmm1
; SSE-NEXT: movq %xmm5, %rax		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_1		; SSE-NEXT: js .LBB80_1
; SSE-NEXT: # BB#2:		; SSE-NEXT: # BB#2:
; SSE-NEXT: cvtsi2ssq %rax, %xmm4		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: jmp .LBB80_3		; SSE-NEXT: jmp .LBB80_3
; SSE-NEXT: .LBB80_1:		; SSE-NEXT: .LBB80_1:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm4		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: addss %xmm4, %xmm4		; SSE-NEXT: addss %xmm3, %xmm3
; SSE-NEXT: .LBB80_3:		; SSE-NEXT: .LBB80_3:
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
		; SSE-NEXT: movq %xmm0, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_4		; SSE-NEXT: js .LBB80_4
; SSE-NEXT: # BB#5:		; SSE-NEXT: # BB#5:
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm4
; SSE-NEXT: jmp .LBB80_6		; SSE-NEXT: jmp .LBB80_6
; SSE-NEXT: .LBB80_4:		; SSE-NEXT: .LBB80_4:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm4
; SSE-NEXT: addss %xmm0, %xmm0		; SSE-NEXT: addss %xmm4, %xmm4
; SSE-NEXT: .LBB80_6:		; SSE-NEXT: .LBB80_6:
; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]
; SSE-NEXT: movq %xmm5, %rax		; SSE-NEXT: movq %xmm5, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_7		; SSE-NEXT: js .LBB80_7
; SSE-NEXT: # BB#8:		; SSE-NEXT: # BB#8:
; SSE-NEXT: cvtsi2ssq %rax, %xmm6		; SSE-NEXT: xorps %xmm0, %xmm0
		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: jmp .LBB80_9		; SSE-NEXT: jmp .LBB80_9
; SSE-NEXT: .LBB80_7:		; SSE-NEXT: .LBB80_7:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm6		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: addss %xmm6, %xmm6		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
		; SSE-NEXT: addss %xmm0, %xmm0
; SSE-NEXT: .LBB80_9:		; SSE-NEXT: .LBB80_9:
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: movq %xmm5, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_10		; SSE-NEXT: js .LBB80_10
; SSE-NEXT: # BB#11:		; SSE-NEXT: # BB#11:
; SSE-NEXT: xorps %xmm5, %xmm5		; SSE-NEXT: cvtsi2ssq %rax, %xmm6
; SSE-NEXT: cvtsi2ssq %rax, %xmm5
; SSE-NEXT: jmp .LBB80_12		; SSE-NEXT: jmp .LBB80_12
; SSE-NEXT: .LBB80_10:		; SSE-NEXT: .LBB80_10:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm5, %xmm5		; SSE-NEXT: cvtsi2ssq %rax, %xmm6
; SSE-NEXT: cvtsi2ssq %rax, %xmm5		; SSE-NEXT: addss %xmm6, %xmm6
; SSE-NEXT: addss %xmm5, %xmm5
; SSE-NEXT: .LBB80_12:		; SSE-NEXT: .LBB80_12:
; SSE-NEXT: movq %xmm3, %rax		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_13		; SSE-NEXT: js .LBB80_13
; SSE-NEXT: # BB#14:		; SSE-NEXT: # BB#14:
; SSE-NEXT: cvtsi2ssq %rax, %xmm7		; SSE-NEXT: xorps %xmm5, %xmm5
		; SSE-NEXT: cvtsi2ssq %rax, %xmm5
; SSE-NEXT: jmp .LBB80_15		; SSE-NEXT: jmp .LBB80_15
; SSE-NEXT: .LBB80_13:		; SSE-NEXT: .LBB80_13:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: cvtsi2ssq %rax, %xmm7		; SSE-NEXT: xorps %xmm5, %xmm5
; SSE-NEXT: addss %xmm7, %xmm7		; SSE-NEXT: cvtsi2ssq %rax, %xmm5
		; SSE-NEXT: addss %xmm5, %xmm5
; SSE-NEXT: .LBB80_15:		; SSE-NEXT: .LBB80_15:
; SSE-NEXT: movq %xmm2, %rax		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
		; SSE-NEXT: movq %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_16		; SSE-NEXT: js .LBB80_16
; SSE-NEXT: # BB#17:		; SSE-NEXT: # BB#17:
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm7
; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: jmp .LBB80_18		; SSE-NEXT: jmp .LBB80_18
; SSE-NEXT: .LBB80_16:		; SSE-NEXT: .LBB80_16:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm7
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: addss %xmm7, %xmm7
; SSE-NEXT: addss %xmm1, %xmm1
; SSE-NEXT: .LBB80_18:		; SSE-NEXT: .LBB80_18:
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1]
; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]		; SSE-NEXT: movq %xmm2, %rax
; SSE-NEXT: movq %xmm3, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_19		; SSE-NEXT: js .LBB80_19
; SSE-NEXT: # BB#20:		; SSE-NEXT: # BB#20:
; SSE-NEXT: xorps %xmm3, %xmm3		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: jmp .LBB80_21		; SSE-NEXT: jmp .LBB80_21
; SSE-NEXT: .LBB80_19:		; SSE-NEXT: .LBB80_19:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm3, %xmm3		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: addss %xmm3, %xmm3		; SSE-NEXT: addss %xmm1, %xmm1
; SSE-NEXT: .LBB80_21:		; SSE-NEXT: .LBB80_21:
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]		; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm3[0]
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm7[0],xmm1[1],xmm7[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm5 = xmm5[0],xmm7[0],xmm5[1],xmm7[1]
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movq %xmm2, %rax		; SSE-NEXT: movq %xmm2, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_22		; SSE-NEXT: js .LBB80_22
; SSE-NEXT: # BB#23:		; SSE-NEXT: # BB#23:
; SSE-NEXT: xorps %xmm2, %xmm2		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: jmp .LBB80_24		; SSE-NEXT: jmp .LBB80_24
; SSE-NEXT: .LBB80_22:		; SSE-NEXT: .LBB80_22:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm2, %xmm2		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: addss %xmm2, %xmm2		; SSE-NEXT: addss %xmm2, %xmm2
; SSE-NEXT: .LBB80_24:		; SSE-NEXT: .LBB80_24:
; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
		; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm5[0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: uitofp_load_8i64_to_8f32:		; AVX1-LABEL: uitofp_load_8i64_to_8f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vmovdqa 32(%rdi), %ymm2		; AVX1-NEXT: vmovdqa 32(%rdi), %ymm2
; AVX1-NEXT: vpextrq $1, %xmm2, %rax		; AVX1-NEXT: vpextrq $1, %xmm2, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
▲ Show 20 Lines • Show All 593 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_set.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64

	define void @test(<8 x i16>* %b, i16 %a0, i16 %a1, i16 %a2, i16 %a3, i16 %a4, i16 %a5, i16 %a6, i16 %a7) nounwind {			define void @test(<8 x i16>* %b, i16 %a0, i16 %a1, i16 %a2, i16 %a3, i16 %a4, i16 %a5, i16 %a6, i16 %a7) nounwind {
	; X86-LABEL: test:			; X86-LABEL: test:
	; X86: # BB#0:			; X86: # BB#0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; X86-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X86-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; X86-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; X86-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; X86-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; X86-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; X86-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]			; X86-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
	; X86-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]			; X86-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
	; X86-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]			; X86-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm2[0]
	; X86-NEXT: movdqa %xmm3, (%eax)			; X86-NEXT: movdqa %xmm3, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test:			; X64-LABEL: test:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movd %r8d, %xmm0			; X64-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X64-NEXT: movd %edx, %xmm1
	; X64-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; X64-NEXT: movd %ecx, %xmm0			; X64-NEXT: movd %r9d, %xmm0
	; X64-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X64-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-NEXT: movd %r9d, %xmm2			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; X64-NEXT: movd %r8d, %xmm1
				; X64-NEXT: movd %ecx, %xmm2
				; X64-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
				; X64-NEXT: movd %edx, %xmm1
	; X64-NEXT: movd %esi, %xmm3			; X64-NEXT: movd %esi, %xmm3
	; X64-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; X64-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
	; X64-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]			; X64-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
				; X64-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
				; X64-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
	; X64-NEXT: movdqa %xmm3, (%rdi)			; X64-NEXT: movdqa %xmm3, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = insertelement <8 x i16> zeroinitializer, i16 %a0, i32 0			%tmp = insertelement <8 x i16> zeroinitializer, i16 %a0, i32 0
	%tmp2 = insertelement <8 x i16> %tmp, i16 %a1, i32 1			%tmp2 = insertelement <8 x i16> %tmp, i16 %a1, i32 1
	%tmp4 = insertelement <8 x i16> %tmp2, i16 %a2, i32 2			%tmp4 = insertelement <8 x i16> %tmp2, i16 %a2, i32 2
	%tmp6 = insertelement <8 x i16> %tmp4, i16 %a3, i32 3			%tmp6 = insertelement <8 x i16> %tmp4, i16 %a3, i32 3
	%tmp8 = insertelement <8 x i16> %tmp6, i16 %a4, i32 4			%tmp8 = insertelement <8 x i16> %tmp6, i16 %a4, i32 4
	%tmp10 = insertelement <8 x i16> %tmp8, i16 %a5, i32 5			%tmp10 = insertelement <8 x i16> %tmp8, i16 %a5, i32 5
	%tmp12 = insertelement <8 x i16> %tmp10, i16 %a6, i32 6			%tmp12 = insertelement <8 x i16> %tmp10, i16 %a6, i32 6
	%tmp14 = insertelement <8 x i16> %tmp12, i16 %a7, i32 7			%tmp14 = insertelement <8 x i16> %tmp12, i16 %a7, i32 7
	store <8 x i16> %tmp14, <8 x i16>* %b			store <8 x i16> %tmp14, <8 x i16>* %b
	ret void			ret void
	}			}

test/CodeGen/X86/vector-rem.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s

	define <4 x i32> @foo(<4 x i32> %t, <4 x i32> %u) nounwind {			define <4 x i32> @foo(<4 x i32> %t, <4 x i32> %u) nounwind {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]
	; CHECK-NEXT: movd %xmm2, %eax			; CHECK-NEXT: movd %xmm2, %eax
	; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]
	; CHECK-NEXT: movd %xmm2, %ecx			; CHECK-NEXT: movd %xmm2, %ecx
	; CHECK-NEXT: cltd			; CHECK-NEXT: cltd
	; CHECK-NEXT: idivl %ecx			; CHECK-NEXT: idivl %ecx
	; CHECK-NEXT: movd %edx, %xmm2			; CHECK-NEXT: movd %edx, %xmm2
	; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; CHECK-NEXT: movd %xmm3, %eax			; CHECK-NEXT: movd %xmm3, %eax
	; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
	; CHECK-NEXT: movd %xmm3, %ecx			; CHECK-NEXT: movd %xmm3, %ecx
	; CHECK-NEXT: cltd			; CHECK-NEXT: cltd
	; CHECK-NEXT: idivl %ecx			; CHECK-NEXT: idivl %ecx
	; CHECK-NEXT: movd %edx, %xmm3			; CHECK-NEXT: movd %edx, %xmm3
	; CHECK-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; CHECK-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; CHECK-NEXT: movd %xmm0, %eax			; CHECK-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movd %xmm1, %ecx			; CHECK-NEXT: movd %xmm1, %ecx
	; CHECK-NEXT: cltd			; CHECK-NEXT: cltd
	; CHECK-NEXT: idivl %ecx			; CHECK-NEXT: idivl %ecx
	; CHECK-NEXT: movd %edx, %xmm2			; CHECK-NEXT: movd %edx, %xmm2
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; CHECK-NEXT: movd %xmm0, %eax			; CHECK-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; CHECK-NEXT: movd %xmm0, %ecx			; CHECK-NEXT: movd %xmm0, %ecx
	; CHECK-NEXT: cltd			; CHECK-NEXT: cltd
	; CHECK-NEXT: idivl %ecx			; CHECK-NEXT: idivl %ecx
	; CHECK-NEXT: movd %edx, %xmm0			; CHECK-NEXT: movd %edx, %xmm0
	; CHECK-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; CHECK-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; CHECK-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; CHECK-NEXT: movdqa %xmm2, %xmm0			; CHECK-NEXT: movdqa %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%m = srem <4 x i32> %t, %u			%m = srem <4 x i32> %t, %u
	ret <4 x i32> %m			ret <4 x i32> %m
	}			}

	define <4 x i32> @bar(<4 x i32> %t, <4 x i32> %u) nounwind {			define <4 x i32> @bar(<4 x i32> %t, <4 x i32> %u) nounwind {
	; CHECK-LABEL: bar:			; CHECK-LABEL: bar:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]
	; CHECK-NEXT: movd %xmm2, %eax			; CHECK-NEXT: movd %xmm2, %eax
	; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]
	; CHECK-NEXT: movd %xmm2, %ecx			; CHECK-NEXT: movd %xmm2, %ecx
	; CHECK-NEXT: xorl %edx, %edx			; CHECK-NEXT: xorl %edx, %edx
	; CHECK-NEXT: divl %ecx			; CHECK-NEXT: divl %ecx
	; CHECK-NEXT: movd %edx, %xmm2			; CHECK-NEXT: movd %edx, %xmm2
	; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; CHECK-NEXT: movd %xmm3, %eax			; CHECK-NEXT: movd %xmm3, %eax
	; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]			; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
	; CHECK-NEXT: movd %xmm3, %ecx			; CHECK-NEXT: movd %xmm3, %ecx
	; CHECK-NEXT: xorl %edx, %edx			; CHECK-NEXT: xorl %edx, %edx
	; CHECK-NEXT: divl %ecx			; CHECK-NEXT: divl %ecx
	; CHECK-NEXT: movd %edx, %xmm3			; CHECK-NEXT: movd %edx, %xmm3
	; CHECK-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; CHECK-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; CHECK-NEXT: movd %xmm0, %eax			; CHECK-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movd %xmm1, %ecx			; CHECK-NEXT: movd %xmm1, %ecx
	; CHECK-NEXT: xorl %edx, %edx			; CHECK-NEXT: xorl %edx, %edx
	; CHECK-NEXT: divl %ecx			; CHECK-NEXT: divl %ecx
	; CHECK-NEXT: movd %edx, %xmm2			; CHECK-NEXT: movd %edx, %xmm2
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; CHECK-NEXT: movd %xmm0, %eax			; CHECK-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; CHECK-NEXT: movd %xmm0, %ecx			; CHECK-NEXT: movd %xmm0, %ecx
	; CHECK-NEXT: xorl %edx, %edx			; CHECK-NEXT: xorl %edx, %edx
	; CHECK-NEXT: divl %ecx			; CHECK-NEXT: divl %ecx
	; CHECK-NEXT: movd %edx, %xmm0			; CHECK-NEXT: movd %edx, %xmm0
	; CHECK-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; CHECK-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; CHECK-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; CHECK-NEXT: movdqa %xmm2, %xmm0			; CHECK-NEXT: movdqa %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%m = urem <4 x i32> %t, %u			%m = urem <4 x i32> %t, %u
	ret <4 x i32> %m			ret <4 x i32> %m
	}			}

	define <4 x float> @qux(<4 x float> %t, <4 x float> %u) nounwind {			define <4 x float> @qux(<4 x float> %t, <4 x float> %u) nounwind {
	; CHECK-LABEL: qux:			; CHECK-LABEL: qux:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: subq $72, %rsp			; CHECK-NEXT: subq $72, %rsp
	; CHECK-NEXT: movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill			; CHECK-NEXT: movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill
	; CHECK-NEXT: movaps %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; CHECK-NEXT: movaps %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill
	; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; CHECK-NEXT: callq fmodf			; CHECK-NEXT: callq fmodf
	; CHECK-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill			; CHECK-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload
	; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,2,3]			; CHECK-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]
	; CHECK-NEXT: callq fmodf			; CHECK-NEXT: callq fmodf
	; CHECK-NEXT: unpcklps (%rsp), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: unpcklps (%rsp), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill			; CHECK-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload
	; CHECK-NEXT: callq fmodf			; CHECK-NEXT: callq fmodf
	; CHECK-NEXT: movaps %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; CHECK-NEXT: movaps %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill
	; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload
	; CHECK-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]			; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,2,3]
	; CHECK-NEXT: callq fmodf			; CHECK-NEXT: callq fmodf
	; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload
	; CHECK-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; CHECK-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; CHECK-NEXT: unpcklps (%rsp), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: unpcklpd (%rsp), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: movaps %xmm1, %xmm0			; CHECK-NEXT: movapd %xmm1, %xmm0
	; CHECK-NEXT: addq $72, %rsp			; CHECK-NEXT: addq $72, %rsp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%m = frem <4 x float> %t, %u			%m = frem <4 x float> %t, %u
	ret <4 x float> %m			ret <4 x float> %m
	}			}

test/CodeGen/X86/vector-sext.ll

	Show First 20 Lines • Show All 1,327 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: load_sext_4i1_to_4i32:			; SSE2-LABEL: load_sext_4i1_to_4i32:
	; SSE2: # BB#0: # %entry			; SSE2: # BB#0: # %entry
	; SSE2-NEXT: movzbl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $60, %rcx			; SSE2-NEXT: shlq $60, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $62, %rcx			; SSE2-NEXT: shlq $61, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $61, %rcx			; SSE2-NEXT: shlq $62, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: shlq $63, %rax			; SSE2-NEXT: shlq $63, %rax
	; SSE2-NEXT: sarq $63, %rax			; SSE2-NEXT: sarq $63, %rax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_4i1_to_4i32:			; SSSE3-LABEL: load_sext_4i1_to_4i32:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: movzbl (%rdi), %eax			; SSSE3-NEXT: movzbl (%rdi), %eax
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $60, %rcx			; SSSE3-NEXT: shlq $60, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $62, %rcx			; SSSE3-NEXT: shlq $61, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $61, %rcx			; SSSE3-NEXT: shlq $62, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: shlq $63, %rax			; SSSE3-NEXT: shlq $63, %rax
	; SSSE3-NEXT: sarq $63, %rax			; SSSE3-NEXT: sarq $63, %rax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_4i1_to_4i32:			; SSE41-LABEL: load_sext_4i1_to_4i32:
	; SSE41: # BB#0: # %entry			; SSE41: # BB#0: # %entry
	; SSE41-NEXT: movzbl (%rdi), %eax			; SSE41-NEXT: movzbl (%rdi), %eax
	; SSE41-NEXT: movq %rax, %rcx			; SSE41-NEXT: movq %rax, %rcx
	; SSE41-NEXT: shlq $62, %rcx			; SSE41-NEXT: shlq $62, %rcx
	; SSE41-NEXT: sarq $63, %rcx			; SSE41-NEXT: sarq $63, %rcx
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {			define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {
	; SSE2-LABEL: load_sext_4i1_to_4i64:			; SSE2-LABEL: load_sext_4i1_to_4i64:
	; SSE2: # BB#0: # %entry			; SSE2: # BB#0: # %entry
	; SSE2-NEXT: movl (%rdi), %eax			; SSE2-NEXT: movl (%rdi), %eax
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl %ecx			; SSE2-NEXT: shrl $2, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: shrl $2, %eax			; SSE2-NEXT: shrl %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm2			; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]
	; SSE2-NEXT: psllq $63, %xmm0			; SSE2-NEXT: psllq $63, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSE2-NEXT: psllq $63, %xmm1			; SSE2-NEXT: psllq $63, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_4i1_to_4i64:			; SSSE3-LABEL: load_sext_4i1_to_4i64:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: movl (%rdi), %eax			; SSSE3-NEXT: movl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl %ecx			; SSSE3-NEXT: shrl $2, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: shrl $2, %eax			; SSSE3-NEXT: shrl %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSSE3-NEXT: pand {{.*}}(%rip), %xmm2			; SSSE3-NEXT: pand {{.*}}(%rip), %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]
	; SSSE3-NEXT: psllq $63, %xmm0			; SSSE3-NEXT: psllq $63, %xmm0
	; SSSE3-NEXT: psrad $31, %xmm0			; SSSE3-NEXT: psrad $31, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSSE3-NEXT: psllq $63, %xmm1			; SSSE3-NEXT: psllq $63, %xmm1
	; SSSE3-NEXT: psrad $31, %xmm1			; SSSE3-NEXT: psrad $31, %xmm1
	▲ Show 20 Lines • Show All 240 Lines • ▼ Show 20 Lines
	define <8 x i16> @load_sext_8i1_to_8i16(<8 x i1> *%ptr) {			define <8 x i16> @load_sext_8i1_to_8i16(<8 x i1> *%ptr) {
	; SSE2-LABEL: load_sext_8i1_to_8i16:			; SSE2-LABEL: load_sext_8i1_to_8i16:
	; SSE2: # BB#0: # %entry			; SSE2: # BB#0: # %entry
	; SSE2-NEXT: movsbq (%rdi), %rax			; SSE2-NEXT: movsbq (%rdi), %rax
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shrq $7, %rcx			; SSE2-NEXT: shrq $7, %rcx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $60, %rcx			; SSE2-NEXT: shlq $57, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $58, %rcx			; SSE2-NEXT: shlq $58, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $62, %rcx			; SSE2-NEXT: shlq $59, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $57, %rcx			; SSE2-NEXT: shlq $60, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $61, %rcx			; SSE2-NEXT: shlq $61, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: shlq $59, %rcx			; SSE2-NEXT: shlq $62, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: shlq $63, %rax			; SSE2-NEXT: shlq $63, %rax
	; SSE2-NEXT: sarq $63, %rax			; SSE2-NEXT: sarq $63, %rax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_8i1_to_8i16:			; SSSE3-LABEL: load_sext_8i1_to_8i16:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: movsbq (%rdi), %rax			; SSSE3-NEXT: movsbq (%rdi), %rax
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shrq $7, %rcx			; SSSE3-NEXT: shrq $7, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $60, %rcx			; SSSE3-NEXT: shlq $57, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $58, %rcx			; SSSE3-NEXT: shlq $58, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $62, %rcx			; SSSE3-NEXT: shlq $59, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $57, %rcx			; SSSE3-NEXT: shlq $60, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $61, %rcx			; SSSE3-NEXT: shlq $61, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: shlq $59, %rcx			; SSSE3-NEXT: shlq $62, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: shlq $63, %rax			; SSSE3-NEXT: shlq $63, %rax
	; SSSE3-NEXT: sarq $63, %rax			; SSSE3-NEXT: sarq $63, %rax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_8i1_to_8i16:			; SSE41-LABEL: load_sext_8i1_to_8i16:
	; SSE41: # BB#0: # %entry			; SSE41: # BB#0: # %entry
	; SSE41-NEXT: movsbq (%rdi), %rax			; SSE41-NEXT: movsbq (%rdi), %rax
	; SSE41-NEXT: movq %rax, %rcx			; SSE41-NEXT: movq %rax, %rcx
	; SSE41-NEXT: shlq $62, %rcx			; SSE41-NEXT: shlq $62, %rcx
	; SSE41-NEXT: sarq $63, %rcx			; SSE41-NEXT: sarq $63, %rcx
	▲ Show 20 Lines • Show All 287 Lines • ▼ Show 20 Lines
	ret <8 x i64> %Y			ret <8 x i64> %Y
	}			}

	define <8 x i32> @load_sext_8i1_to_8i32(<8 x i1> *%ptr) {			define <8 x i32> @load_sext_8i1_to_8i32(<8 x i1> *%ptr) {
	; SSE2-LABEL: load_sext_8i1_to_8i32:			; SSE2-LABEL: load_sext_8i1_to_8i32:
	; SSE2: # BB#0: # %entry			; SSE2: # BB#0: # %entry
	; SSE2-NEXT: movzbl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $6, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $2, %ecx			; SSE2-NEXT: shrl $2, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $4, %ecx			; SSE2-NEXT: shrl %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $5, %ecx			; SSE2-NEXT: shrl $5, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl %ecx			; SSE2-NEXT: shrl $4, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $6, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: shrl $7, %eax			; SSE2-NEXT: shrl $7, %eax
	; SSE2-NEXT: movzwl %ax, %eax			; SSE2-NEXT: movzwl %ax, %eax
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSE2-NEXT: pslld $31, %xmm0			; SSE2-NEXT: pslld $31, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: pslld $31, %xmm1			; SSE2-NEXT: pslld $31, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_8i1_to_8i32:			; SSSE3-LABEL: load_sext_8i1_to_8i32:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: movzbl (%rdi), %eax			; SSSE3-NEXT: movzbl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $6, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $2, %ecx			; SSSE3-NEXT: shrl $2, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $4, %ecx			; SSSE3-NEXT: shrl %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $5, %ecx			; SSSE3-NEXT: shrl $5, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl %ecx			; SSSE3-NEXT: shrl $4, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $6, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: shrl $7, %eax			; SSSE3-NEXT: shrl $7, %eax
	; SSSE3-NEXT: movzwl %ax, %eax			; SSSE3-NEXT: movzwl %ax, %eax
	; SSSE3-NEXT: movd %eax, %xmm3			; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSSE3-NEXT: movdqa %xmm1, %xmm0			; SSSE3-NEXT: movdqa %xmm1, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSSE3-NEXT: pslld $31, %xmm0			; SSSE3-NEXT: pslld $31, %xmm0
	; SSSE3-NEXT: psrad $31, %xmm0			; SSSE3-NEXT: psrad $31, %xmm0
	; SSSE3-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: pslld $31, %xmm1			; SSSE3-NEXT: pslld $31, %xmm1
	; SSSE3-NEXT: psrad $31, %xmm1			; SSSE3-NEXT: psrad $31, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	▲ Show 20 Lines • Show All 254 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movq %rax, %r12			; SSE2-NEXT: movq %rax, %r12
	; SSE2-NEXT: movq %rax, %r13			; SSE2-NEXT: movq %rax, %r13
	; SSE2-NEXT: movq %rax, %rbx			; SSE2-NEXT: movq %rax, %rbx
	; SSE2-NEXT: movq %rax, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: movq %rax, %rdx			; SSE2-NEXT: movq %rax, %rdx
	; SSE2-NEXT: movq %rax, %rsi			; SSE2-NEXT: movq %rax, %rsi
	; SSE2-NEXT: movq %rax, %rdi			; SSE2-NEXT: movq %rax, %rdi
	; SSE2-NEXT: movq %rax, %rbp			; SSE2-NEXT: movq %rax, %rbp
	; SSE2-NEXT: shlq $49, %rbp			; SSE2-NEXT: shrq $15, %rbp
	; SSE2-NEXT: sarq $63, %rbp
	; SSE2-NEXT: movd %ebp, %xmm0			; SSE2-NEXT: movd %ebp, %xmm0
	; SSE2-NEXT: movq %rax, %rbp			; SSE2-NEXT: movq %rax, %rbp
	; SSE2-NEXT: movsbq %al, %rax			; SSE2-NEXT: movsbq %al, %rax
	; SSE2-NEXT: shlq $57, %r8			; SSE2-NEXT: shlq $49, %r8
	; SSE2-NEXT: sarq $63, %r8			; SSE2-NEXT: sarq $63, %r8
	; SSE2-NEXT: movd %r8d, %xmm1			; SSE2-NEXT: movd %r8d, %xmm1
	; SSE2-NEXT: shlq $53, %r9			; SSE2-NEXT: shlq $50, %r9
	; SSE2-NEXT: sarq $63, %r9			; SSE2-NEXT: sarq $63, %r9
	; SSE2-NEXT: movd %r9d, %xmm2			; SSE2-NEXT: movd %r9d, %xmm2
	; SSE2-NEXT: shlq $61, %r10			; SSE2-NEXT: shlq $51, %r10
	; SSE2-NEXT: sarq $63, %r10			; SSE2-NEXT: sarq $63, %r10
	; SSE2-NEXT: movd %r10d, %xmm3			; SSE2-NEXT: movd %r10d, %xmm3
	; SSE2-NEXT: shlq $51, %r11			; SSE2-NEXT: shlq $52, %r11
	; SSE2-NEXT: sarq $63, %r11			; SSE2-NEXT: sarq $63, %r11
	; SSE2-NEXT: movd %r11d, %xmm4			; SSE2-NEXT: movd %r11d, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: shlq $59, %r14			; SSE2-NEXT: shlq $53, %r14
	; SSE2-NEXT: sarq $63, %r14			; SSE2-NEXT: sarq $63, %r14
	; SSE2-NEXT: movd %r14d, %xmm5			; SSE2-NEXT: movd %r14d, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; SSE2-NEXT: shlq $55, %r15			; SSE2-NEXT: shlq $54, %r15
	; SSE2-NEXT: sarq $63, %r15			; SSE2-NEXT: sarq $63, %r15
	; SSE2-NEXT: movd %r15d, %xmm2			; SSE2-NEXT: movd %r15d, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
	; SSE2-NEXT: shlq $63, %r12			; SSE2-NEXT: shlq $55, %r12
	; SSE2-NEXT: sarq $63, %r12			; SSE2-NEXT: sarq $63, %r12
	; SSE2-NEXT: movd %r12d, %xmm0			; SSE2-NEXT: movd %r12d, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE2-NEXT: shlq $50, %r13			; SSE2-NEXT: shlq $60, %r13
	; SSE2-NEXT: sarq $63, %r13			; SSE2-NEXT: sarq $63, %r13
	; SSE2-NEXT: movd %r13d, %xmm1			; SSE2-NEXT: movd %r13d, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE2-NEXT: shlq $58, %rbx			; SSE2-NEXT: shlq $61, %rbx
	; SSE2-NEXT: sarq $63, %rbx			; SSE2-NEXT: sarq $63, %rbx
	; SSE2-NEXT: movd %ebx, %xmm2			; SSE2-NEXT: movd %ebx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: shlq $54, %rcx			; SSE2-NEXT: shlq $62, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm4			; SSE2-NEXT: movd %ecx, %xmm5
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE2-NEXT: shlq $62, %rdx			; SSE2-NEXT: shlq $63, %rdx
	; SSE2-NEXT: sarq $63, %rdx			; SSE2-NEXT: sarq $63, %rdx
	; SSE2-NEXT: movd %edx, %xmm3			; SSE2-NEXT: movd %edx, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]
	; SSE2-NEXT: shlq $52, %rsi			; SSE2-NEXT: shlq $58, %rsi
	; SSE2-NEXT: sarq $63, %rsi			; SSE2-NEXT: sarq $63, %rsi
	; SSE2-NEXT: movd %esi, %xmm1			; SSE2-NEXT: movd %esi, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]
	; SSE2-NEXT: shlq $60, %rdi			; SSE2-NEXT: shlq $59, %rdi
	; SSE2-NEXT: sarq $63, %rdi			; SSE2-NEXT: sarq $63, %rdi
	; SSE2-NEXT: movd %edi, %xmm4			; SSE2-NEXT: movd %edi, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
	; SSE2-NEXT: shrq $15, %rbp			; SSE2-NEXT: shlq $57, %rbp
	; SSE2-NEXT: movd %ebp, %xmm1			; SSE2-NEXT: sarq $63, %rbp
				; SSE2-NEXT: movd %ebp, %xmm2
	; SSE2-NEXT: shrq $7, %rax			; SSE2-NEXT: shrq $7, %rax
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; SSE2-NEXT: popq %r12			; SSE2-NEXT: popq %r12
	; SSE2-NEXT: popq %r13			; SSE2-NEXT: popq %r13
	; SSE2-NEXT: popq %r14			; SSE2-NEXT: popq %r14
	; SSE2-NEXT: popq %r15			; SSE2-NEXT: popq %r15
	; SSE2-NEXT: popq %rbp			; SSE2-NEXT: popq %rbp
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	Show All 15 Lines
	; SSSE3-NEXT: movq %rax, %r12			; SSSE3-NEXT: movq %rax, %r12
	; SSSE3-NEXT: movq %rax, %r13			; SSSE3-NEXT: movq %rax, %r13
	; SSSE3-NEXT: movq %rax, %rbx			; SSSE3-NEXT: movq %rax, %rbx
	; SSSE3-NEXT: movq %rax, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: movq %rax, %rdx			; SSSE3-NEXT: movq %rax, %rdx
	; SSSE3-NEXT: movq %rax, %rsi			; SSSE3-NEXT: movq %rax, %rsi
	; SSSE3-NEXT: movq %rax, %rdi			; SSSE3-NEXT: movq %rax, %rdi
	; SSSE3-NEXT: movq %rax, %rbp			; SSSE3-NEXT: movq %rax, %rbp
	; SSSE3-NEXT: shlq $49, %rbp			; SSSE3-NEXT: shrq $15, %rbp
	; SSSE3-NEXT: sarq $63, %rbp
	; SSSE3-NEXT: movd %ebp, %xmm0			; SSSE3-NEXT: movd %ebp, %xmm0
	; SSSE3-NEXT: movq %rax, %rbp			; SSSE3-NEXT: movq %rax, %rbp
	; SSSE3-NEXT: movsbq %al, %rax			; SSSE3-NEXT: movsbq %al, %rax
	; SSSE3-NEXT: shlq $57, %r8			; SSSE3-NEXT: shlq $49, %r8
	; SSSE3-NEXT: sarq $63, %r8			; SSSE3-NEXT: sarq $63, %r8
	; SSSE3-NEXT: movd %r8d, %xmm1			; SSSE3-NEXT: movd %r8d, %xmm1
	; SSSE3-NEXT: shlq $53, %r9			; SSSE3-NEXT: shlq $50, %r9
	; SSSE3-NEXT: sarq $63, %r9			; SSSE3-NEXT: sarq $63, %r9
	; SSSE3-NEXT: movd %r9d, %xmm2			; SSSE3-NEXT: movd %r9d, %xmm2
	; SSSE3-NEXT: shlq $61, %r10			; SSSE3-NEXT: shlq $51, %r10
	; SSSE3-NEXT: sarq $63, %r10			; SSSE3-NEXT: sarq $63, %r10
	; SSSE3-NEXT: movd %r10d, %xmm3			; SSSE3-NEXT: movd %r10d, %xmm3
	; SSSE3-NEXT: shlq $51, %r11			; SSSE3-NEXT: shlq $52, %r11
	; SSSE3-NEXT: sarq $63, %r11			; SSSE3-NEXT: sarq $63, %r11
	; SSSE3-NEXT: movd %r11d, %xmm4			; SSSE3-NEXT: movd %r11d, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: shlq $59, %r14			; SSSE3-NEXT: shlq $53, %r14
	; SSSE3-NEXT: sarq $63, %r14			; SSSE3-NEXT: sarq $63, %r14
	; SSSE3-NEXT: movd %r14d, %xmm5			; SSSE3-NEXT: movd %r14d, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; SSSE3-NEXT: shlq $55, %r15			; SSSE3-NEXT: shlq $54, %r15
	; SSSE3-NEXT: sarq $63, %r15			; SSSE3-NEXT: sarq $63, %r15
	; SSSE3-NEXT: movd %r15d, %xmm2			; SSSE3-NEXT: movd %r15d, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
	; SSSE3-NEXT: shlq $63, %r12			; SSSE3-NEXT: shlq $55, %r12
	; SSSE3-NEXT: sarq $63, %r12			; SSSE3-NEXT: sarq $63, %r12
	; SSSE3-NEXT: movd %r12d, %xmm0			; SSSE3-NEXT: movd %r12d, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSSE3-NEXT: shlq $50, %r13			; SSSE3-NEXT: shlq $60, %r13
	; SSSE3-NEXT: sarq $63, %r13			; SSSE3-NEXT: sarq $63, %r13
	; SSSE3-NEXT: movd %r13d, %xmm1			; SSSE3-NEXT: movd %r13d, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSSE3-NEXT: shlq $58, %rbx			; SSSE3-NEXT: shlq $61, %rbx
	; SSSE3-NEXT: sarq $63, %rbx			; SSSE3-NEXT: sarq $63, %rbx
	; SSSE3-NEXT: movd %ebx, %xmm2			; SSSE3-NEXT: movd %ebx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: shlq $54, %rcx			; SSSE3-NEXT: shlq $62, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm4			; SSSE3-NEXT: movd %ecx, %xmm5
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSSE3-NEXT: shlq $62, %rdx			; SSSE3-NEXT: shlq $63, %rdx
	; SSSE3-NEXT: sarq $63, %rdx			; SSSE3-NEXT: sarq $63, %rdx
	; SSSE3-NEXT: movd %edx, %xmm3			; SSSE3-NEXT: movd %edx, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]
	; SSSE3-NEXT: shlq $52, %rsi			; SSSE3-NEXT: shlq $58, %rsi
	; SSSE3-NEXT: sarq $63, %rsi			; SSSE3-NEXT: sarq $63, %rsi
	; SSSE3-NEXT: movd %esi, %xmm1			; SSSE3-NEXT: movd %esi, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]
	; SSSE3-NEXT: shlq $60, %rdi			; SSSE3-NEXT: shlq $59, %rdi
	; SSSE3-NEXT: sarq $63, %rdi			; SSSE3-NEXT: sarq $63, %rdi
	; SSSE3-NEXT: movd %edi, %xmm4			; SSSE3-NEXT: movd %edi, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
	; SSSE3-NEXT: shrq $15, %rbp			; SSSE3-NEXT: shlq $57, %rbp
	; SSSE3-NEXT: movd %ebp, %xmm1			; SSSE3-NEXT: sarq $63, %rbp
				; SSSE3-NEXT: movd %ebp, %xmm2
	; SSSE3-NEXT: shrq $7, %rax			; SSSE3-NEXT: shrq $7, %rax
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: popq %rbx			; SSSE3-NEXT: popq %rbx
	; SSSE3-NEXT: popq %r12			; SSSE3-NEXT: popq %r12
	; SSSE3-NEXT: popq %r13			; SSSE3-NEXT: popq %r13
	; SSSE3-NEXT: popq %r14			; SSSE3-NEXT: popq %r14
	; SSSE3-NEXT: popq %r15			; SSSE3-NEXT: popq %r15
	; SSSE3-NEXT: popq %rbp			; SSSE3-NEXT: popq %rbp
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 283 Lines • ▼ Show 20 Lines
	ret <16 x i8> %Y			ret <16 x i8> %Y
	}			}

	define <16 x i16> @load_sext_16i1_to_16i16(<16 x i1> *%ptr) {			define <16 x i16> @load_sext_16i1_to_16i16(<16 x i1> *%ptr) {
	; SSE2-LABEL: load_sext_16i1_to_16i16:			; SSE2-LABEL: load_sext_16i1_to_16i16:
	; SSE2: # BB#0: # %entry			; SSE2: # BB#0: # %entry
	; SSE2-NEXT: movzwl (%rdi), %eax			; SSE2-NEXT: movzwl (%rdi), %eax
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $14, %ecx			; SSE2-NEXT: shrl $7, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $6, %ecx			; SSE2-NEXT: shrl $6, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $10, %ecx			; SSE2-NEXT: shrl $5, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $2, %ecx			; SSE2-NEXT: shrl $4, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $12, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $4, %ecx			; SSE2-NEXT: shrl $2, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $8, %ecx			; SSE2-NEXT: shrl %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $13, %ecx			; SSE2-NEXT: shrl $11, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $5, %ecx			; SSE2-NEXT: shrl $10, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $9, %ecx			; SSE2-NEXT: shrl $9, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl %ecx			; SSE2-NEXT: shrl $8, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $11, %ecx			; SSE2-NEXT: shrl $13, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $12, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $7, %ecx			; SSE2-NEXT: shrl $14, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: shrl $15, %eax			; SSE2-NEXT: shrl $15, %eax
	; SSE2-NEXT: movzwl %ax, %eax			; SSE2-NEXT: movzwl %ax, %eax
	; SSE2-NEXT: movd %eax, %xmm4			; SSE2-NEXT: movd %eax, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: psllw $15, %xmm0			; SSE2-NEXT: psllw $15, %xmm0
	; SSE2-NEXT: psraw $15, %xmm0			; SSE2-NEXT: psraw $15, %xmm0
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]			; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
	; SSE2-NEXT: psllw $15, %xmm1			; SSE2-NEXT: psllw $15, %xmm1
	; SSE2-NEXT: psraw $15, %xmm1			; SSE2-NEXT: psraw $15, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_16i1_to_16i16:			; SSSE3-LABEL: load_sext_16i1_to_16i16:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: movzwl (%rdi), %eax			; SSSE3-NEXT: movzwl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $14, %ecx			; SSSE3-NEXT: shrl $7, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $6, %ecx			; SSSE3-NEXT: shrl $6, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $10, %ecx			; SSSE3-NEXT: shrl $5, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $2, %ecx			; SSSE3-NEXT: shrl $4, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $12, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $4, %ecx			; SSSE3-NEXT: shrl $2, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $8, %ecx			; SSSE3-NEXT: shrl %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $13, %ecx			; SSSE3-NEXT: shrl $11, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $5, %ecx			; SSSE3-NEXT: shrl $10, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $9, %ecx			; SSSE3-NEXT: shrl $9, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl %ecx			; SSSE3-NEXT: shrl $8, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $11, %ecx			; SSSE3-NEXT: shrl $13, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $12, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $7, %ecx			; SSSE3-NEXT: shrl $14, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: shrl $15, %eax			; SSSE3-NEXT: shrl $15, %eax
	; SSSE3-NEXT: movzwl %ax, %eax			; SSSE3-NEXT: movzwl %ax, %eax
	; SSSE3-NEXT: movd %eax, %xmm4			; SSSE3-NEXT: movd %eax, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSSE3-NEXT: movdqa %xmm1, %xmm0			; SSSE3-NEXT: movdqa %xmm1, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSSE3-NEXT: psllw $15, %xmm0			; SSSE3-NEXT: psllw $15, %xmm0
	; SSSE3-NEXT: psraw $15, %xmm0			; SSSE3-NEXT: psraw $15, %xmm0
	; SSSE3-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]			; SSSE3-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
	; SSSE3-NEXT: psllw $15, %xmm1			; SSSE3-NEXT: psllw $15, %xmm1
	; SSSE3-NEXT: psraw $15, %xmm1			; SSSE3-NEXT: psraw $15, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	▲ Show 20 Lines • Show All 373 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: load_sext_32i1_to_32i8:			; SSE2-LABEL: load_sext_32i1_to_32i8:
	; SSE2: # BB#0: # %entry			; SSE2: # BB#0: # %entry
	; SSE2-NEXT: pushq %rbp			; SSE2-NEXT: pushq %rbp
	; SSE2-NEXT: pushq %r15			; SSE2-NEXT: pushq %r15
	; SSE2-NEXT: pushq %r14			; SSE2-NEXT: pushq %r14
	; SSE2-NEXT: pushq %r13			; SSE2-NEXT: pushq %r13
	; SSE2-NEXT: pushq %r12			; SSE2-NEXT: pushq %r12
	; SSE2-NEXT: pushq %rbx			; SSE2-NEXT: pushq %rbx
	; SSE2-NEXT: movswq (%rdi), %rbx			; SSE2-NEXT: movswq (%rdi), %rax
	; SSE2-NEXT: movq %rbx, %r10			; SSE2-NEXT: movq %rax, %r10
	; SSE2-NEXT: movq %rbx, %r8			; SSE2-NEXT: movq %rax, %r8
	; SSE2-NEXT: movq %rbx, %r9			; SSE2-NEXT: movq %rax, %r9
	; SSE2-NEXT: movq %rbx, %r11			; SSE2-NEXT: movq %rax, %r11
	; SSE2-NEXT: movq %rbx, %r14			; SSE2-NEXT: movq %rax, %r14
	; SSE2-NEXT: movq %rbx, %r15			; SSE2-NEXT: movq %rax, %r15
	; SSE2-NEXT: movq %rbx, %r12			; SSE2-NEXT: movq %rax, %r12
	; SSE2-NEXT: movq %rbx, %r13			; SSE2-NEXT: movq %rax, %r13
	; SSE2-NEXT: movq %rbx, %rdx			; SSE2-NEXT: movq %rax, %rdx
	; SSE2-NEXT: movq %rbx, %rsi			; SSE2-NEXT: movq %rax, %rsi
	; SSE2-NEXT: movq %rbx, %rcx			; SSE2-NEXT: movq %rax, %rcx
	; SSE2-NEXT: movq %rbx, %rbp			; SSE2-NEXT: movq %rax, %rbp
	; SSE2-NEXT: movq %rbx, %rax			; SSE2-NEXT: movq %rax, %rbx
	; SSE2-NEXT: shlq $49, %rax			; SSE2-NEXT: shrq $15, %rbx
	; SSE2-NEXT: sarq $63, %rax			; SSE2-NEXT: movd %ebx, %xmm0
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movq %rax, %rbx
	; SSE2-NEXT: movq %rbx, %rax			; SSE2-NEXT: shlq $49, %r10
	; SSE2-NEXT: shlq $57, %r10
	; SSE2-NEXT: sarq $63, %r10			; SSE2-NEXT: sarq $63, %r10
	; SSE2-NEXT: movd %r10d, %xmm15			; SSE2-NEXT: movd %r10d, %xmm15
	; SSE2-NEXT: movq %rbx, %r10			; SSE2-NEXT: movq %rax, %r10
	; SSE2-NEXT: movsbq %bl, %rbx			; SSE2-NEXT: movsbq %al, %rax
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm0[0],xmm15[1],xmm0[1],xmm15[2],xmm0[2],xmm15[3],xmm0[3],xmm15[4],xmm0[4],xmm15[5],xmm0[5],xmm15[6],xmm0[6],xmm15[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm0[0],xmm15[1],xmm0[1],xmm15[2],xmm0[2],xmm15[3],xmm0[3],xmm15[4],xmm0[4],xmm15[5],xmm0[5],xmm15[6],xmm0[6],xmm15[7],xmm0[7]
	; SSE2-NEXT: shlq $53, %r8			; SSE2-NEXT: shlq $50, %r8
	; SSE2-NEXT: sarq $63, %r8			; SSE2-NEXT: sarq $63, %r8
	; SSE2-NEXT: movd %r8d, %xmm8			; SSE2-NEXT: movd %r8d, %xmm8
	; SSE2-NEXT: shlq $61, %r9			; SSE2-NEXT: shlq $51, %r9
	; SSE2-NEXT: sarq $63, %r9			; SSE2-NEXT: sarq $63, %r9
	; SSE2-NEXT: movd %r9d, %xmm2			; SSE2-NEXT: movd %r9d, %xmm3
	; SSE2-NEXT: shlq $51, %r11			; SSE2-NEXT: shlq $52, %r11
	; SSE2-NEXT: sarq $63, %r11			; SSE2-NEXT: sarq $63, %r11
	; SSE2-NEXT: movd %r11d, %xmm9			; SSE2-NEXT: movd %r11d, %xmm9
	; SSE2-NEXT: shlq $59, %r14			; SSE2-NEXT: shlq $53, %r14
	; SSE2-NEXT: sarq $63, %r14			; SSE2-NEXT: sarq $63, %r14
	; SSE2-NEXT: movd %r14d, %xmm5			; SSE2-NEXT: movd %r14d, %xmm6
	; SSE2-NEXT: shlq $55, %r15			; SSE2-NEXT: shlq $54, %r15
	; SSE2-NEXT: sarq $63, %r15			; SSE2-NEXT: sarq $63, %r15
	; SSE2-NEXT: movd %r15d, %xmm10			; SSE2-NEXT: movd %r15d, %xmm10
	; SSE2-NEXT: shlq $63, %r12			; SSE2-NEXT: shlq $55, %r12
	; SSE2-NEXT: sarq $63, %r12			; SSE2-NEXT: sarq $63, %r12
	; SSE2-NEXT: movd %r12d, %xmm0			; SSE2-NEXT: movd %r12d, %xmm2
	; SSE2-NEXT: shlq $50, %r13			; SSE2-NEXT: shlq $60, %r13
	; SSE2-NEXT: sarq $63, %r13			; SSE2-NEXT: sarq $63, %r13
	; SSE2-NEXT: movd %r13d, %xmm11			; SSE2-NEXT: movd %r13d, %xmm11
	; SSE2-NEXT: shlq $58, %rdx			; SSE2-NEXT: shlq $61, %rdx
	; SSE2-NEXT: sarq $63, %rdx			; SSE2-NEXT: sarq $63, %rdx
	; SSE2-NEXT: movd %edx, %xmm4			; SSE2-NEXT: movd %edx, %xmm5
	; SSE2-NEXT: shlq $54, %rsi			; SSE2-NEXT: shlq $62, %rsi
	; SSE2-NEXT: sarq $63, %rsi			; SSE2-NEXT: sarq $63, %rsi
	; SSE2-NEXT: movd %esi, %xmm12			; SSE2-NEXT: movd %esi, %xmm12
	; SSE2-NEXT: shlq $62, %rcx			; SSE2-NEXT: shlq $63, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm6			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: shlq $52, %rbp			; SSE2-NEXT: shlq $58, %rbp
	; SSE2-NEXT: sarq $63, %rbp			; SSE2-NEXT: sarq $63, %rbp
	; SSE2-NEXT: movd %ebp, %xmm13			; SSE2-NEXT: movd %ebp, %xmm13
	; SSE2-NEXT: shlq $60, %rax			; SSE2-NEXT: shlq $59, %rbx
	; SSE2-NEXT: sarq $63, %rax			; SSE2-NEXT: sarq $63, %rbx
	; SSE2-NEXT: movd %eax, %xmm7			; SSE2-NEXT: movd %ebx, %xmm7
	; SSE2-NEXT: shrq $15, %r10			; SSE2-NEXT: shlq $57, %r10
	; SSE2-NEXT: movd %r10d, %xmm14			; SSE2-NEXT: sarq $63, %r10
	; SSE2-NEXT: shrq $7, %rbx			; SSE2-NEXT: movd %r10d, %xmm4
	; SSE2-NEXT: movd %ebx, %xmm3			; SSE2-NEXT: shrq $7, %rax
	; SSE2-NEXT: movswq 2(%rdi), %rdx			; SSE2-NEXT: movd %eax, %xmm14
	; SSE2-NEXT: movq %rdx, %r8			; SSE2-NEXT: movswq 2(%rdi), %rsi
	; SSE2-NEXT: movq %rdx, %r9			; SSE2-NEXT: movq %rsi, %r8
	; SSE2-NEXT: movq %rdx, %r10			; SSE2-NEXT: movq %rsi, %r9
	; SSE2-NEXT: movq %rdx, %r11			; SSE2-NEXT: movq %rsi, %r10
	; SSE2-NEXT: movq %rdx, %r14			; SSE2-NEXT: movq %rsi, %r11
	; SSE2-NEXT: movq %rdx, %r15			; SSE2-NEXT: movq %rsi, %r14
	; SSE2-NEXT: movq %rdx, %r12			; SSE2-NEXT: movq %rsi, %r15
	; SSE2-NEXT: movq %rdx, %r13			; SSE2-NEXT: movq %rsi, %r12
	; SSE2-NEXT: movq %rdx, %rbx			; SSE2-NEXT: movq %rsi, %r13
	; SSE2-NEXT: movq %rdx, %rax			; SSE2-NEXT: movq %rsi, %rbx
	; SSE2-NEXT: movq %rdx, %rcx			; SSE2-NEXT: movq %rsi, %rax
	; SSE2-NEXT: movq %rdx, %rsi			; SSE2-NEXT: movq %rsi, %rcx
	; SSE2-NEXT: movq %rdx, %rdi			; SSE2-NEXT: movq %rsi, %rdx
	; SSE2-NEXT: movq %rdx, %rbp			; SSE2-NEXT: movq %rsi, %rdi
	; SSE2-NEXT: shlq $49, %rbp			; SSE2-NEXT: movq %rsi, %rbp
	; SSE2-NEXT: sarq $63, %rbp			; SSE2-NEXT: shrq $15, %rbp
	; SSE2-NEXT: movd %ebp, %xmm1			; SSE2-NEXT: movd %ebp, %xmm1
	; SSE2-NEXT: movq %rdx, %rbp			; SSE2-NEXT: movq %rsi, %rbp
	; SSE2-NEXT: movsbq %dl, %rdx			; SSE2-NEXT: movsbq %sil, %rsi
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1],xmm2[2],xmm8[2],xmm2[3],xmm8[3],xmm2[4],xmm8[4],xmm2[5],xmm8[5],xmm2[6],xmm8[6],xmm2[7],xmm8[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3],xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm15[0],xmm2[1],xmm15[1],xmm2[2],xmm15[2],xmm2[3],xmm15[3],xmm2[4],xmm15[4],xmm2[5],xmm15[5],xmm2[6],xmm15[6],xmm2[7],xmm15[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm9[0],xmm5[1],xmm9[1],xmm5[2],xmm9[2],xmm5[3],xmm9[3],xmm5[4],xmm9[4],xmm5[5],xmm9[5],xmm5[6],xmm9[6],xmm5[7],xmm9[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm9[0],xmm6[1],xmm9[1],xmm6[2],xmm9[2],xmm6[3],xmm9[3],xmm6[4],xmm9[4],xmm6[5],xmm9[5],xmm6[6],xmm9[6],xmm6[7],xmm9[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3],xmm0[4],xmm10[4],xmm0[5],xmm10[5],xmm0[6],xmm10[6],xmm0[7],xmm10[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm10[0],xmm2[1],xmm10[1],xmm2[2],xmm10[2],xmm2[3],xmm10[3],xmm2[4],xmm10[4],xmm2[5],xmm10[5],xmm2[6],xmm10[6],xmm2[7],xmm10[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm11[0],xmm4[1],xmm11[1],xmm4[2],xmm11[2],xmm4[3],xmm11[3],xmm4[4],xmm11[4],xmm4[5],xmm11[5],xmm4[6],xmm11[6],xmm4[7],xmm11[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm11[0],xmm5[1],xmm11[1],xmm5[2],xmm11[2],xmm5[3],xmm11[3],xmm5[4],xmm11[4],xmm5[5],xmm11[5],xmm5[6],xmm11[6],xmm5[7],xmm11[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1],xmm6[2],xmm12[2],xmm6[3],xmm12[3],xmm6[4],xmm12[4],xmm6[5],xmm12[5],xmm6[6],xmm12[6],xmm6[7],xmm12[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm12[0],xmm0[1],xmm12[1],xmm0[2],xmm12[2],xmm0[3],xmm12[3],xmm0[4],xmm12[4],xmm0[5],xmm12[5],xmm0[6],xmm12[6],xmm0[7],xmm12[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm4[0],xmm6[1],xmm4[1],xmm6[2],xmm4[2],xmm6[3],xmm4[3],xmm6[4],xmm4[4],xmm6[5],xmm4[5],xmm6[6],xmm4[6],xmm6[7],xmm4[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm13[0],xmm7[1],xmm13[1],xmm7[2],xmm13[2],xmm7[3],xmm13[3],xmm7[4],xmm13[4],xmm7[5],xmm13[5],xmm7[6],xmm13[6],xmm7[7],xmm13[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm13[0],xmm7[1],xmm13[1],xmm7[2],xmm13[2],xmm7[3],xmm13[3],xmm7[4],xmm13[4],xmm7[5],xmm13[5],xmm7[6],xmm13[6],xmm7[7],xmm13[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3],xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm14[0],xmm4[1],xmm14[1],xmm4[2],xmm14[2],xmm4[3],xmm14[3],xmm4[4],xmm14[4],xmm4[5],xmm14[5],xmm4[6],xmm14[6],xmm4[7],xmm14[7]
	; SSE2-NEXT: shlq $57, %r8			; SSE2-NEXT: shlq $49, %r8
	; SSE2-NEXT: sarq $63, %r8			; SSE2-NEXT: sarq $63, %r8
	; SSE2-NEXT: movd %r8d, %xmm2			; SSE2-NEXT: movd %r8d, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm3[0],xmm7[1],xmm3[1],xmm7[2],xmm3[2],xmm7[3],xmm3[3],xmm7[4],xmm3[4],xmm7[5],xmm3[5],xmm7[6],xmm3[6],xmm7[7],xmm3[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm4[0],xmm7[1],xmm4[1],xmm7[2],xmm4[2],xmm7[3],xmm4[3]
	; SSE2-NEXT: shlq $53, %r9			; SSE2-NEXT: shlq $50, %r9
	; SSE2-NEXT: sarq $63, %r9			; SSE2-NEXT: sarq $63, %r9
	; SSE2-NEXT: movd %r9d, %xmm3			; SSE2-NEXT: movd %r9d, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1]
	; SSE2-NEXT: shlq $61, %r10			; SSE2-NEXT: shlq $51, %r10
	; SSE2-NEXT: sarq $63, %r10			; SSE2-NEXT: sarq $63, %r10
	; SSE2-NEXT: movd %r10d, %xmm4			; SSE2-NEXT: movd %r10d, %xmm5
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: shlq $51, %r11			; SSE2-NEXT: shlq $52, %r11
	; SSE2-NEXT: sarq $63, %r11			; SSE2-NEXT: sarq $63, %r11
	; SSE2-NEXT: movd %r11d, %xmm5			; SSE2-NEXT: movd %r11d, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
	; SSE2-NEXT: shlq $59, %r14			; SSE2-NEXT: shlq $53, %r14
	; SSE2-NEXT: sarq $63, %r14			; SSE2-NEXT: sarq $63, %r14
	; SSE2-NEXT: movd %r14d, %xmm6			; SSE2-NEXT: movd %r14d, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]
	; SSE2-NEXT: shlq $55, %r15			; SSE2-NEXT: shlq $54, %r15
	; SSE2-NEXT: sarq $63, %r15			; SSE2-NEXT: sarq $63, %r15
	; SSE2-NEXT: movd %r15d, %xmm3			; SSE2-NEXT: movd %r15d, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3]
	; SSE2-NEXT: shlq $63, %r12			; SSE2-NEXT: shlq $55, %r12
	; SSE2-NEXT: sarq $63, %r12			; SSE2-NEXT: sarq $63, %r12
	; SSE2-NEXT: movd %r12d, %xmm1			; SSE2-NEXT: movd %r12d, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3],xmm6[4],xmm5[4],xmm6[5],xmm5[5],xmm6[6],xmm5[6],xmm6[7],xmm5[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE2-NEXT: shlq $50, %r13			; SSE2-NEXT: shlq $60, %r13
	; SSE2-NEXT: sarq $63, %r13			; SSE2-NEXT: sarq $63, %r13
	; SSE2-NEXT: movd %r13d, %xmm2			; SSE2-NEXT: movd %r13d, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]
	; SSE2-NEXT: shlq $58, %rbx			; SSE2-NEXT: shlq $61, %rbx
	; SSE2-NEXT: sarq $63, %rbx			; SSE2-NEXT: sarq $63, %rbx
	; SSE2-NEXT: movd %ebx, %xmm3			; SSE2-NEXT: movd %ebx, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
	; SSE2-NEXT: shlq $54, %rax			; SSE2-NEXT: shlq $62, %rax
	; SSE2-NEXT: sarq $63, %rax			; SSE2-NEXT: sarq $63, %rax
	; SSE2-NEXT: movd %eax, %xmm5			; SSE2-NEXT: movd %eax, %xmm6
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
	; SSE2-NEXT: shlq $62, %rcx			; SSE2-NEXT: shlq $63, %rcx
	; SSE2-NEXT: sarq $63, %rcx			; SSE2-NEXT: sarq $63, %rcx
	; SSE2-NEXT: movd %ecx, %xmm4			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
	; SSE2-NEXT: shlq $52, %rsi			; SSE2-NEXT: shlq $58, %rdx
	; SSE2-NEXT: sarq $63, %rsi			; SSE2-NEXT: sarq $63, %rdx
	; SSE2-NEXT: movd %esi, %xmm2			; SSE2-NEXT: movd %edx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3]
	; SSE2-NEXT: shlq $60, %rdi			; SSE2-NEXT: shlq $59, %rdi
	; SSE2-NEXT: sarq $63, %rdi			; SSE2-NEXT: sarq $63, %rdi
	; SSE2-NEXT: movd %edi, %xmm3			; SSE2-NEXT: movd %edi, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
	; SSE2-NEXT: shrq $15, %rbp			; SSE2-NEXT: shlq $57, %rbp
				; SSE2-NEXT: sarq $63, %rbp
	; SSE2-NEXT: movd %ebp, %xmm2			; SSE2-NEXT: movd %ebp, %xmm2
	; SSE2-NEXT: shrq $7, %rdx			; SSE2-NEXT: shrq $7, %rsi
	; SSE2-NEXT: movd %edx, %xmm5			; SSE2-NEXT: movd %esi, %xmm5
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm2[0],xmm5[1],xmm2[1],xmm5[2],xmm2[2],xmm5[3],xmm2[3],xmm5[4],xmm2[4],xmm5[5],xmm2[5],xmm5[6],xmm2[6],xmm5[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1],xmm2[2],xmm5[2],xmm2[3],xmm5[3],xmm2[4],xmm5[4],xmm2[5],xmm5[5],xmm2[6],xmm5[6],xmm2[7],xmm5[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1],xmm3[2],xmm5[2],xmm3[3],xmm5[3],xmm3[4],xmm5[4],xmm3[5],xmm5[5],xmm3[6],xmm5[6],xmm3[7],xmm5[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; SSE2-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; SSE2-NEXT: popq %r12			; SSE2-NEXT: popq %r12
	; SSE2-NEXT: popq %r13			; SSE2-NEXT: popq %r13
	; SSE2-NEXT: popq %r14			; SSE2-NEXT: popq %r14
	; SSE2-NEXT: popq %r15			; SSE2-NEXT: popq %r15
	; SSE2-NEXT: popq %rbp			; SSE2-NEXT: popq %rbp
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_32i1_to_32i8:			; SSSE3-LABEL: load_sext_32i1_to_32i8:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: pushq %rbp			; SSSE3-NEXT: pushq %rbp
	; SSSE3-NEXT: pushq %r15			; SSSE3-NEXT: pushq %r15
	; SSSE3-NEXT: pushq %r14			; SSSE3-NEXT: pushq %r14
	; SSSE3-NEXT: pushq %r13			; SSSE3-NEXT: pushq %r13
	; SSSE3-NEXT: pushq %r12			; SSSE3-NEXT: pushq %r12
	; SSSE3-NEXT: pushq %rbx			; SSSE3-NEXT: pushq %rbx
	; SSSE3-NEXT: movswq (%rdi), %rbx			; SSSE3-NEXT: movswq (%rdi), %rax
	; SSSE3-NEXT: movq %rbx, %r10			; SSSE3-NEXT: movq %rax, %r10
	; SSSE3-NEXT: movq %rbx, %r8			; SSSE3-NEXT: movq %rax, %r8
	; SSSE3-NEXT: movq %rbx, %r9			; SSSE3-NEXT: movq %rax, %r9
	; SSSE3-NEXT: movq %rbx, %r11			; SSSE3-NEXT: movq %rax, %r11
	; SSSE3-NEXT: movq %rbx, %r14			; SSSE3-NEXT: movq %rax, %r14
	; SSSE3-NEXT: movq %rbx, %r15			; SSSE3-NEXT: movq %rax, %r15
	; SSSE3-NEXT: movq %rbx, %r12			; SSSE3-NEXT: movq %rax, %r12
	; SSSE3-NEXT: movq %rbx, %r13			; SSSE3-NEXT: movq %rax, %r13
	; SSSE3-NEXT: movq %rbx, %rdx			; SSSE3-NEXT: movq %rax, %rdx
	; SSSE3-NEXT: movq %rbx, %rsi			; SSSE3-NEXT: movq %rax, %rsi
	; SSSE3-NEXT: movq %rbx, %rcx			; SSSE3-NEXT: movq %rax, %rcx
	; SSSE3-NEXT: movq %rbx, %rbp			; SSSE3-NEXT: movq %rax, %rbp
	; SSSE3-NEXT: movq %rbx, %rax			; SSSE3-NEXT: movq %rax, %rbx
	; SSSE3-NEXT: shlq $49, %rax			; SSSE3-NEXT: shrq $15, %rbx
	; SSSE3-NEXT: sarq $63, %rax			; SSSE3-NEXT: movd %ebx, %xmm0
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movq %rax, %rbx
	; SSSE3-NEXT: movq %rbx, %rax			; SSSE3-NEXT: shlq $49, %r10
	; SSSE3-NEXT: shlq $57, %r10
	; SSSE3-NEXT: sarq $63, %r10			; SSSE3-NEXT: sarq $63, %r10
	; SSSE3-NEXT: movd %r10d, %xmm15			; SSSE3-NEXT: movd %r10d, %xmm15
	; SSSE3-NEXT: movq %rbx, %r10			; SSSE3-NEXT: movq %rax, %r10
	; SSSE3-NEXT: movsbq %bl, %rbx			; SSSE3-NEXT: movsbq %al, %rax
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm0[0],xmm15[1],xmm0[1],xmm15[2],xmm0[2],xmm15[3],xmm0[3],xmm15[4],xmm0[4],xmm15[5],xmm0[5],xmm15[6],xmm0[6],xmm15[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm0[0],xmm15[1],xmm0[1],xmm15[2],xmm0[2],xmm15[3],xmm0[3],xmm15[4],xmm0[4],xmm15[5],xmm0[5],xmm15[6],xmm0[6],xmm15[7],xmm0[7]
	; SSSE3-NEXT: shlq $53, %r8			; SSSE3-NEXT: shlq $50, %r8
	; SSSE3-NEXT: sarq $63, %r8			; SSSE3-NEXT: sarq $63, %r8
	; SSSE3-NEXT: movd %r8d, %xmm8			; SSSE3-NEXT: movd %r8d, %xmm8
	; SSSE3-NEXT: shlq $61, %r9			; SSSE3-NEXT: shlq $51, %r9
	; SSSE3-NEXT: sarq $63, %r9			; SSSE3-NEXT: sarq $63, %r9
	; SSSE3-NEXT: movd %r9d, %xmm2			; SSSE3-NEXT: movd %r9d, %xmm3
	; SSSE3-NEXT: shlq $51, %r11			; SSSE3-NEXT: shlq $52, %r11
	; SSSE3-NEXT: sarq $63, %r11			; SSSE3-NEXT: sarq $63, %r11
	; SSSE3-NEXT: movd %r11d, %xmm9			; SSSE3-NEXT: movd %r11d, %xmm9
	; SSSE3-NEXT: shlq $59, %r14			; SSSE3-NEXT: shlq $53, %r14
	; SSSE3-NEXT: sarq $63, %r14			; SSSE3-NEXT: sarq $63, %r14
	; SSSE3-NEXT: movd %r14d, %xmm5			; SSSE3-NEXT: movd %r14d, %xmm6
	; SSSE3-NEXT: shlq $55, %r15			; SSSE3-NEXT: shlq $54, %r15
	; SSSE3-NEXT: sarq $63, %r15			; SSSE3-NEXT: sarq $63, %r15
	; SSSE3-NEXT: movd %r15d, %xmm10			; SSSE3-NEXT: movd %r15d, %xmm10
	; SSSE3-NEXT: shlq $63, %r12			; SSSE3-NEXT: shlq $55, %r12
	; SSSE3-NEXT: sarq $63, %r12			; SSSE3-NEXT: sarq $63, %r12
	; SSSE3-NEXT: movd %r12d, %xmm0			; SSSE3-NEXT: movd %r12d, %xmm2
	; SSSE3-NEXT: shlq $50, %r13			; SSSE3-NEXT: shlq $60, %r13
	; SSSE3-NEXT: sarq $63, %r13			; SSSE3-NEXT: sarq $63, %r13
	; SSSE3-NEXT: movd %r13d, %xmm11			; SSSE3-NEXT: movd %r13d, %xmm11
	; SSSE3-NEXT: shlq $58, %rdx			; SSSE3-NEXT: shlq $61, %rdx
	; SSSE3-NEXT: sarq $63, %rdx			; SSSE3-NEXT: sarq $63, %rdx
	; SSSE3-NEXT: movd %edx, %xmm4			; SSSE3-NEXT: movd %edx, %xmm5
	; SSSE3-NEXT: shlq $54, %rsi			; SSSE3-NEXT: shlq $62, %rsi
	; SSSE3-NEXT: sarq $63, %rsi			; SSSE3-NEXT: sarq $63, %rsi
	; SSSE3-NEXT: movd %esi, %xmm12			; SSSE3-NEXT: movd %esi, %xmm12
	; SSSE3-NEXT: shlq $62, %rcx			; SSSE3-NEXT: shlq $63, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm6			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: shlq $52, %rbp			; SSSE3-NEXT: shlq $58, %rbp
	; SSSE3-NEXT: sarq $63, %rbp			; SSSE3-NEXT: sarq $63, %rbp
	; SSSE3-NEXT: movd %ebp, %xmm13			; SSSE3-NEXT: movd %ebp, %xmm13
	; SSSE3-NEXT: shlq $60, %rax			; SSSE3-NEXT: shlq $59, %rbx
	; SSSE3-NEXT: sarq $63, %rax			; SSSE3-NEXT: sarq $63, %rbx
	; SSSE3-NEXT: movd %eax, %xmm7			; SSSE3-NEXT: movd %ebx, %xmm7
	; SSSE3-NEXT: shrq $15, %r10			; SSSE3-NEXT: shlq $57, %r10
	; SSSE3-NEXT: movd %r10d, %xmm14			; SSSE3-NEXT: sarq $63, %r10
	; SSSE3-NEXT: shrq $7, %rbx			; SSSE3-NEXT: movd %r10d, %xmm4
	; SSSE3-NEXT: movd %ebx, %xmm3			; SSSE3-NEXT: shrq $7, %rax
	; SSSE3-NEXT: movswq 2(%rdi), %rdx			; SSSE3-NEXT: movd %eax, %xmm14
	; SSSE3-NEXT: movq %rdx, %r8			; SSSE3-NEXT: movswq 2(%rdi), %rsi
	; SSSE3-NEXT: movq %rdx, %r9			; SSSE3-NEXT: movq %rsi, %r8
	; SSSE3-NEXT: movq %rdx, %r10			; SSSE3-NEXT: movq %rsi, %r9
	; SSSE3-NEXT: movq %rdx, %r11			; SSSE3-NEXT: movq %rsi, %r10
	; SSSE3-NEXT: movq %rdx, %r14			; SSSE3-NEXT: movq %rsi, %r11
	; SSSE3-NEXT: movq %rdx, %r15			; SSSE3-NEXT: movq %rsi, %r14
	; SSSE3-NEXT: movq %rdx, %r12			; SSSE3-NEXT: movq %rsi, %r15
	; SSSE3-NEXT: movq %rdx, %r13			; SSSE3-NEXT: movq %rsi, %r12
	; SSSE3-NEXT: movq %rdx, %rbx			; SSSE3-NEXT: movq %rsi, %r13
	; SSSE3-NEXT: movq %rdx, %rax			; SSSE3-NEXT: movq %rsi, %rbx
	; SSSE3-NEXT: movq %rdx, %rcx			; SSSE3-NEXT: movq %rsi, %rax
	; SSSE3-NEXT: movq %rdx, %rsi			; SSSE3-NEXT: movq %rsi, %rcx
	; SSSE3-NEXT: movq %rdx, %rdi			; SSSE3-NEXT: movq %rsi, %rdx
	; SSSE3-NEXT: movq %rdx, %rbp			; SSSE3-NEXT: movq %rsi, %rdi
	; SSSE3-NEXT: shlq $49, %rbp			; SSSE3-NEXT: movq %rsi, %rbp
	; SSSE3-NEXT: sarq $63, %rbp			; SSSE3-NEXT: shrq $15, %rbp
	; SSSE3-NEXT: movd %ebp, %xmm1			; SSSE3-NEXT: movd %ebp, %xmm1
	; SSSE3-NEXT: movq %rdx, %rbp			; SSSE3-NEXT: movq %rsi, %rbp
	; SSSE3-NEXT: movsbq %dl, %rdx			; SSSE3-NEXT: movsbq %sil, %rsi
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1],xmm2[2],xmm8[2],xmm2[3],xmm8[3],xmm2[4],xmm8[4],xmm2[5],xmm8[5],xmm2[6],xmm8[6],xmm2[7],xmm8[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3],xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm15[0],xmm2[1],xmm15[1],xmm2[2],xmm15[2],xmm2[3],xmm15[3],xmm2[4],xmm15[4],xmm2[5],xmm15[5],xmm2[6],xmm15[6],xmm2[7],xmm15[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm9[0],xmm5[1],xmm9[1],xmm5[2],xmm9[2],xmm5[3],xmm9[3],xmm5[4],xmm9[4],xmm5[5],xmm9[5],xmm5[6],xmm9[6],xmm5[7],xmm9[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm9[0],xmm6[1],xmm9[1],xmm6[2],xmm9[2],xmm6[3],xmm9[3],xmm6[4],xmm9[4],xmm6[5],xmm9[5],xmm6[6],xmm9[6],xmm6[7],xmm9[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3],xmm0[4],xmm10[4],xmm0[5],xmm10[5],xmm0[6],xmm10[6],xmm0[7],xmm10[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm10[0],xmm2[1],xmm10[1],xmm2[2],xmm10[2],xmm2[3],xmm10[3],xmm2[4],xmm10[4],xmm2[5],xmm10[5],xmm2[6],xmm10[6],xmm2[7],xmm10[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm11[0],xmm4[1],xmm11[1],xmm4[2],xmm11[2],xmm4[3],xmm11[3],xmm4[4],xmm11[4],xmm4[5],xmm11[5],xmm4[6],xmm11[6],xmm4[7],xmm11[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm11[0],xmm5[1],xmm11[1],xmm5[2],xmm11[2],xmm5[3],xmm11[3],xmm5[4],xmm11[4],xmm5[5],xmm11[5],xmm5[6],xmm11[6],xmm5[7],xmm11[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1],xmm6[2],xmm12[2],xmm6[3],xmm12[3],xmm6[4],xmm12[4],xmm6[5],xmm12[5],xmm6[6],xmm12[6],xmm6[7],xmm12[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm12[0],xmm0[1],xmm12[1],xmm0[2],xmm12[2],xmm0[3],xmm12[3],xmm0[4],xmm12[4],xmm0[5],xmm12[5],xmm0[6],xmm12[6],xmm0[7],xmm12[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm4[0],xmm6[1],xmm4[1],xmm6[2],xmm4[2],xmm6[3],xmm4[3],xmm6[4],xmm4[4],xmm6[5],xmm4[5],xmm6[6],xmm4[6],xmm6[7],xmm4[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm13[0],xmm7[1],xmm13[1],xmm7[2],xmm13[2],xmm7[3],xmm13[3],xmm7[4],xmm13[4],xmm7[5],xmm13[5],xmm7[6],xmm13[6],xmm7[7],xmm13[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm13[0],xmm7[1],xmm13[1],xmm7[2],xmm13[2],xmm7[3],xmm13[3],xmm7[4],xmm13[4],xmm7[5],xmm13[5],xmm7[6],xmm13[6],xmm7[7],xmm13[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3],xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm14[0],xmm4[1],xmm14[1],xmm4[2],xmm14[2],xmm4[3],xmm14[3],xmm4[4],xmm14[4],xmm4[5],xmm14[5],xmm4[6],xmm14[6],xmm4[7],xmm14[7]
	; SSSE3-NEXT: shlq $57, %r8			; SSSE3-NEXT: shlq $49, %r8
	; SSSE3-NEXT: sarq $63, %r8			; SSSE3-NEXT: sarq $63, %r8
	; SSSE3-NEXT: movd %r8d, %xmm2			; SSSE3-NEXT: movd %r8d, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm3[0],xmm7[1],xmm3[1],xmm7[2],xmm3[2],xmm7[3],xmm3[3],xmm7[4],xmm3[4],xmm7[5],xmm3[5],xmm7[6],xmm3[6],xmm7[7],xmm3[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm4[0],xmm7[1],xmm4[1],xmm7[2],xmm4[2],xmm7[3],xmm4[3]
	; SSSE3-NEXT: shlq $53, %r9			; SSSE3-NEXT: shlq $50, %r9
	; SSSE3-NEXT: sarq $63, %r9			; SSSE3-NEXT: sarq $63, %r9
	; SSSE3-NEXT: movd %r9d, %xmm3			; SSSE3-NEXT: movd %r9d, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1]
	; SSSE3-NEXT: shlq $61, %r10			; SSSE3-NEXT: shlq $51, %r10
	; SSSE3-NEXT: sarq $63, %r10			; SSSE3-NEXT: sarq $63, %r10
	; SSSE3-NEXT: movd %r10d, %xmm4			; SSSE3-NEXT: movd %r10d, %xmm5
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSSE3-NEXT: shlq $51, %r11			; SSSE3-NEXT: shlq $52, %r11
	; SSSE3-NEXT: sarq $63, %r11			; SSSE3-NEXT: sarq $63, %r11
	; SSSE3-NEXT: movd %r11d, %xmm5			; SSSE3-NEXT: movd %r11d, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
	; SSSE3-NEXT: shlq $59, %r14			; SSSE3-NEXT: shlq $53, %r14
	; SSSE3-NEXT: sarq $63, %r14			; SSSE3-NEXT: sarq $63, %r14
	; SSSE3-NEXT: movd %r14d, %xmm6			; SSSE3-NEXT: movd %r14d, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]
	; SSSE3-NEXT: shlq $55, %r15			; SSSE3-NEXT: shlq $54, %r15
	; SSSE3-NEXT: sarq $63, %r15			; SSSE3-NEXT: sarq $63, %r15
	; SSSE3-NEXT: movd %r15d, %xmm3			; SSSE3-NEXT: movd %r15d, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3]
	; SSSE3-NEXT: shlq $63, %r12			; SSSE3-NEXT: shlq $55, %r12
	; SSSE3-NEXT: sarq $63, %r12			; SSSE3-NEXT: sarq $63, %r12
	; SSSE3-NEXT: movd %r12d, %xmm1			; SSSE3-NEXT: movd %r12d, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3],xmm6[4],xmm5[4],xmm6[5],xmm5[5],xmm6[6],xmm5[6],xmm6[7],xmm5[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSSE3-NEXT: shlq $50, %r13			; SSSE3-NEXT: shlq $60, %r13
	; SSSE3-NEXT: sarq $63, %r13			; SSSE3-NEXT: sarq $63, %r13
	; SSSE3-NEXT: movd %r13d, %xmm2			; SSSE3-NEXT: movd %r13d, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]
	; SSSE3-NEXT: shlq $58, %rbx			; SSSE3-NEXT: shlq $61, %rbx
	; SSSE3-NEXT: sarq $63, %rbx			; SSSE3-NEXT: sarq $63, %rbx
	; SSSE3-NEXT: movd %ebx, %xmm3			; SSSE3-NEXT: movd %ebx, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
	; SSSE3-NEXT: shlq $54, %rax			; SSSE3-NEXT: shlq $62, %rax
	; SSSE3-NEXT: sarq $63, %rax			; SSSE3-NEXT: sarq $63, %rax
	; SSSE3-NEXT: movd %eax, %xmm5			; SSSE3-NEXT: movd %eax, %xmm6
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
	; SSSE3-NEXT: shlq $62, %rcx			; SSSE3-NEXT: shlq $63, %rcx
	; SSSE3-NEXT: sarq $63, %rcx			; SSSE3-NEXT: sarq $63, %rcx
	; SSSE3-NEXT: movd %ecx, %xmm4			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
	; SSSE3-NEXT: shlq $52, %rsi			; SSSE3-NEXT: shlq $58, %rdx
	; SSSE3-NEXT: sarq $63, %rsi			; SSSE3-NEXT: sarq $63, %rdx
	; SSSE3-NEXT: movd %esi, %xmm2			; SSSE3-NEXT: movd %edx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3]
	; SSSE3-NEXT: shlq $60, %rdi			; SSSE3-NEXT: shlq $59, %rdi
	; SSSE3-NEXT: sarq $63, %rdi			; SSSE3-NEXT: sarq $63, %rdi
	; SSSE3-NEXT: movd %edi, %xmm3			; SSSE3-NEXT: movd %edi, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
	; SSSE3-NEXT: shrq $15, %rbp			; SSSE3-NEXT: shlq $57, %rbp
				; SSSE3-NEXT: sarq $63, %rbp
	; SSSE3-NEXT: movd %ebp, %xmm2			; SSSE3-NEXT: movd %ebp, %xmm2
	; SSSE3-NEXT: shrq $7, %rdx			; SSSE3-NEXT: shrq $7, %rsi
	; SSSE3-NEXT: movd %edx, %xmm5			; SSSE3-NEXT: movd %esi, %xmm5
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm2[0],xmm5[1],xmm2[1],xmm5[2],xmm2[2],xmm5[3],xmm2[3],xmm5[4],xmm2[4],xmm5[5],xmm2[5],xmm5[6],xmm2[6],xmm5[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1],xmm2[2],xmm5[2],xmm2[3],xmm5[3],xmm2[4],xmm5[4],xmm2[5],xmm5[5],xmm2[6],xmm5[6],xmm2[7],xmm5[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1],xmm3[2],xmm5[2],xmm3[3],xmm5[3],xmm3[4],xmm5[4],xmm3[5],xmm5[5],xmm3[6],xmm5[6],xmm3[7],xmm5[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; SSSE3-NEXT: popq %rbx			; SSSE3-NEXT: popq %rbx
	; SSSE3-NEXT: popq %r12			; SSSE3-NEXT: popq %r12
	; SSSE3-NEXT: popq %r13			; SSSE3-NEXT: popq %r13
	; SSSE3-NEXT: popq %r14			; SSSE3-NEXT: popq %r14
	; SSSE3-NEXT: popq %r15			; SSSE3-NEXT: popq %r15
	; SSSE3-NEXT: popq %rbp			; SSSE3-NEXT: popq %rbp
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 1,187 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shuffle-variable-128.ll

	Show First 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: andl $3, %ecx			; SSE2-NEXT: andl $3, %ecx
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:			; SSSE3-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSSE3-NEXT: andl $3, %edi			; SSSE3-NEXT: andl $3, %edi
	; SSSE3-NEXT: andl $3, %esi			; SSSE3-NEXT: andl $3, %esi
	; SSSE3-NEXT: andl $3, %edx			; SSSE3-NEXT: andl $3, %edx
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $3, %ecx			; SSSE3-NEXT: andl $3, %ecx
	; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSSE3-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSSE3-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:			; SSE41-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: andl $3, %ecx			; SSE2-NEXT: andl $3, %ecx
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:			; SSSE3-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSSE3-NEXT: andl $3, %edi			; SSSE3-NEXT: andl $3, %edi
	; SSSE3-NEXT: andl $3, %esi			; SSSE3-NEXT: andl $3, %esi
	; SSSE3-NEXT: andl $3, %edx			; SSSE3-NEXT: andl $3, %edx
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $3, %ecx			; SSSE3-NEXT: andl $3, %ecx
	; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:			; SSE41-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: andl $7, %r9d			; SSE2-NEXT: andl $7, %r9d
	; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d			; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d
	; SSE2-NEXT: andl $7, %r10d			; SSE2-NEXT: andl $7, %r10d
	; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $7, %eax			; SSE2-NEXT: andl $7, %eax
	; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%r10,2), %eax
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%r8,2), %eax
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSE2-NEXT: movzwl -24(%rsp,%r10,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: movzwl -24(%rsp,%rdx,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%rdx,2), %eax
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: movzwl -24(%rsp,%r8,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: movzwl -24(%rsp,%rdi,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%rdi,2), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:			; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSSE3-NEXT: andl $7, %edi			; SSSE3-NEXT: andl $7, %edi
	; SSSE3-NEXT: andl $7, %esi			; SSSE3-NEXT: andl $7, %esi
	; SSSE3-NEXT: andl $7, %edx			; SSSE3-NEXT: andl $7, %edx
	; SSSE3-NEXT: andl $7, %ecx			; SSSE3-NEXT: andl $7, %ecx
	; SSSE3-NEXT: andl $7, %r8d			; SSSE3-NEXT: andl $7, %r8d
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $7, %r9d			; SSSE3-NEXT: andl $7, %r9d
	; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d			; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d
	; SSSE3-NEXT: andl $7, %r10d			; SSSE3-NEXT: andl $7, %r10d
	; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $7, %eax			; SSSE3-NEXT: andl $7, %eax
	; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%r10,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: movd %eax, %xmm1
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%r8,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSSE3-NEXT: movzwl -24(%rsp,%r10,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: movzwl -24(%rsp,%rdx,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%rdx,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: movd %eax, %xmm1
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: movzwl -24(%rsp,%r8,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm3			; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: movzwl -24(%rsp,%rdi,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%rdi,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:			; SSE41-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm15			; SSE2-NEXT: movd %eax, %xmm15
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm9			; SSE2-NEXT: movd %eax, %xmm9
	; SSE2-NEXT: andl $15, %ecx			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: movzbl (%rcx,%r10), %eax			; SSE2-NEXT: andl $15, %eax
				; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm10			; SSE2-NEXT: movd %eax, %xmm10
	; SSE2-NEXT: andl $15, %r9d
	; SSE2-NEXT: movzbl (%r9,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm7
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm11			; SSE2-NEXT: movd %eax, %xmm7
	; SSE2-NEXT: andl $15, %esi
	; SSE2-NEXT: movzbl (%rsi,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm6
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm12			; SSE2-NEXT: movd %eax, %xmm11
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm5			; SSE2-NEXT: movd %eax, %xmm6
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm13			; SSE2-NEXT: movd %eax, %xmm12
	; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm4
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax			; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm14			; SSE2-NEXT: movd %eax, %xmm5
				; SSE2-NEXT: andl $15, %r9d
				; SSE2-NEXT: movzbl (%r9,%r10), %eax
				; SSE2-NEXT: movd %eax, %xmm13
	; SSE2-NEXT: andl $15, %r8d			; SSE2-NEXT: andl $15, %r8d
	; SSE2-NEXT: movzbl (%r8,%r10), %eax			; SSE2-NEXT: movzbl (%r8,%r10), %eax
				; SSE2-NEXT: movd %eax, %xmm4
				; SSE2-NEXT: andl $15, %ecx
				; SSE2-NEXT: movzbl (%rcx,%r10), %eax
				; SSE2-NEXT: movd %eax, %xmm14
				; SSE2-NEXT: andl $15, %edx
				; SSE2-NEXT: movzbl (%rdx,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: andl $15, %esi
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: movzbl (%rsi,%r10), %eax
	; SSE2-NEXT: movzbl (%rax,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: andl $15, %edi			; SSE2-NEXT: andl $15, %edi
	; SSE2-NEXT: movzbl (%rdi,%r10), %eax			; SSE2-NEXT: movzbl (%rdi,%r10), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:			; SSSE3-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %r10			; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %r10
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm8			; SSSE3-NEXT: movd %eax, %xmm8
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm15			; SSSE3-NEXT: movd %eax, %xmm15
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm9			; SSSE3-NEXT: movd %eax, %xmm9
	; SSSE3-NEXT: andl $15, %ecx			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: movzbl (%rcx,%r10), %eax			; SSSE3-NEXT: andl $15, %eax
				; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm3			; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm10			; SSSE3-NEXT: movd %eax, %xmm10
	; SSSE3-NEXT: andl $15, %r9d
	; SSSE3-NEXT: movzbl (%r9,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm7
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm11			; SSSE3-NEXT: movd %eax, %xmm7
	; SSSE3-NEXT: andl $15, %esi
	; SSSE3-NEXT: movzbl (%rsi,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm6
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm12			; SSSE3-NEXT: movd %eax, %xmm11
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm5			; SSSE3-NEXT: movd %eax, %xmm6
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm13			; SSSE3-NEXT: movd %eax, %xmm12
	; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm4
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax			; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm14			; SSSE3-NEXT: movd %eax, %xmm5
				; SSSE3-NEXT: andl $15, %r9d
				; SSSE3-NEXT: movzbl (%r9,%r10), %eax
				; SSSE3-NEXT: movd %eax, %xmm13
	; SSSE3-NEXT: andl $15, %r8d			; SSSE3-NEXT: andl $15, %r8d
	; SSSE3-NEXT: movzbl (%r8,%r10), %eax			; SSSE3-NEXT: movzbl (%r8,%r10), %eax
				; SSSE3-NEXT: movd %eax, %xmm4
				; SSSE3-NEXT: andl $15, %ecx
				; SSSE3-NEXT: movzbl (%rcx,%r10), %eax
				; SSSE3-NEXT: movd %eax, %xmm14
				; SSSE3-NEXT: andl $15, %edx
				; SSSE3-NEXT: movzbl (%rdx,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: movd %eax, %xmm1
	; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: andl $15, %esi
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: movzbl (%rsi,%r10), %eax
	; SSSE3-NEXT: movzbl (%rax,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: andl $15, %edi			; SSSE3-NEXT: andl $15, %edi
	; SSSE3-NEXT: movzbl (%rdi,%r10), %eax			; SSSE3-NEXT: movzbl (%rdi,%r10), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:			; SSE41-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movl 12(%rdi), %esi			; SSE2-NEXT: movl 12(%rdi), %esi
	; SSE2-NEXT: andl $3, %esi			; SSE2-NEXT: andl $3, %esi
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:			; SSSE3-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: movl (%rdi), %eax			; SSSE3-NEXT: movl (%rdi), %eax
	; SSSE3-NEXT: movl 4(%rdi), %ecx			; SSSE3-NEXT: movl 4(%rdi), %ecx
	; SSSE3-NEXT: andl $3, %eax			; SSSE3-NEXT: andl $3, %eax
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $3, %ecx			; SSSE3-NEXT: andl $3, %ecx
	; SSSE3-NEXT: movl 8(%rdi), %edx			; SSSE3-NEXT: movl 8(%rdi), %edx
	; SSSE3-NEXT: andl $3, %edx			; SSSE3-NEXT: andl $3, %edx
	; SSSE3-NEXT: movl 12(%rdi), %esi			; SSSE3-NEXT: movl 12(%rdi), %esi
	; SSSE3-NEXT: andl $3, %esi			; SSSE3-NEXT: andl $3, %esi
	; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:			; SSE41-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: movl (%rdi), %eax			; SSE41-NEXT: movl (%rdi), %eax
	; SSE41-NEXT: movl 4(%rdi), %ecx			; SSE41-NEXT: movl 4(%rdi), %ecx
	; SSE41-NEXT: andl $3, %eax			; SSE41-NEXT: andl $3, %eax
	; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: movzbl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movzbl 15(%rdi), %edx			; SSE2-NEXT: movzbl 15(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx			; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm8			; SSE2-NEXT: movd %edx, %xmm8
	; SSE2-NEXT: movzbl 7(%rdi), %edx			; SSE2-NEXT: movzbl 14(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm15			; SSE2-NEXT: movd %edx, %xmm15
	; SSE2-NEXT: movzbl 11(%rdi), %edx			; SSE2-NEXT: movzbl 13(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm9			; SSE2-NEXT: movd %edx, %xmm9
	; SSE2-NEXT: movzbl 3(%rdi), %edx			; SSE2-NEXT: movzbl 12(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm3			; SSE2-NEXT: movd %edx, %xmm3
	; SSE2-NEXT: movzbl 13(%rdi), %edx			; SSE2-NEXT: movzbl 11(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm10			; SSE2-NEXT: movd %edx, %xmm10
	; SSE2-NEXT: movzbl 5(%rdi), %edx			; SSE2-NEXT: movzbl 10(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm7			; SSE2-NEXT: movd %edx, %xmm7
	; SSE2-NEXT: movzbl 9(%rdi), %edx			; SSE2-NEXT: movzbl 9(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm11			; SSE2-NEXT: movd %edx, %xmm11
	; SSE2-NEXT: movzbl 1(%rdi), %edx			; SSE2-NEXT: movzbl 8(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm6			; SSE2-NEXT: movd %edx, %xmm6
	; SSE2-NEXT: movzbl 14(%rdi), %edx			; SSE2-NEXT: movzbl 7(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm12			; SSE2-NEXT: movd %edx, %xmm12
	; SSE2-NEXT: movzbl 6(%rdi), %edx			; SSE2-NEXT: movzbl 6(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm5			; SSE2-NEXT: movd %edx, %xmm5
	; SSE2-NEXT: movzbl 10(%rdi), %edx			; SSE2-NEXT: movzbl 5(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm13			; SSE2-NEXT: movd %edx, %xmm13
	; SSE2-NEXT: movzbl 2(%rdi), %edx			; SSE2-NEXT: movzbl 4(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm4			; SSE2-NEXT: movd %edx, %xmm4
	; SSE2-NEXT: movzbl 12(%rdi), %edx			; SSE2-NEXT: movzbl 3(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm14			; SSE2-NEXT: movd %edx, %xmm14
	; SSE2-NEXT: movzbl 4(%rdi), %edx			; SSE2-NEXT: movzbl 2(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm1			; SSE2-NEXT: movd %edx, %xmm1
	; SSE2-NEXT: movzbl 8(%rdi), %edx			; SSE2-NEXT: movzbl 1(%rdi), %edx
	; SSE2-NEXT: andl $15, %edx			; SSE2-NEXT: andl $15, %edx
	; SSE2-NEXT: movzbl (%rdx,%rcx), %edx			; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
	; SSE2-NEXT: movd %edx, %xmm2			; SSE2-NEXT: movd %edx, %xmm2
	; SSE2-NEXT: andl $15, %eax			; SSE2-NEXT: andl $15, %eax
	; SSE2-NEXT: movzbl (%rax,%rcx), %eax			; SSE2-NEXT: movzbl (%rax,%rcx), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:			; SSSE3-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: movzbl (%rdi), %eax			; SSSE3-NEXT: movzbl (%rdi), %eax
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: movzbl 15(%rdi), %edx			; SSSE3-NEXT: movzbl 15(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx			; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm8			; SSSE3-NEXT: movd %edx, %xmm8
	; SSSE3-NEXT: movzbl 7(%rdi), %edx			; SSSE3-NEXT: movzbl 14(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm15			; SSSE3-NEXT: movd %edx, %xmm15
	; SSSE3-NEXT: movzbl 11(%rdi), %edx			; SSSE3-NEXT: movzbl 13(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm9			; SSSE3-NEXT: movd %edx, %xmm9
	; SSSE3-NEXT: movzbl 3(%rdi), %edx			; SSSE3-NEXT: movzbl 12(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm3			; SSSE3-NEXT: movd %edx, %xmm3
	; SSSE3-NEXT: movzbl 13(%rdi), %edx			; SSSE3-NEXT: movzbl 11(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm10			; SSSE3-NEXT: movd %edx, %xmm10
	; SSSE3-NEXT: movzbl 5(%rdi), %edx			; SSSE3-NEXT: movzbl 10(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm7			; SSSE3-NEXT: movd %edx, %xmm7
	; SSSE3-NEXT: movzbl 9(%rdi), %edx			; SSSE3-NEXT: movzbl 9(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm11			; SSSE3-NEXT: movd %edx, %xmm11
	; SSSE3-NEXT: movzbl 1(%rdi), %edx			; SSSE3-NEXT: movzbl 8(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm6			; SSSE3-NEXT: movd %edx, %xmm6
	; SSSE3-NEXT: movzbl 14(%rdi), %edx			; SSSE3-NEXT: movzbl 7(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm12			; SSSE3-NEXT: movd %edx, %xmm12
	; SSSE3-NEXT: movzbl 6(%rdi), %edx			; SSSE3-NEXT: movzbl 6(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm5			; SSSE3-NEXT: movd %edx, %xmm5
	; SSSE3-NEXT: movzbl 10(%rdi), %edx			; SSSE3-NEXT: movzbl 5(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm13			; SSSE3-NEXT: movd %edx, %xmm13
	; SSSE3-NEXT: movzbl 2(%rdi), %edx			; SSSE3-NEXT: movzbl 4(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm4			; SSSE3-NEXT: movd %edx, %xmm4
	; SSSE3-NEXT: movzbl 12(%rdi), %edx			; SSSE3-NEXT: movzbl 3(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm14			; SSSE3-NEXT: movd %edx, %xmm14
	; SSSE3-NEXT: movzbl 4(%rdi), %edx			; SSSE3-NEXT: movzbl 2(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm1			; SSSE3-NEXT: movd %edx, %xmm1
	; SSSE3-NEXT: movzbl 8(%rdi), %edx			; SSSE3-NEXT: movzbl 1(%rdi), %edx
	; SSSE3-NEXT: andl $15, %edx			; SSSE3-NEXT: andl $15, %edx
	; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx			; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
	; SSSE3-NEXT: movd %edx, %xmm2			; SSSE3-NEXT: movd %edx, %xmm2
	; SSSE3-NEXT: andl $15, %eax			; SSSE3-NEXT: andl $15, %eax
	; SSSE3-NEXT: movzbl (%rax,%rcx), %eax			; SSSE3-NEXT: movzbl (%rax,%rcx), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm6[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:			; SSE41-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: movzbl (%rdi), %eax			; SSE41-NEXT: movzbl (%rdi), %eax
	; SSE41-NEXT: andl $15, %eax			; SSE41-NEXT: andl $15, %eax
	; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx			; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
	▲ Show 20 Lines • Show All 226 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSE2-NEXT: andl $7, %edi			; SSE2-NEXT: andl $7, %edi
	; SSE2-NEXT: andl $7, %esi			; SSE2-NEXT: andl $7, %esi
	; SSE2-NEXT: andl $7, %edx			; SSE2-NEXT: andl $7, %edx
	; SSE2-NEXT: andl $7, %ecx			; SSE2-NEXT: andl $7, %ecx
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: andl $7, %r8d			; SSE2-NEXT: andl $7, %r8d
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: andl $7, %r9d			; SSE2-NEXT: andl $7, %r9d
	; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax
	; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
	; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
	; SSE2-NEXT: movzwl -40(%rsp,%rdx,2), %eax			; SSE2-NEXT: movzwl -40(%rsp,%rdx,2), %eax
	; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
				; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
				; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
				; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax			; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax
				; SSE2-NEXT: movd %eax, %xmm1
				; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax
				; SSE2-NEXT: movd %eax, %xmm2
				; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
				; SSE2-NEXT: pxor %xmm1, %xmm1
				; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
				; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:			; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSSE3-NEXT: andl $7, %edi			; SSSE3-NEXT: andl $7, %edi
	; SSSE3-NEXT: andl $7, %esi			; SSSE3-NEXT: andl $7, %esi
	; SSSE3-NEXT: andl $7, %edx			; SSSE3-NEXT: andl $7, %edx
	; SSSE3-NEXT: andl $7, %ecx			; SSSE3-NEXT: andl $7, %ecx
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $7, %r8d			; SSSE3-NEXT: andl $7, %r8d
	; SSSE3-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $7, %r9d			; SSSE3-NEXT: andl $7, %r9d
	; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
	; SSSE3-NEXT: movzwl -40(%rsp,%rdx,2), %eax			; SSSE3-NEXT: movzwl -40(%rsp,%rdx,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: movd %eax, %xmm1
				; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
				; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
				; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax			; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax
				; SSSE3-NEXT: movd %eax, %xmm1
				; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax
				; SSSE3-NEXT: movd %eax, %xmm2
				; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
				; SSSE3-NEXT: pxor %xmm1, %xmm1
				; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
				; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:			; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

test/CodeGen/X86/vshift-1.ll

Show All 22 Lines	entry:
store <2 x i64> %shl, <2 x i64>* %dst		store <2 x i64> %shl, <2 x i64>* %dst
ret void		ret void
}		}

define void @shift1b(<2 x i64> %val, <2 x i64>* %dst, i64 %amt) nounwind {		define void @shift1b(<2 x i64> %val, <2 x i64>* %dst, i64 %amt) nounwind {
; X32-LABEL: shift1b:		; X32-LABEL: shift1b:
; X32: # BB#0: # %entry		; X32: # BB#0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]		; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-NEXT: psllq %xmm1, %xmm0
; X32-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,0,1,1]
; X32-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; X32-NEXT: psllq %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift1b:		; X64-LABEL: shift1b:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq %rsi, %xmm1		; X64-NEXT: movq %rsi, %xmm1
; X64-NEXT: psllq %xmm1, %xmm0		; X64-NEXT: psllq %xmm1, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
▲ Show 20 Lines • Show All 105 Lines • Show Last 20 Lines

test/CodeGen/X86/vshift-2.ll

Show All 22 Lines	entry:
store <2 x i64> %lshr, <2 x i64>* %dst		store <2 x i64> %lshr, <2 x i64>* %dst
ret void		ret void
}		}

define void @shift1b(<2 x i64> %val, <2 x i64>* %dst, i64 %amt) nounwind {		define void @shift1b(<2 x i64> %val, <2 x i64>* %dst, i64 %amt) nounwind {
; X32-LABEL: shift1b:		; X32-LABEL: shift1b:
; X32: # BB#0: # %entry		; X32: # BB#0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]		; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
; X32-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-NEXT: psrlq %xmm1, %xmm0
; X32-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,0,1,1]
; X32-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; X32-NEXT: psrlq %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift1b:		; X64-LABEL: shift1b:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq %rsi, %xmm1		; X64-NEXT: movq %rsi, %xmm1
; X64-NEXT: psrlq %xmm1, %xmm0		; X64-NEXT: psrlq %xmm1, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
▲ Show 20 Lines • Show All 104 Lines • Show Last 20 Lines