This is an archive of the discontinued LLVM Phabricator instance.

[x86] favor vector constant load to avoid GPR to XMM transfer
ClosedPublic

Authored by spatel on May 15 2020, 8:18 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon

Commits

rG57c3fe76a316: [x86] favor vector constant load to avoid GPR to XMM transfer

Summary

This build vector lowering pattern came up in D79886. I've tried to limit the improvement to cases where it looks clearly better to load, but we could remove the 'TODO' predicates already if we are willing to overlook some corner cases.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

spatel created this revision.May 15 2020, 8:18 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 15 2020, 8:18 AM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

spatel marked 5 inline comments as done.May 15 2020, 8:30 AM

spatel added inline comments.

llvm/test/CodeGen/X86/combine-udiv.ll
602	This would improve without the -1 restriction.
681–682	No change for AVX2 is probably caused by the 128-bit limit.
llvm/test/CodeGen/X86/sad.ll
547–548	This would improve without the -1 restriction.
1019–1020	No change for AVX2/AXV512 is probably caused by the 128-bit limit.
llvm/test/CodeGen/X86/vec_shift2.ll
13	This is a regression, but I'm assuming it does not matter because we have been using standard IR for vector shifts for at least 5 years. If it does matter, then I think the next test shows an existing failure of constant analysis. Also, if the high part of the shift amount is undef, then can't we fold both of these tests to constant 0 (no shift needed)?

LGTM

This revision is now accepted and ready to land.May 16 2020, 3:47 PM

Closed by commit rG57c3fe76a316: [x86] favor vector constant load to avoid GPR to XMM transfer (authored by spatel). · Explain WhyMay 17 2020, 9:02 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D80131: [x86] favor vector constant load to avoid GPR to XMM transfer, part 2.May 18 2020, 8:49 AM

spatel mentioned this in rGfa038e03504c: [x86] favor vector constant load to avoid GPR to XMM transfer, part 2.May 25 2020, 5:20 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

9 lines

test/

CodeGen/

X86/

combine-udiv.ll

115 lines

packss.ll

8 lines

pshufb-mask-comments.ll

5 lines

ret-mmx.ll

6 lines

sad.ll

76 lines

srem-seteq-vec-nonsplat.ll

87 lines

urem-seteq-vec-nonsplat.ll

30 lines

vec_set-A.ll

6 lines

vec_shift2.ll

4 lines

vector-lzcnt-128.ll

24 lines

vector-shuffle-256-v32.ll

80 lines

vector-tzcnt-128.ll

42 lines

vmovq.ll

14 lines

Diff 264501

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,186 Lines • ▼ Show 20 Lines	if (NumNonZero == 1) {
// If we have a constant or non-constant insertion into the low element of		// If we have a constant or non-constant insertion into the low element of
// a vector, we can do this with SCALAR_TO_VECTOR + shuffle of zero into		// a vector, we can do this with SCALAR_TO_VECTOR + shuffle of zero into
// the rest of the elements. This will be matched as movd/movq/movss/movsd		// the rest of the elements. This will be matched as movd/movq/movss/movsd
// depending on what the source datatype is.		// depending on what the source datatype is.
if (Idx == 0) {		if (Idx == 0) {
if (NumZero == 0)		if (NumZero == 0)
return DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, Item);		return DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, Item);

		// Just load a vector integer constant. Loading is better for code size,
		// avoids move GPR immediate --> XMM, and reduces register pressure.
		if (IsAllConstants && VT.isInteger()) {
		// TODO: Remove -1 restriction with demanded elements improvement?
		// TODO: Insert 128-bit load into wider undef vector?
		if (VT.is128BitVector() && !isAllOnesConstant(Item))
		return SDValue();
		}

if (EltVT == MVT::i32 \|\| EltVT == MVT::f32 \|\| EltVT == MVT::f64 \|\|		if (EltVT == MVT::i32 \|\| EltVT == MVT::f32 \|\| EltVT == MVT::f64 \|\|
(EltVT == MVT::i64 && Subtarget.is64Bit())) {		(EltVT == MVT::i64 && Subtarget.is64Bit())) {
assert((VT.is128BitVector() \|\| VT.is256BitVector() \|\|		assert((VT.is128BitVector() \|\| VT.is256BitVector() \|\|
VT.is512BitVector()) &&		VT.is512BitVector()) &&
"Expected an SSE value type!");		"Expected an SSE value type!");
Item = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, Item);		Item = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, Item);
// Turn it into a MOVL (i.e. movss, movsd, or movd) to a zero vector.		// Turn it into a MOVL (i.e. movss, movsd, or movd) to a zero vector.
return getShuffleVectorZeroOrUndef(Item, 0, true, Subtarget, DAG);		return getShuffleVectorZeroOrUndef(Item, 0, true, Subtarget, DAG);
▲ Show 20 Lines • Show All 38,793 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-udiv.ll

	Show First 20 Lines • Show All 492 Lines • ▼ Show 20 Lines
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%1 = udiv <8 x i16> %x, <i16 23, i16 23, i16 23, i16 23, i16 23, i16 23, i16 23, i16 23>			%1 = udiv <8 x i16> %x, <i16 23, i16 23, i16 23, i16 23, i16 23, i16 23, i16 23, i16 23>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}

	define <8 x i16> @combine_vec_udiv_nonuniform(<8 x i16> %x) {			define <8 x i16> @combine_vec_udiv_nonuniform(<8 x i16> %x) {
	; SSE2-LABEL: combine_vec_udiv_nonuniform:			; SSE2-LABEL: combine_vec_udiv_nonuniform:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [65535,65535,65535,0,65535,65535,65535,65535]			; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,0,65535,65535,65535,65535]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: pand %xmm2, %xmm1			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: movdqa %xmm0, %xmm3			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: psrlw $3, %xmm3			; SSE2-NEXT: psrlw $3, %xmm3
	; SSE2-NEXT: pandn %xmm3, %xmm2			; SSE2-NEXT: pandn %xmm3, %xmm1
	; SSE2-NEXT: por %xmm1, %xmm2
	; SSE2-NEXT: pmulhuw {{.*}}(%rip), %xmm2
	; SSE2-NEXT: psubw %xmm2, %xmm0
	; SSE2-NEXT: movl $32768, %eax # imm = 0x8000
	; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: pmulhuw %xmm0, %xmm1
	; SSE2-NEXT: paddw %xmm2, %xmm1
	; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [65535,65535,65535,0,0,65535,65535,0]
	; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: pandn %xmm1, %xmm2
	; SSE2-NEXT: pmulhuw {{.*}}(%rip), %xmm1
	; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: por %xmm2, %xmm1			; SSE2-NEXT: por %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: pmulhuw {{.*}}(%rip), %xmm1
				; SSE2-NEXT: psubw %xmm1, %xmm0
				; SSE2-NEXT: pmulhuw {{.*}}(%rip), %xmm0
				; SSE2-NEXT: paddw %xmm1, %xmm0
				; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,0,0,65535,65535,0]
				; SSE2-NEXT: movdqa %xmm1, %xmm2
				; SSE2-NEXT: pandn %xmm0, %xmm2
				; SSE2-NEXT: pmulhuw {{.*}}(%rip), %xmm0
				; SSE2-NEXT: pand %xmm1, %xmm0
				; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_udiv_nonuniform:			; SSE41-LABEL: combine_vec_udiv_nonuniform:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrlw $3, %xmm1			; SSE41-NEXT: psrlw $3, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; SSE41-NEXT: pmulhuw {{.*}}(%rip), %xmm1			; SSE41-NEXT: pmulhuw {{.*}}(%rip), %xmm1
	; SSE41-NEXT: psubw %xmm1, %xmm0			; SSE41-NEXT: psubw %xmm1, %xmm0
	; SSE41-NEXT: movl $32768, %eax # imm = 0x8000			; SSE41-NEXT: pmulhuw {{.*}}(%rip), %xmm0
	; SSE41-NEXT: movd %eax, %xmm2			; SSE41-NEXT: paddw %xmm1, %xmm0
	; SSE41-NEXT: pmulhuw %xmm0, %xmm2			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = <4096,2048,8,u,u,2,2,u>
	; SSE41-NEXT: paddw %xmm1, %xmm2			; SSE41-NEXT: pmulhuw %xmm0, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = <4096,2048,8,u,u,2,2,u>			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[3,4],xmm1[5,6],xmm0[7]
	; SSE41-NEXT: pmulhuw %xmm2, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm2[3,4],xmm0[5,6],xmm2[7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: combine_vec_udiv_nonuniform:			; AVX-LABEL: combine_vec_udiv_nonuniform:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsrlw $3, %xmm0, %xmm1			; AVX-NEXT: vpsrlw $3, %xmm0, %xmm1
	; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX-NEXT: movl $32768, %eax # imm = 0x8000			; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovd %eax, %xmm2
	; AVX-NEXT: vpmulhuw %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm1			; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm1
	; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[3,4],xmm1[5,6],xmm0[7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[3,4],xmm1[5,6],xmm0[7]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: combine_vec_udiv_nonuniform:			; XOP-LABEL: combine_vec_udiv_nonuniform:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm1			; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm1
	; XOP-NEXT: vpmulhuw {{.*}}(%rip), %xmm1, %xmm1			; XOP-NEXT: vpmulhuw {{.*}}(%rip), %xmm1, %xmm1
	; XOP-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; XOP-NEXT: movl $32768, %eax # imm = 0x8000			; XOP-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vmovd %eax, %xmm2
	; XOP-NEXT: vpmulhuw %xmm2, %xmm0, %xmm0
	; XOP-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%1 = udiv <8 x i16> %x, <i16 23, i16 34, i16 -23, i16 56, i16 128, i16 -1, i16 -256, i16 -32768>			%1 = udiv <8 x i16> %x, <i16 23, i16 34, i16 -23, i16 56, i16 128, i16 -1, i16 -256, i16 -32768>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}

	define <8 x i16> @combine_vec_udiv_nonuniform2(<8 x i16> %x) {			define <8 x i16> @combine_vec_udiv_nonuniform2(<8 x i16> %x) {
	Show All 25 Lines
	; AVX-NEXT: vpsrlw $1, %xmm0, %xmm1			; AVX-NEXT: vpsrlw $1, %xmm0, %xmm1
	; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3,4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3,4,5,6,7]
	; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: combine_vec_udiv_nonuniform2:			; XOP-LABEL: combine_vec_udiv_nonuniform2:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: movl $65535, %eax # imm = 0xFFFF			; XOP-NEXT: movl $65535, %eax # imm = 0xFFFF
	spatelAuthorUnsubmitted Done Reply Inline Actions This would improve without the -1 restriction. spatel: This would improve without the -1 restriction.
	; XOP-NEXT: vmovd %eax, %xmm1			; XOP-NEXT: vmovd %eax, %xmm1
	; XOP-NEXT: vpshlw %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpshlw %xmm1, %xmm0, %xmm0
	; XOP-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%1 = udiv <8 x i16> %x, <i16 -34, i16 35, i16 36, i16 -37, i16 38, i16 -39, i16 40, i16 -41>			%1 = udiv <8 x i16> %x, <i16 -34, i16 35, i16 36, i16 -37, i16 38, i16 -39, i16 40, i16 -41>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}
	Show All 33 Lines
	define <16 x i8> @combine_vec_udiv_nonuniform4(<16 x i8> %x) {			define <16 x i8> @combine_vec_udiv_nonuniform4(<16 x i8> %x) {
	; SSE2-LABEL: combine_vec_udiv_nonuniform4:			; SSE2-LABEL: combine_vec_udiv_nonuniform4:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: pand %xmm2, %xmm1			; SSE2-NEXT: pand %xmm2, %xmm1
	; SSE2-NEXT: pxor %xmm3, %xmm3			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE2-NEXT: movl $171, %eax			; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm0
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: pmullw %xmm0, %xmm3			; SSE2-NEXT: packuswb %xmm0, %xmm0
	; SSE2-NEXT: psrlw $8, %xmm3			; SSE2-NEXT: psrlw $7, %xmm0
	; SSE2-NEXT: packuswb %xmm3, %xmm3			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: psrlw $7, %xmm3			; SSE2-NEXT: pandn %xmm0, %xmm2
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm3
	; SSE2-NEXT: pandn %xmm3, %xmm2
	; SSE2-NEXT: por %xmm2, %xmm1			; SSE2-NEXT: por %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_udiv_nonuniform4:			; SSE41-LABEL: combine_vec_udiv_nonuniform4:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: movl $171, %eax			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movd %eax, %xmm0			; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm2
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; SSE41-NEXT: pmullw %xmm0, %xmm2
	; SSE41-NEXT: psrlw $8, %xmm2			; SSE41-NEXT: psrlw $8, %xmm2
	; SSE41-NEXT: packuswb %xmm2, %xmm2			; SSE41-NEXT: packuswb %xmm2, %xmm2
	; SSE41-NEXT: psrlw $7, %xmm2			; SSE41-NEXT: psrlw $7, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: movaps {{.*#+}} xmm0 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; SSE41-NEXT: movaps {{.*#+}} xmm0 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pblendvb %xmm0, %xmm1, %xmm2			; SSE41-NEXT: pblendvb %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: combine_vec_udiv_nonuniform4:			; AVX1-LABEL: combine_vec_udiv_nonuniform4:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: movl $171, %eax			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX-NEXT: vmovd %eax, %xmm1			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX-NEXT: vpmullw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackuswb %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX-NEXT: vpackuswb %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX1-NEXT: retq
	; AVX-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0			;
	; AVX-NEXT: retq			; AVX2-LABEL: combine_vec_udiv_nonuniform4:
				; AVX2: # %bb.0:
				; AVX2-NEXT: movl $171, %eax
				; AVX2-NEXT: vmovd %eax, %xmm1
				spatelAuthorUnsubmitted Done Reply Inline Actions No change for AVX2 is probably caused by the 128-bit limit. spatel: No change for AVX2 is probably caused by the 128-bit limit.
				; AVX2-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
				; AVX2-NEXT: vpmullw %xmm1, %xmm2, %xmm1
				; AVX2-NEXT: vpsrlw $8, %xmm1, %xmm1
				; AVX2-NEXT: vpackuswb %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vpsrlw $7, %xmm1, %xmm1
				; AVX2-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
				; AVX2-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: combine_vec_udiv_nonuniform4:			; XOP-LABEL: combine_vec_udiv_nonuniform4:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: movl $171, %eax			; XOP-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; XOP-NEXT: vmovd %eax, %xmm1			; XOP-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1
	; XOP-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; XOP-NEXT: vpmullw %xmm1, %xmm2, %xmm1
	; XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2			; XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; XOP-NEXT: vpperm {{.*#+}} xmm1 = xmm1[1,3,5,7,9,11,13,15],xmm2[1,3,5,7,9,11,13,15]			; XOP-NEXT: vpperm {{.*#+}} xmm1 = xmm1[1,3,5,7,9,11,13,15],xmm2[1,3,5,7,9,11,13,15]
	; XOP-NEXT: movl $249, %eax			; XOP-NEXT: movl $249, %eax
	; XOP-NEXT: vmovd %eax, %xmm2			; XOP-NEXT: vmovd %eax, %xmm2
	; XOP-NEXT: vpshlb %xmm2, %xmm1, %xmm1			; XOP-NEXT: vpshlb %xmm2, %xmm1, %xmm1
	; XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; XOP-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0			; XOP-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	▲ Show 20 Lines • Show All 82 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/packss.ll

Show First 20 Lines • Show All 152 Lines • ▼ Show 20 Lines	; X64-AVX-NEXT: retq
ret <8 x i16> %5		ret <8 x i16> %5
}		}

define <8 x i16> @trunc_ashr_v4i64_demandedelts(<4 x i64> %a0) {		define <8 x i16> @trunc_ashr_v4i64_demandedelts(<4 x i64> %a0) {
; X86-SSE-LABEL: trunc_ashr_v4i64_demandedelts:		; X86-SSE-LABEL: trunc_ashr_v4i64_demandedelts:
; X86-SSE: # %bb.0:		; X86-SSE: # %bb.0:
; X86-SSE-NEXT: psllq $63, %xmm1		; X86-SSE-NEXT: psllq $63, %xmm1
; X86-SSE-NEXT: psllq $63, %xmm0		; X86-SSE-NEXT: psllq $63, %xmm0
; X86-SSE-NEXT: movl $1, %eax
; X86-SSE-NEXT: movd %eax, %xmm2
; X86-SSE-NEXT: psrlq $63, %xmm0		; X86-SSE-NEXT: psrlq $63, %xmm0
		; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = <1,0,u,u>
; X86-SSE-NEXT: pxor %xmm2, %xmm0		; X86-SSE-NEXT: pxor %xmm2, %xmm0
; X86-SSE-NEXT: psubq %xmm2, %xmm0		; X86-SSE-NEXT: pcmpeqd %xmm3, %xmm3
		; X86-SSE-NEXT: paddq %xmm3, %xmm0
; X86-SSE-NEXT: psrlq $63, %xmm1		; X86-SSE-NEXT: psrlq $63, %xmm1
; X86-SSE-NEXT: pxor %xmm2, %xmm1		; X86-SSE-NEXT: pxor %xmm2, %xmm1
; X86-SSE-NEXT: psubq %xmm2, %xmm1		; X86-SSE-NEXT: paddq %xmm3, %xmm1
; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]		; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; X86-SSE-NEXT: packssdw %xmm1, %xmm0		; X86-SSE-NEXT: packssdw %xmm1, %xmm0
; X86-SSE-NEXT: retl		; X86-SSE-NEXT: retl
;		;
; X86-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:		; X86-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:
; X86-AVX1: # %bb.0:		; X86-AVX1: # %bb.0:
; X86-AVX1-NEXT: vpsllq $63, %xmm0, %xmm1		; X86-AVX1-NEXT: vpsllq $63, %xmm0, %xmm1
▲ Show 20 Lines • Show All 213 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pshufb-mask-comments.ll

Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%3 = bitcast <2 x i64> %2 to <16 x i8>		%3 = bitcast <2 x i64> %2 to <16 x i8>
%4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %V, <16 x i8> %3)		%4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %V, <16 x i8> %3)
ret <16 x i8> %4		ret <16 x i8> %4
}		}

define <16 x i8> @test5(<16 x i8> %V) {		define <16 x i8> @test5(<16 x i8> %V) {
; CHECK-LABEL: test5:		; CHECK-LABEL: test5:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: movl $1, %eax		; CHECK-NEXT: movaps {{.*#+}} xmm1 = [1,0]
; CHECK-NEXT: movd %eax, %xmm1		; CHECK-NEXT: movaps %xmm1, (%rax)
; CHECK-NEXT: movdqa %xmm1, (%rax)
; CHECK-NEXT: movaps {{.*#+}} xmm1 = [1,1]		; CHECK-NEXT: movaps {{.*#+}} xmm1 = [1,1]
; CHECK-NEXT: movaps %xmm1, (%rax)		; CHECK-NEXT: movaps %xmm1, (%rax)
; CHECK-NEXT: pshufb (%rax), %xmm0		; CHECK-NEXT: pshufb (%rax), %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
store <2 x i64> <i64 1, i64 0>, <2 x i64>* undef, align 16		store <2 x i64> <i64 1, i64 0>, <2 x i64>* undef, align 16
%l = load <2 x i64>, <2 x i64>* undef, align 16		%l = load <2 x i64>, <2 x i64>* undef, align 16
%shuffle = shufflevector <2 x i64> %l, <2 x i64> undef, <2 x i32> zeroinitializer		%shuffle = shufflevector <2 x i64> %l, <2 x i64> undef, <2 x i32> zeroinitializer
store <2 x i64> %shuffle, <2 x i64>* undef, align 16		store <2 x i64> %shuffle, <2 x i64>* undef, align 16
Show All 23 Lines

llvm/test/CodeGen/X86/ret-mmx.ll

	Show All 26 Lines
	; CHECK-NEXT: movl $1, %eax			; CHECK-NEXT: movl $1, %eax
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	ret <1 x i64> <i64 1>			ret <1 x i64> <i64 1>
	}			}

	define <2 x i32> @t3() nounwind {			define <2 x i32> @t3() nounwind {
	; CHECK-LABEL: t3:			; CHECK-LABEL: t3:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: movl $1, %eax			; CHECK-NEXT: movaps {{.*#+}} xmm0 = <1,0,u,u>
	; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	ret <2 x i32> <i32 1, i32 0>			ret <2 x i32> <i32 1, i32 0>
	}			}

	define double @t4() nounwind {			define double @t4() nounwind {
	; CHECK-LABEL: t4:			; CHECK-LABEL: t4:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: movl $1, %eax			; CHECK-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	ret double bitcast (<2 x i32> <i32 1, i32 0> to double)			ret double bitcast (<2 x i32> <i32 1, i32 0> to double)
	}			}

llvm/test/CodeGen/X86/sad.ll

Show First 20 Lines • Show All 538 Lines • ▼ Show 20 Lines	middle.block:
ret i32 %12		ret i32 %12
}		}

define i32 @sad_2i8() nounwind {		define i32 @sad_2i8() nounwind {
; SSE2-LABEL: sad_2i8:		; SSE2-LABEL: sad_2i8:
; SSE2: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE2-NEXT: pxor %xmm0, %xmm0		; SSE2-NEXT: pxor %xmm0, %xmm0
; SSE2-NEXT: movq $-1024, %rax # imm = 0xFC00		; SSE2-NEXT: movq $-1024, %rax # imm = 0xFC00
; SSE2-NEXT: movl $65535, %ecx # imm = 0xFFFF		; SSE2-NEXT: movl $65535, %ecx # imm = 0xFFFF
; SSE2-NEXT: movd %ecx, %xmm1		; SSE2-NEXT: movd %ecx, %xmm1
spatelAuthorUnsubmitted Done Reply Inline Actions This would improve without the -1 restriction. spatel: This would improve without the -1 restriction.
; SSE2-NEXT: .p2align 4, 0x90		; SSE2-NEXT: .p2align 4, 0x90
; SSE2-NEXT: .LBB3_1: # %vector.body		; SSE2-NEXT: .LBB3_1: # %vector.body
; SSE2-NEXT: # =>This Inner Loop Header: Depth=1		; SSE2-NEXT: # =>This Inner Loop Header: Depth=1
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-NEXT: pand %xmm1, %xmm2		; SSE2-NEXT: pand %xmm1, %xmm2
; SSE2-NEXT: pand %xmm1, %xmm3		; SSE2-NEXT: pand %xmm1, %xmm3
; SSE2-NEXT: psadbw %xmm2, %xmm3		; SSE2-NEXT: psadbw %xmm2, %xmm3
▲ Show 20 Lines • Show All 424 Lines • ▼ Show 20 Lines
; SSE2-LABEL: sad_unroll_nonzero_initial:		; SSE2-LABEL: sad_unroll_nonzero_initial:
; SSE2: # %bb.0: # %bb		; SSE2: # %bb.0: # %bb
; SSE2-NEXT: movdqu (%rdi), %xmm0		; SSE2-NEXT: movdqu (%rdi), %xmm0
; SSE2-NEXT: movdqu (%rsi), %xmm1		; SSE2-NEXT: movdqu (%rsi), %xmm1
; SSE2-NEXT: psadbw %xmm0, %xmm1		; SSE2-NEXT: psadbw %xmm0, %xmm1
; SSE2-NEXT: movdqu (%rdx), %xmm0		; SSE2-NEXT: movdqu (%rdx), %xmm0
; SSE2-NEXT: movdqu (%rcx), %xmm2		; SSE2-NEXT: movdqu (%rcx), %xmm2
; SSE2-NEXT: psadbw %xmm0, %xmm2		; SSE2-NEXT: psadbw %xmm0, %xmm2
; SSE2-NEXT: movl $1, %eax		; SSE2-NEXT: paddd %xmm1, %xmm2
; SSE2-NEXT: movd %eax, %xmm0		; SSE2-NEXT: paddd {{.*}}(%rip), %xmm2
		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
; SSE2-NEXT: paddd %xmm2, %xmm0		; SSE2-NEXT: paddd %xmm2, %xmm0
; SSE2-NEXT: paddd %xmm1, %xmm0		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE2-NEXT: paddd %xmm0, %xmm1		; SSE2-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]		; SSE2-NEXT: movd %xmm1, %eax
; SSE2-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: movd %xmm0, %eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: sad_unroll_nonzero_initial:		; AVX1-LABEL: sad_unroll_nonzero_initial:
; AVX: # %bb.0: # %bb		; AVX1: # %bb.0: # %bb
; AVX-NEXT: vmovdqu (%rdi), %xmm0		; AVX1-NEXT: vmovdqu (%rdi), %xmm0
; AVX-NEXT: vpsadbw (%rsi), %xmm0, %xmm0		; AVX1-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
; AVX-NEXT: vmovdqu (%rdx), %xmm1		; AVX1-NEXT: vmovdqu (%rdx), %xmm1
; AVX-NEXT: vpsadbw (%rcx), %xmm1, %xmm1		; AVX1-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
; AVX-NEXT: movl $1, %eax		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX-NEXT: vmovd %eax, %xmm2		; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpaddd %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX1-NEXT: vmovd %xmm0, %eax
; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: retq
; AVX-NEXT: vmovd %xmm0, %eax		;
; AVX-NEXT: retq		; AVX2-LABEL: sad_unroll_nonzero_initial:
		; AVX2: # %bb.0: # %bb
		; AVX2-NEXT: vmovdqu (%rdi), %xmm0
		; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
		; AVX2-NEXT: vmovdqu (%rdx), %xmm1
		; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
		; AVX2-NEXT: movl $1, %eax
		; AVX2-NEXT: vmovd %eax, %xmm2
		spatelAuthorUnsubmitted Done Reply Inline Actions No change for AVX2/AXV512 is probably caused by the 128-bit limit. spatel: No change for AVX2/AXV512 is probably caused by the 128-bit limit.
		; AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1
		; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
		; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vmovd %xmm0, %eax
		; AVX2-NEXT: retq
		;
		; AVX512-LABEL: sad_unroll_nonzero_initial:
		; AVX512: # %bb.0: # %bb
		; AVX512-NEXT: vmovdqu (%rdi), %xmm0
		; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
		; AVX512-NEXT: vmovdqu (%rdx), %xmm1
		; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
		; AVX512-NEXT: movl $1, %eax
		; AVX512-NEXT: vmovd %eax, %xmm2
		; AVX512-NEXT: vpaddd %xmm2, %xmm1, %xmm1
		; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
		; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
		; AVX512-NEXT: vmovd %xmm0, %eax
		; AVX512-NEXT: retq
bb:		bb:
%tmp = load <16 x i8>, <16 x i8>* %arg, align 1		%tmp = load <16 x i8>, <16 x i8>* %arg, align 1
%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1		%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1
%tmp5 = zext <16 x i8> %tmp to <16 x i32>		%tmp5 = zext <16 x i8> %tmp to <16 x i32>
%tmp6 = zext <16 x i8> %tmp4 to <16 x i32>		%tmp6 = zext <16 x i8> %tmp4 to <16 x i32>
%tmp7 = sub nsw <16 x i32> %tmp5, %tmp6		%tmp7 = sub nsw <16 x i32> %tmp5, %tmp6
%tmp8 = icmp slt <16 x i32> %tmp7, zeroinitializer		%tmp8 = icmp slt <16 x i32> %tmp7, zeroinitializer
%tmp9 = sub nsw <16 x i32> zeroinitializer, %tmp7		%tmp9 = sub nsw <16 x i32> zeroinitializer, %tmp7
▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/srem-seteq-vec-nonsplat.ll

	Show First 20 Lines • Show All 317 Lines • ▼ Show 20 Lines
	; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; CHECK-SSE2-NEXT: psubd %xmm3, %xmm0			; CHECK-SSE2-NEXT: psubd %xmm3, %xmm0
	; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0			; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
	; CHECK-SSE2-NEXT: psrld $31, %xmm0			; CHECK-SSE2-NEXT: psrld $31, %xmm0
	; CHECK-SSE2-NEXT: retq			; CHECK-SSE2-NEXT: retq
	;			;
	; CHECK-SSE41-LABEL: test_srem_even_allones_eq:			; CHECK-SSE41-LABEL: test_srem_even_allones_eq:
	; CHECK-SSE41: # %bb.0:			; CHECK-SSE41: # %bb.0:
	; CHECK-SSE41-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-SSE41-NEXT: movd %eax, %xmm1			; CHECK-SSE41-NEXT: pmuldq {{.*}}(%rip), %xmm1
	; CHECK-SSE41-NEXT: pmuldq %xmm0, %xmm1			; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = <2454267027,u,0,u>
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-SSE41-NEXT: pmuldq %xmm0, %xmm2
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-SSE41-NEXT: pmuldq {{.*}}(%rip), %xmm2			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,1,4294967295,1]			; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,1,4294967295,1]
	; CHECK-SSE41-NEXT: pmulld %xmm0, %xmm1			; CHECK-SSE41-NEXT: pmulld %xmm0, %xmm1
	; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1			; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1
	; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2			; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2
	; CHECK-SSE41-NEXT: psrad $3, %xmm2			; CHECK-SSE41-NEXT: psrad $3, %xmm2
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: psrld $31, %xmm1			; CHECK-SSE41-NEXT: psrld $31, %xmm1
	; CHECK-SSE41-NEXT: pxor %xmm3, %xmm3			; CHECK-SSE41-NEXT: pxor %xmm3, %xmm3
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]
	; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1			; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1
	; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm1			; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm1
	; CHECK-SSE41-NEXT: psubd %xmm1, %xmm0			; CHECK-SSE41-NEXT: psubd %xmm1, %xmm0
	; CHECK-SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; CHECK-SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; CHECK-SSE41-NEXT: psrld $31, %xmm0			; CHECK-SSE41-NEXT: psrld $31, %xmm0
	; CHECK-SSE41-NEXT: retq			; CHECK-SSE41-NEXT: retq
	;			;
	; CHECK-AVX1-LABEL: test_srem_even_allones_eq:			; CHECK-AVX1-LABEL: test_srem_even_allones_eq:
	; CHECK-AVX1: # %bb.0:			; CHECK-AVX1: # %bb.0:
	; CHECK-AVX1-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-AVX1-NEXT: vmovd %eax, %xmm1			; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm1			; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm2, %xmm2
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2			; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsrad $3, %xmm1, %xmm2			; CHECK-AVX1-NEXT: vpsrad $3, %xmm1, %xmm2
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; CHECK-AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; CHECK-AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: retq			; CHECK-AVX1-NEXT: retq
	;			;
	; CHECK-AVX2-LABEL: test_srem_even_allones_eq:			; CHECK-AVX2-LABEL: test_srem_even_allones_eq:
	; CHECK-AVX2: # %bb.0:			; CHECK-AVX2: # %bb.0:
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]			; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]
	; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX2-NEXT: vpmuldq {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vmovd %eax, %xmm2
	; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
	; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2			; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpsrld $31, %xmm1, %xmm2			; CHECK-AVX2-NEXT: vpsrld $31, %xmm1, %xmm2
	; CHECK-AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; CHECK-AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2],xmm2[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2],xmm2[3]
	; CHECK-AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm1, %xmm1
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1]			; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1]
	; CHECK-SSE2-NEXT: psubd %xmm4, %xmm0			; CHECK-SSE2-NEXT: psubd %xmm4, %xmm0
	; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0			; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
	; CHECK-SSE2-NEXT: pandn %xmm3, %xmm0			; CHECK-SSE2-NEXT: pandn %xmm3, %xmm0
	; CHECK-SSE2-NEXT: retq			; CHECK-SSE2-NEXT: retq
	;			;
	; CHECK-SSE41-LABEL: test_srem_even_allones_ne:			; CHECK-SSE41-LABEL: test_srem_even_allones_ne:
	; CHECK-SSE41: # %bb.0:			; CHECK-SSE41: # %bb.0:
	; CHECK-SSE41-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-SSE41-NEXT: movd %eax, %xmm1			; CHECK-SSE41-NEXT: pmuldq {{.*}}(%rip), %xmm1
	; CHECK-SSE41-NEXT: pmuldq %xmm0, %xmm1			; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = <2454267027,u,0,u>
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-SSE41-NEXT: pmuldq %xmm0, %xmm2
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-SSE41-NEXT: pmuldq {{.*}}(%rip), %xmm2			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,1,4294967295,1]			; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,1,4294967295,1]
	; CHECK-SSE41-NEXT: pmulld %xmm0, %xmm1			; CHECK-SSE41-NEXT: pmulld %xmm0, %xmm1
	; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1			; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1
	; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2			; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2
	; CHECK-SSE41-NEXT: psrad $3, %xmm2			; CHECK-SSE41-NEXT: psrad $3, %xmm2
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: psrld $31, %xmm1			; CHECK-SSE41-NEXT: psrld $31, %xmm1
	; CHECK-SSE41-NEXT: pxor %xmm3, %xmm3			; CHECK-SSE41-NEXT: pxor %xmm3, %xmm3
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]
	; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1			; CHECK-SSE41-NEXT: paddd %xmm2, %xmm1
	; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm1			; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm1
	; CHECK-SSE41-NEXT: psubd %xmm1, %xmm0			; CHECK-SSE41-NEXT: psubd %xmm1, %xmm0
	; CHECK-SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; CHECK-SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; CHECK-SSE41-NEXT: pandn {{.*}}(%rip), %xmm0			; CHECK-SSE41-NEXT: pandn {{.*}}(%rip), %xmm0
	; CHECK-SSE41-NEXT: retq			; CHECK-SSE41-NEXT: retq
	;			;
	; CHECK-AVX1-LABEL: test_srem_even_allones_ne:			; CHECK-AVX1-LABEL: test_srem_even_allones_ne:
	; CHECK-AVX1: # %bb.0:			; CHECK-AVX1: # %bb.0:
	; CHECK-AVX1-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-AVX1-NEXT: vmovd %eax, %xmm1			; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm1			; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm2, %xmm2
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2			; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsrad $3, %xmm1, %xmm2			; CHECK-AVX1-NEXT: vpsrad $3, %xmm1, %xmm2
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; CHECK-AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; CHECK-AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0
	; CHECK-AVX1-NEXT: retq			; CHECK-AVX1-NEXT: retq
	;			;
	; CHECK-AVX2-LABEL: test_srem_even_allones_ne:			; CHECK-AVX2-LABEL: test_srem_even_allones_ne:
	; CHECK-AVX2: # %bb.0:			; CHECK-AVX2: # %bb.0:
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]			; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]
	; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX2-NEXT: vpmuldq {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vmovd %eax, %xmm2
	; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
	; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2			; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpsrld $31, %xmm1, %xmm2			; CHECK-AVX2-NEXT: vpsrld $31, %xmm1, %xmm2
	; CHECK-AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; CHECK-AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2],xmm2[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2],xmm2[3]
	; CHECK-AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm1, %xmm1
	▲ Show 20 Lines • Show All 797 Lines • ▼ Show 20 Lines
	; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; CHECK-SSE2-NEXT: psubd %xmm3, %xmm0			; CHECK-SSE2-NEXT: psubd %xmm3, %xmm0
	; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0			; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
	; CHECK-SSE2-NEXT: psrld $31, %xmm0			; CHECK-SSE2-NEXT: psrld $31, %xmm0
	; CHECK-SSE2-NEXT: retq			; CHECK-SSE2-NEXT: retq
	;			;
	; CHECK-SSE41-LABEL: test_srem_even_one:			; CHECK-SSE41-LABEL: test_srem_even_one:
	; CHECK-SSE41: # %bb.0:			; CHECK-SSE41: # %bb.0:
	; CHECK-SSE41-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-SSE41-NEXT: movd %eax, %xmm1			; CHECK-SSE41-NEXT: pmuldq {{.*}}(%rip), %xmm1
	; CHECK-SSE41-NEXT: pmuldq %xmm0, %xmm1			; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = <2454267027,u,0,u>
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-SSE41-NEXT: pmuldq %xmm0, %xmm2
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-SSE41-NEXT: pmuldq {{.*}}(%rip), %xmm2			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: paddd %xmm0, %xmm2			; CHECK-SSE41-NEXT: paddd %xmm0, %xmm2
	; CHECK-SSE41-NEXT: movdqa %xmm2, %xmm1			; CHECK-SSE41-NEXT: movdqa %xmm2, %xmm1
	; CHECK-SSE41-NEXT: psrad $3, %xmm1			; CHECK-SSE41-NEXT: psrad $3, %xmm1
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5],xmm1[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-SSE41-NEXT: psrld $31, %xmm2			; CHECK-SSE41-NEXT: psrld $31, %xmm2
	; CHECK-SSE41-NEXT: pxor %xmm3, %xmm3			; CHECK-SSE41-NEXT: pxor %xmm3, %xmm3
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5],xmm2[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: paddd %xmm1, %xmm2			; CHECK-SSE41-NEXT: paddd %xmm1, %xmm2
	; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2			; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2
	; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0			; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
	; CHECK-SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; CHECK-SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; CHECK-SSE41-NEXT: psrld $31, %xmm0			; CHECK-SSE41-NEXT: psrld $31, %xmm0
	; CHECK-SSE41-NEXT: retq			; CHECK-SSE41-NEXT: retq
	;			;
	; CHECK-AVX1-LABEL: test_srem_even_one:			; CHECK-AVX1-LABEL: test_srem_even_one:
	; CHECK-AVX1: # %bb.0:			; CHECK-AVX1: # %bb.0:
	; CHECK-AVX1-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-AVX1-NEXT: vmovd %eax, %xmm1			; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm1			; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpmuldq {{.*}}(%rip), %xmm2, %xmm2
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsrad $3, %xmm1, %xmm2			; CHECK-AVX1-NEXT: vpsrad $3, %xmm1, %xmm2
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; CHECK-AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; CHECK-AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: retq			; CHECK-AVX1-NEXT: retq
	;			;
	; CHECK-AVX2-LABEL: test_srem_even_one:			; CHECK-AVX2-LABEL: test_srem_even_one:
	; CHECK-AVX2: # %bb.0:			; CHECK-AVX2: # %bb.0:
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]			; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]
	; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX2-NEXT: vpmuldq {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vmovd %eax, %xmm2
	; CHECK-AVX2-NEXT: vpmuldq %xmm2, %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
	; CHECK-AVX2-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpsrld $31, %xmm1, %xmm2			; CHECK-AVX2-NEXT: vpsrld $31, %xmm1, %xmm2
	; CHECK-AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; CHECK-AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2],xmm2[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2],xmm2[3]
	; CHECK-AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 1,987 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/urem-seteq-vec-nonsplat.ll

	Show First 20 Lines • Show All 996 Lines • ▼ Show 20 Lines
	; CHECK-SSE2-LABEL: test_urem_even_one:			; CHECK-SSE2-LABEL: test_urem_even_one:
	; CHECK-SSE2: # %bb.0:			; CHECK-SSE2: # %bb.0:
	; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1			; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
	; CHECK-SSE2-NEXT: psrld $1, %xmm1			; CHECK-SSE2-NEXT: psrld $1, %xmm1
	; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2			; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
	; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]			; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]
	; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]			; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]			; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
	; CHECK-SSE2-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
	; CHECK-SSE2-NEXT: movd %eax, %xmm2			; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
	; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,3,2,3]
	; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3			; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3
	; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]			; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]
	; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; CHECK-SSE2-NEXT: psrld $2, %xmm1			; CHECK-SSE2-NEXT: psrld $2, %xmm1
	; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2			; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
	; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]			; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]
	; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]			; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]			; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
	Show All 9 Lines
	; CHECK-SSE2-NEXT: retq			; CHECK-SSE2-NEXT: retq
	;			;
	; CHECK-SSE41-LABEL: test_urem_even_one:			; CHECK-SSE41-LABEL: test_urem_even_one:
	; CHECK-SSE41: # %bb.0:			; CHECK-SSE41: # %bb.0:
	; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1			; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
	; CHECK-SSE41-NEXT: psrld $1, %xmm1			; CHECK-SSE41-NEXT: psrld $1, %xmm1
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm0[4,5],xmm1[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm0[4,5],xmm1[6,7]
	; CHECK-SSE41-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-SSE41-NEXT: pmuludq {{.*}}(%rip), %xmm1
	; CHECK-SSE41-NEXT: movd %eax, %xmm3			; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm3
	; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
	; CHECK-SSE41-NEXT: pmuludq {{.*}}(%rip), %xmm2			; CHECK-SSE41-NEXT: pmuludq {{.*}}(%rip), %xmm2
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: psrld $2, %xmm2			; CHECK-SSE41-NEXT: psrld $2, %xmm2
	; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5],xmm2[6,7]			; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5],xmm2[6,7]
	; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2			; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2
	; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0			; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
	; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1			; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
	; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0			; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
	; CHECK-SSE41-NEXT: psrld $31, %xmm0			; CHECK-SSE41-NEXT: psrld $31, %xmm0
	; CHECK-SSE41-NEXT: retq			; CHECK-SSE41-NEXT: retq
	;			;
	; CHECK-AVX1-LABEL: test_urem_even_one:			; CHECK-AVX1-LABEL: test_urem_even_one:
	; CHECK-AVX1: # %bb.0:			; CHECK-AVX1: # %bb.0:
	; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1			; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm1[0,1,2,3],xmm0[4,5],xmm1[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm1[0,1,2,3],xmm0[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm2, %xmm2
	; CHECK-AVX1-NEXT: vmovd %eax, %xmm3
	; CHECK-AVX1-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; CHECK-AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm0[4,5],xmm1[6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm0[4,5],xmm1[6,7]
	; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: retq			; CHECK-AVX1-NEXT: retq
	;			;
	; CHECK-AVX2-LABEL: test_urem_even_one:			; CHECK-AVX2-LABEL: test_urem_even_one:
	; CHECK-AVX2: # %bb.0:			; CHECK-AVX2: # %bb.0:
	; CHECK-AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm1			; CHECK-AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm1
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [2454267027,2454267027,2454267027,2454267027]			; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [2454267027,2454267027,2454267027,2454267027]
	; CHECK-AVX2-NEXT: vpmuludq %xmm3, %xmm2, %xmm2			; CHECK-AVX2-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
	; CHECK-AVX2-NEXT: movl $-1840700269, %eax # imm = 0x92492493			; CHECK-AVX2-NEXT: vpmuludq {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vmovd %eax, %xmm3
	; CHECK-AVX2-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; CHECK-AVX2-NEXT: vpsrld $2, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpsrld $2, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1],xmm0[2],xmm1[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1],xmm0[2],xmm1[3]
	; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0			; CHECK-AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 1,544 Lines • ▼ Show 20 Lines
	; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: retq			; CHECK-AVX1-NEXT: retq
	;			;
	; CHECK-AVX2-LABEL: test_urem_even_allones_and_poweroftwo_and_one:			; CHECK-AVX2-LABEL: test_urem_even_allones_and_poweroftwo_and_one:
	; CHECK-AVX2: # %bb.0:			; CHECK-AVX2: # %bb.0:
	; CHECK-AVX2-NEXT: movl $1, %eax			; CHECK-AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [2454267027,2147483649,268435456,0]
	; CHECK-AVX2-NEXT: vmovd %eax, %xmm1
	; CHECK-AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm1
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; CHECK-AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [2454267027,2147483649,268435456,0]			; CHECK-AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm3
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; CHECK-AVX2-NEXT: vpmuludq %xmm4, %xmm2, %xmm2			; CHECK-AVX2-NEXT: vpmuludq %xmm2, %xmm4, %xmm2
	; CHECK-AVX2-NEXT: vpmuludq %xmm3, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpmuludq %xmm1, %xmm3, %xmm1
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; CHECK-AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1,2],xmm0[3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1,2],xmm0[3]
	; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0			; CHECK-AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	Show All 16 Lines

llvm/test/CodeGen/X86/vec_set-A.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64

	define <2 x i64> @test1() nounwind {			define <2 x i64> @test1() nounwind {
	; X86-LABEL: test1:			; X86-LABEL: test1:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl $1, %eax			; X86-NEXT: movaps {{.*#+}} xmm0 = [1,0,0,0]
	; X86-NEXT: movd %eax, %xmm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test1:			; X64-LABEL: test1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movl $1, %eax			; X64-NEXT: movaps {{.*#+}} xmm0 = [1,0]
	; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	ret <2 x i64> < i64 1, i64 0 >			ret <2 x i64> < i64 1, i64 0 >
	}			}

llvm/test/CodeGen/X86/vec_shift2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64

	define <2 x i64> @t1(<2 x i64> %b1, <2 x i64> %c) nounwind {			define <2 x i64> @t1(<2 x i64> %b1, <2 x i64> %c) nounwind {
	; X32-LABEL: t1:			; X32-LABEL: t1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: psrlw $14, %xmm0			; X32-NEXT: psrlw {{\.LCPI.*}}, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t1:			; X64-LABEL: t1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: psrlw $14, %xmm0			; X64-NEXT: psrlw {{.*}}(%rip), %xmm0
				spatelAuthorUnsubmitted Done Reply Inline Actions This is a regression, but I'm assuming it does not matter because we have been using standard IR for vector shifts for at least 5 years. If it does matter, then I think the next test shows an existing failure of constant analysis. Also, if the high part of the shift amount is undef, then can't we fold both of these tests to constant 0 (no shift needed)? spatel: This is a regression, but I'm assuming it does not matter because we have been using standard…
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp1 = bitcast <2 x i64> %b1 to <8 x i16>			%tmp1 = bitcast <2 x i64> %b1 to <8 x i16>
	%tmp2 = tail call <8 x i16> @llvm.x86.sse2.psrl.w( <8 x i16> %tmp1, <8 x i16> bitcast (<4 x i32> < i32 14, i32 undef, i32 undef, i32 undef > to <8 x i16>) ) nounwind readnone			%tmp2 = tail call <8 x i16> @llvm.x86.sse2.psrl.w( <8 x i16> %tmp1, <8 x i16> bitcast (<4 x i32> < i32 14, i32 undef, i32 undef, i32 undef > to <8 x i16>) ) nounwind readnone
	%tmp3 = bitcast <8 x i16> %tmp2 to <2 x i64>			%tmp3 = bitcast <8 x i16> %tmp2 to <2 x i64>
	ret <2 x i64> %tmp3			ret <2 x i64> %tmp3
	}			}

	define <4 x i32> @t2(<2 x i64> %b1, <2 x i64> %c) nounwind {			define <4 x i32> @t2(<2 x i64> %b1, <2 x i64> %c) nounwind {
	Show All 20 Lines

llvm/test/CodeGen/X86/vector-lzcnt-128.ll

	Show First 20 Lines • Show All 1,660 Lines • ▼ Show 20 Lines
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> %in, i1 -1)			%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> %in, i1 -1)
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	define <2 x i64> @foldv2i64() nounwind {			define <2 x i64> @foldv2i64() nounwind {
	; SSE-LABEL: foldv2i64:			; SSE-LABEL: foldv2i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movl $55, %eax			; SSE-NEXT: movaps {{.*#+}} xmm0 = [55,0]
	; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; NOBW-LABEL: foldv2i64:			; NOBW-LABEL: foldv2i64:
	; NOBW: # %bb.0:			; NOBW: # %bb.0:
	; NOBW-NEXT: movl $55, %eax			; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [55,0]
	; NOBW-NEXT: vmovd %eax, %xmm0
	; NOBW-NEXT: retq			; NOBW-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: foldv2i64:			; AVX512VLBWDQ-LABEL: foldv2i64:
	; AVX512VLBWDQ: # %bb.0:			; AVX512VLBWDQ: # %bb.0:
	; AVX512VLBWDQ-NEXT: movl $55, %eax			; AVX512VLBWDQ-NEXT: vmovaps {{.*#+}} xmm0 = [55,0]
	; AVX512VLBWDQ-NEXT: vmovd %eax, %xmm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv2i64:			; X32-SSE-LABEL: foldv2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movl $55, %eax			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [55,0,0,0]
	; X32-SSE-NEXT: movd %eax, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <2 x i64> @llvm.ctlz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 0)			%out = call <2 x i64> @llvm.ctlz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 0)
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define <2 x i64> @foldv2i64u() nounwind {			define <2 x i64> @foldv2i64u() nounwind {
	; SSE-LABEL: foldv2i64u:			; SSE-LABEL: foldv2i64u:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movl $55, %eax			; SSE-NEXT: movaps {{.*#+}} xmm0 = [55,0]
	; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; NOBW-LABEL: foldv2i64u:			; NOBW-LABEL: foldv2i64u:
	; NOBW: # %bb.0:			; NOBW: # %bb.0:
	; NOBW-NEXT: movl $55, %eax			; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [55,0]
	; NOBW-NEXT: vmovd %eax, %xmm0
	; NOBW-NEXT: retq			; NOBW-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: foldv2i64u:			; AVX512VLBWDQ-LABEL: foldv2i64u:
	; AVX512VLBWDQ: # %bb.0:			; AVX512VLBWDQ: # %bb.0:
	; AVX512VLBWDQ-NEXT: movl $55, %eax			; AVX512VLBWDQ-NEXT: vmovaps {{.*#+}} xmm0 = [55,0]
	; AVX512VLBWDQ-NEXT: vmovd %eax, %xmm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv2i64u:			; X32-SSE-LABEL: foldv2i64u:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movl $55, %eax			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [55,0,0,0]
	; X32-SSE-NEXT: movd %eax, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <2 x i64> @llvm.ctlz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 -1)			%out = call <2 x i64> @llvm.ctlz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 -1)
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define <4 x i32> @foldv4i32() nounwind {			define <4 x i32> @foldv4i32() nounwind {
	; SSE-LABEL: foldv4i32:			; SSE-LABEL: foldv4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 145 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-256-v32.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 734 Lines • ▼ Show 20 Lines
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	}			}

	define <32 x i8> @shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {			define <32 x i8> @shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
	; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $15, %eax			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vmovd %eax, %xmm1
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0]			; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,0,1,0]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,0,1,0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	Show All 12 Lines
	; AVX512VLVBMI-FAST-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-FAST-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI-FAST: # %bb.0:			; AVX512VLVBMI-FAST: # %bb.0:
	; AVX512VLVBMI-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-FAST-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-FAST-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-FAST-NEXT: retq			; AVX512VLVBMI-FAST-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; XOPAVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: movl $15, %eax			; XOPAVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; XOPAVX1-NEXT: vmovd %eax, %xmm1
	; XOPAVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1			; XOPAVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; XOPAVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; XOPAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; XOPAVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0]			; XOPAVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0]
	; XOPAVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,0,1,0]			; XOPAVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,0,1,0]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	▲ Show 20 Lines • Show All 831 Lines • ▼ Show 20 Lines
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: movl $31, %eax			; AVX512VLVBMI-NEXT: movl $31, %eax
	; AVX512VLVBMI-NEXT: vmovd %eax, %xmm1			; AVX512VLVBMI-NEXT: vmovd %eax, %xmm1
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; XOPAVX1-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: movl $31, %eax			; XOPAVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; XOPAVX1-NEXT: vmovd %eax, %xmm1			; XOPAVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; XOPAVX1-NEXT: vpperm %xmm1, %xmm2, %xmm0, %xmm1			; XOPAVX1-NEXT: vpperm {{.*#+}} xmm0 = xmm2[15],xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; XOPAVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; XOPAVX2-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; XOPAVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; XOPAVX2-NEXT: movl $15, %eax			; XOPAVX2-NEXT: movl $15, %eax
	; XOPAVX2-NEXT: vmovd %eax, %xmm1			; XOPAVX2-NEXT: vmovd %eax, %xmm1
	; XOPAVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0			; XOPAVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 493 Lines • ▼ Show 20 Lines
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	}			}

	define <32 x i8> @shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {			define <32 x i8> @shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
	; AVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $15, %eax			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX1-NEXT: vmovd %eax, %xmm1
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: movl $15, %eax			; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX2-NEXT: vmovd %eax, %xmm1
	; AVX2-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: movl $15, %eax			; AVX512VLBW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLBW-NEXT: vmovd %eax, %xmm1
	; AVX512VLBW-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VLVBMI-SLOW-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-SLOW-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI-SLOW: # %bb.0:			; AVX512VLVBMI-SLOW: # %bb.0:
	; AVX512VLVBMI-SLOW-NEXT: movl $15, %eax			; AVX512VLVBMI-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-SLOW-NEXT: vmovd %eax, %xmm1
	; AVX512VLVBMI-SLOW-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX512VLVBMI-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]			; AVX512VLVBMI-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]
	; AVX512VLVBMI-SLOW-NEXT: retq			; AVX512VLVBMI-SLOW-NEXT: retq
	;			;
	; AVX512VLVBMI-FAST-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-FAST-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI-FAST: # %bb.0:			; AVX512VLVBMI-FAST: # %bb.0:
	; AVX512VLVBMI-FAST-NEXT: vbroadcasti128 {{.*#+}} ymm1 = [15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-FAST-NEXT: vbroadcasti128 {{.*#+}} ymm1 = [15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-FAST-NEXT: # ymm1 = mem[0,1,0,1]			; AVX512VLVBMI-FAST-NEXT: # ymm1 = mem[0,1,0,1]
	; AVX512VLVBMI-FAST-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-FAST-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-FAST-NEXT: retq			; AVX512VLVBMI-FAST-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; XOPAVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: movl $15, %eax			; XOPAVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; XOPAVX1-NEXT: vmovd %eax, %xmm1
	; XOPAVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; XOPAVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: movl $15, %eax			; XOPAVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; XOPAVX2-NEXT: vmovd %eax, %xmm1
	; XOPAVX2-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]			; XOPAVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	}			}

	define <32 x i8> @shuffle_v32i8_00_33_02_35_04_37_06_39_08_41_10_43_12_45_14_47_16_49_18_51_20_53_22_55_24_57_26_59_28_61_30_63(<32 x i8> %a, <32 x i8> %b) {			define <32 x i8> @shuffle_v32i8_00_33_02_35_04_37_06_39_08_41_10_43_12_45_14_47_16_49_18_51_20_53_22_55_24_57_26_59_28_61_30_63(<32 x i8> %a, <32 x i8> %b) {
	; AVX1-LABEL: shuffle_v32i8_00_33_02_35_04_37_06_39_08_41_10_43_12_45_14_47_16_49_18_51_20_53_22_55_24_57_26_59_28_61_30_63:			; AVX1-LABEL: shuffle_v32i8_00_33_02_35_04_37_06_39_08_41_10_43_12_45_14_47_16_49_18_51_20_53_22_55_24_57_26_59_28_61_30_63:
	▲ Show 20 Lines • Show All 599 Lines • ▼ Show 20 Lines
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 16, i32 30, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 16, i32 30, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	}			}

	define <32 x i8> @shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16(<32 x i8> %a, <32 x i8> %b) {			define <32 x i8> @shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16(<32 x i8> %a, <32 x i8> %b) {
	; AVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:			; AVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $15, %eax			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovd %eax, %xmm1			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2OR512VL-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:			; AVX2OR512VL-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:
	; AVX2OR512VL: # %bb.0:			; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2OR512VL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2OR512VL-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:			; XOPAVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: movl $15, %eax			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; XOPAVX1-NEXT: vmovd %eax, %xmm1			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm2			; XOPAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:			; XOPAVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_31_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 31, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 15, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 31, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	▲ Show 20 Lines • Show All 315 Lines • ▼ Show 20 Lines
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 30, i32 16>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 30, i32 16>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	}			}

	define <32 x i8> @shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31(<32 x i8> %a, <32 x i8> %b) {			define <32 x i8> @shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31(<32 x i8> %a, <32 x i8> %b) {
	; AVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:			; AVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $15, %eax			; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX1-NEXT: vmovd %eax, %xmm1
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2OR512VL-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:			; AVX2OR512VL-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:
	; AVX2OR512VL: # %bb.0:			; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,31]			; AVX2OR512VL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,31]
	; AVX2OR512VL-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:			; XOPAVX1-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: movl $15, %eax			; XOPAVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; XOPAVX1-NEXT: vmovd %eax, %xmm1
	; XOPAVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15]			; XOPAVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,15]
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:			; XOPAVX2-LABEL: shuffle_v32i8_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_16_16_16_16_16_16_16_16_16_16_16_16_16_16_31:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,31]			; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[15,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,31]
	▲ Show 20 Lines • Show All 2,035 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-tzcnt-128.ll

	Show First 20 Lines • Show All 1,570 Lines • ▼ Show 20 Lines
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <16 x i8> @llvm.cttz.v16i8(<16 x i8> %in, i1 -1)			%out = call <16 x i8> @llvm.cttz.v16i8(<16 x i8> %in, i1 -1)
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	define <2 x i64> @foldv2i64() nounwind {			define <2 x i64> @foldv2i64() nounwind {
	; SSE-LABEL: foldv2i64:			; SSE-LABEL: foldv2i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movl $8, %eax			; SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0]
	; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: foldv2i64:			; AVX-LABEL: foldv2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: movl $8, %eax			; AVX-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; AVX-NEXT: vmovd %eax, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-LABEL: foldv2i64:			; AVX512VPOPCNTDQ-LABEL: foldv2i64:
	; AVX512VPOPCNTDQ: # %bb.0:			; AVX512VPOPCNTDQ: # %bb.0:
	; AVX512VPOPCNTDQ-NEXT: movl $8, %eax			; AVX512VPOPCNTDQ-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; AVX512VPOPCNTDQ-NEXT: vmovd %eax, %xmm0
	; AVX512VPOPCNTDQ-NEXT: retq			; AVX512VPOPCNTDQ-NEXT: retq
	;			;
	; AVX512VPOPCNTDQVL-LABEL: foldv2i64:			; AVX512VPOPCNTDQVL-LABEL: foldv2i64:
	; AVX512VPOPCNTDQVL: # %bb.0:			; AVX512VPOPCNTDQVL: # %bb.0:
	; AVX512VPOPCNTDQVL-NEXT: movl $8, %eax			; AVX512VPOPCNTDQVL-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; AVX512VPOPCNTDQVL-NEXT: vmovd %eax, %xmm0
	; AVX512VPOPCNTDQVL-NEXT: retq			; AVX512VPOPCNTDQVL-NEXT: retq
	;			;
	; BITALG_NOVLX-LABEL: foldv2i64:			; BITALG_NOVLX-LABEL: foldv2i64:
	; BITALG_NOVLX: # %bb.0:			; BITALG_NOVLX: # %bb.0:
	; BITALG_NOVLX-NEXT: movl $8, %eax			; BITALG_NOVLX-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; BITALG_NOVLX-NEXT: vmovd %eax, %xmm0
	; BITALG_NOVLX-NEXT: retq			; BITALG_NOVLX-NEXT: retq
	;			;
	; BITALG-LABEL: foldv2i64:			; BITALG-LABEL: foldv2i64:
	; BITALG: # %bb.0:			; BITALG: # %bb.0:
	; BITALG-NEXT: movl $8, %eax			; BITALG-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; BITALG-NEXT: vmovd %eax, %xmm0
	; BITALG-NEXT: retq			; BITALG-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv2i64:			; X32-SSE-LABEL: foldv2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movl $8, %eax			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,0,0]
	; X32-SSE-NEXT: movd %eax, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 0)			%out = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 0)
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define <2 x i64> @foldv2i64u() nounwind {			define <2 x i64> @foldv2i64u() nounwind {
	; SSE-LABEL: foldv2i64u:			; SSE-LABEL: foldv2i64u:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movl $8, %eax			; SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0]
	; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: foldv2i64u:			; AVX-LABEL: foldv2i64u:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: movl $8, %eax			; AVX-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; AVX-NEXT: vmovd %eax, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-LABEL: foldv2i64u:			; AVX512VPOPCNTDQ-LABEL: foldv2i64u:
	; AVX512VPOPCNTDQ: # %bb.0:			; AVX512VPOPCNTDQ: # %bb.0:
	; AVX512VPOPCNTDQ-NEXT: movl $8, %eax			; AVX512VPOPCNTDQ-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; AVX512VPOPCNTDQ-NEXT: vmovd %eax, %xmm0
	; AVX512VPOPCNTDQ-NEXT: retq			; AVX512VPOPCNTDQ-NEXT: retq
	;			;
	; AVX512VPOPCNTDQVL-LABEL: foldv2i64u:			; AVX512VPOPCNTDQVL-LABEL: foldv2i64u:
	; AVX512VPOPCNTDQVL: # %bb.0:			; AVX512VPOPCNTDQVL: # %bb.0:
	; AVX512VPOPCNTDQVL-NEXT: movl $8, %eax			; AVX512VPOPCNTDQVL-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; AVX512VPOPCNTDQVL-NEXT: vmovd %eax, %xmm0
	; AVX512VPOPCNTDQVL-NEXT: retq			; AVX512VPOPCNTDQVL-NEXT: retq
	;			;
	; BITALG_NOVLX-LABEL: foldv2i64u:			; BITALG_NOVLX-LABEL: foldv2i64u:
	; BITALG_NOVLX: # %bb.0:			; BITALG_NOVLX: # %bb.0:
	; BITALG_NOVLX-NEXT: movl $8, %eax			; BITALG_NOVLX-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; BITALG_NOVLX-NEXT: vmovd %eax, %xmm0
	; BITALG_NOVLX-NEXT: retq			; BITALG_NOVLX-NEXT: retq
	;			;
	; BITALG-LABEL: foldv2i64u:			; BITALG-LABEL: foldv2i64u:
	; BITALG: # %bb.0:			; BITALG: # %bb.0:
	; BITALG-NEXT: movl $8, %eax			; BITALG-NEXT: vmovaps {{.*#+}} xmm0 = [8,0]
	; BITALG-NEXT: vmovd %eax, %xmm0
	; BITALG-NEXT: retq			; BITALG-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv2i64u:			; X32-SSE-LABEL: foldv2i64u:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movl $8, %eax			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,0,0]
	; X32-SSE-NEXT: movd %eax, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 -1)			%out = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> <i64 256, i64 -1>, i1 -1)
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define <4 x i32> @foldv4i32() nounwind {			define <4 x i32> @foldv4i32() nounwind {
	; SSE-LABEL: foldv4i32:			; SSE-LABEL: foldv4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 235 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vmovq.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=sse4.1 \| FileCheck %s --check-prefix=SSE			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=sse4.1 \| FileCheck %s --check-prefix=SSE
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx \| FileCheck %s --check-prefix=AVX

	define <2 x i64> @PR25554(<2 x i64> %v0, <2 x i64> %v1) {			define <2 x i64> @PR25554(<2 x i64> %v0, <2 x i64> %v1) {
	; SSE-LABEL: PR25554:			; SSE-LABEL: PR25554:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movl $1, %eax			; SSE-NEXT: por {{.*}}(%rip), %xmm0
	; SSE-NEXT: movq %rax, %xmm1			; SSE-NEXT: paddq {{.*}}(%rip), %xmm0
	; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; SSE-NEXT: paddq %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: PR25554:			; AVX-LABEL: PR25554:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: movl $1, %eax			; AVX-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovq %rax, %xmm1			; AVX-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; AVX-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq

	%c1 = or <2 x i64> %v0, <i64 1, i64 0>			%c1 = or <2 x i64> %v0, <i64 1, i64 0>
	%c2 = add <2 x i64> %c1, <i64 0, i64 1>			%c2 = add <2 x i64> %c1, <i64 0, i64 1>
	ret <2 x i64> %c2			ret <2 x i64> %c2
	}			}