This is an archive of the discontinued LLVM Phabricator instance.

[X86] Don't use zero_extend_vector_inreg for mulhu lowering with sse 4.1
ClosedPublic

Authored by craig.topper on Nov 30 2018, 11:39 AM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon

Commits

rGf4b13927e770: [X86] Don't use zero_extend_vector_inreg for mulhu lowering with sse 4.1
rL348079: [X86] Don't use zero_extend_vector_inreg for mulhu lowering with sse 4.1

Summary

With sse4.1 we use two zero_extend_vector_inreg and a pshufd to expand the v16i8 input into two v8i16 vectors for the multiply. That's 3 shuffles to extend one operand. The other operand is usually constant as this is mostly used by division by constant optimization. Pre sse4.1 we use a punpckhbw and a punpcklbw with a zero vector. That's two shuffles and an xor and a copy due to tied register constraints. That seems maybe better than the 3 shuffles. With AVX we avoid the copy so that's obviously better.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Nov 30 2018, 11:39 AM

LGTM

This revision is now accepted and ready to land.Dec 1 2018, 5:17 AM

Closed by commit rL348079: [X86] Don't use zero_extend_vector_inreg for mulhu lowering with sse 4.1 (authored by ctopper). · Explain WhyDec 1 2018, 11:29 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

19 lines

test/

CodeGen/

X86/

vector-idiv-udiv-128.ll

56 lines

vector-idiv-udiv-256.ll

124 lines

Diff 176262

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 23,700 Lines • ▼ Show 20 Lines	return DAG.getVectorShuffle(VT, dl, Lo, Hi,
48, 50, 52, 54, 56, 58, 60, 62});		48, 50, 52, 54, 56, 58, 60, 62});
}		}

// For signed v16i8 and all unsigned vXi8 we will unpack the low and high		// For signed v16i8 and all unsigned vXi8 we will unpack the low and high
// half of each 128 bit lane to widen to a vXi16 type. Do the multiplies,		// half of each 128 bit lane to widen to a vXi16 type. Do the multiplies,
// shift the results and pack the half lane results back together.		// shift the results and pack the half lane results back together.

MVT ExVT = MVT::getVectorVT(MVT::i16, NumElts / 2);		MVT ExVT = MVT::getVectorVT(MVT::i16, NumElts / 2);
unsigned ExSSE41 = IsSigned ? ISD::SIGN_EXTEND_VECTOR_INREG
: ISD::ZERO_EXTEND_VECTOR_INREG;

// Extract the lo parts and zero/sign extend to i16.		// Extract the lo parts and zero/sign extend to i16.
		// Only use SSE4.1 instructions for signed v16i8 where using unpack requires
		// shifts to sign extend. Using unpack for unsigned only requires an xor to
		// create zeros and a copy due to tied registers contraints pre-avx. But using
		// zero_extend_vector_inreg would require an additional pshufd for the high
		// part.
SDValue ALo, BLo;		SDValue ALo, BLo;
if (VT == MVT::v16i8 && Subtarget.hasSSE41()) {		if (IsSigned && VT == MVT::v16i8 && Subtarget.hasSSE41()) {
ALo = DAG.getNode(ExSSE41, dl, ExVT, A);		ALo = DAG.getNode(ISD::SIGN_EXTEND_VECTOR_INREG, dl, ExVT, A);
BLo = DAG.getNode(ExSSE41, dl, ExVT, B);		BLo = DAG.getNode(ISD::SIGN_EXTEND_VECTOR_INREG, dl, ExVT, B);
} else if (IsSigned) {		} else if (IsSigned) {
ALo = getUnpackl(DAG, dl, VT, DAG.getUNDEF(VT), A);		ALo = getUnpackl(DAG, dl, VT, DAG.getUNDEF(VT), A);
BLo = getUnpackl(DAG, dl, VT, DAG.getUNDEF(VT), B);		BLo = getUnpackl(DAG, dl, VT, DAG.getUNDEF(VT), B);
ALo = DAG.getBitcast(ExVT, ALo);		ALo = DAG.getBitcast(ExVT, ALo);
BLo = DAG.getBitcast(ExVT, BLo);		BLo = DAG.getBitcast(ExVT, BLo);
ALo = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, ALo, 8, DAG);		ALo = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, ALo, 8, DAG);
BLo = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, BLo, 8, DAG);		BLo = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, BLo, 8, DAG);
} else {		} else {
ALo = getUnpackl(DAG, dl, VT, A, DAG.getConstant(0, dl, VT));		ALo = getUnpackl(DAG, dl, VT, A, DAG.getConstant(0, dl, VT));
BLo = getUnpackl(DAG, dl, VT, B, DAG.getConstant(0, dl, VT));		BLo = getUnpackl(DAG, dl, VT, B, DAG.getConstant(0, dl, VT));
ALo = DAG.getBitcast(ExVT, ALo);		ALo = DAG.getBitcast(ExVT, ALo);
BLo = DAG.getBitcast(ExVT, BLo);		BLo = DAG.getBitcast(ExVT, BLo);
}		}

// Extract the hi parts and zero/sign extend to i16.		// Extract the hi parts and zero/sign extend to i16.
SDValue AHi, BHi;		SDValue AHi, BHi;
if (VT == MVT::v16i8 && Subtarget.hasSSE41()) {		if (IsSigned && VT == MVT::v16i8 && Subtarget.hasSSE41()) {
const int ShufMask[] = { 8, 9, 10, 11, 12, 13, 14, 15,		const int ShufMask[] = { 8, 9, 10, 11, 12, 13, 14, 15,
-1, -1, -1, -1, -1, -1, -1, -1};		-1, -1, -1, -1, -1, -1, -1, -1};
AHi = DAG.getVectorShuffle(VT, dl, A, A, ShufMask);		AHi = DAG.getVectorShuffle(VT, dl, A, A, ShufMask);
BHi = DAG.getVectorShuffle(VT, dl, B, B, ShufMask);		BHi = DAG.getVectorShuffle(VT, dl, B, B, ShufMask);
AHi = DAG.getNode(ExSSE41, dl, ExVT, AHi);		AHi = DAG.getNode(ISD::SIGN_EXTEND_VECTOR_INREG, dl, ExVT, AHi);
BHi = DAG.getNode(ExSSE41, dl, ExVT, BHi);		BHi = DAG.getNode(ISD::SIGN_EXTEND_VECTOR_INREG, dl, ExVT, BHi);
} else if (IsSigned) {		} else if (IsSigned) {
AHi = getUnpackh(DAG, dl, VT, DAG.getUNDEF(VT), A);		AHi = getUnpackh(DAG, dl, VT, DAG.getUNDEF(VT), A);
BHi = getUnpackh(DAG, dl, VT, DAG.getUNDEF(VT), B);		BHi = getUnpackh(DAG, dl, VT, DAG.getUNDEF(VT), B);
AHi = DAG.getBitcast(ExVT, AHi);		AHi = DAG.getBitcast(ExVT, AHi);
BHi = DAG.getBitcast(ExVT, BHi);		BHi = DAG.getBitcast(ExVT, BHi);
AHi = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, AHi, 8, DAG);		AHi = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, AHi, 8, DAG);
BHi = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, BHi, 8, DAG);		BHi = getTargetVShiftByConstNode(X86ISD::VSRAI, dl, ExVT, BHi, 8, DAG);
} else {		} else {
▲ Show 20 Lines • Show All 18,462 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-idiv-udiv-128.ll

	Show First 20 Lines • Show All 184 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm0			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: paddb %xmm4, %xmm0			; SSE2-NEXT: paddb %xmm4, %xmm0
	; SSE2-NEXT: psrlw $2, %xmm0			; SSE2-NEXT: psrlw $2, %xmm0
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm0			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_div7_16i8:			; SSE41-LABEL: test_div7_16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
	; SSE41-NEXT: psrlw $8, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pmullw %xmm1, %xmm2
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; SSE41-NEXT: psrlw $8, %xmm2
	; SSE41-NEXT: pmullw %xmm2, %xmm3			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
				; SSE41-NEXT: pmullw %xmm1, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm2, %xmm3
	; SSE41-NEXT: psubb %xmm1, %xmm0			; SSE41-NEXT: psubb %xmm3, %xmm0
	; SSE41-NEXT: psrlw $1, %xmm0			; SSE41-NEXT: psrlw $1, %xmm0
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm0			; SSE41-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE41-NEXT: paddb %xmm1, %xmm0			; SSE41-NEXT: paddb %xmm3, %xmm0
	; SSE41-NEXT: psrlw $2, %xmm0			; SSE41-NEXT: psrlw $2, %xmm0
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm0			; SSE41-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_div7_16i8:			; AVX1-LABEL: test_div7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $1, %xmm0, %xmm0			; AVX1-NEXT: vpsrlw $1, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0			; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 261 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm2			; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: psubb %xmm2, %xmm1			; SSE2-NEXT: psubb %xmm2, %xmm1
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: paddb %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_rem7_16i8:			; SSE41-LABEL: test_rem7_16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [37,37,37,37,37,37,37,37]			; SSE41-NEXT: movdqa %xmm0, %xmm2
				; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
				; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]
	; SSE41-NEXT: pmullw %xmm1, %xmm2			; SSE41-NEXT: pmullw %xmm1, %xmm2
	; SSE41-NEXT: psrlw $8, %xmm2			; SSE41-NEXT: psrlw $8, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; SSE41-NEXT: pmullw %xmm1, %xmm3			; SSE41-NEXT: pmullw %xmm1, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm2			; SSE41-NEXT: packuswb %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psubb %xmm2, %xmm1			; SSE41-NEXT: psubb %xmm3, %xmm1
	; SSE41-NEXT: psrlw $1, %xmm1			; SSE41-NEXT: psrlw $1, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: paddb %xmm2, %xmm1			; SSE41-NEXT: paddb %xmm3, %xmm1
	; SSE41-NEXT: psrlw $2, %xmm1			; SSE41-NEXT: psrlw $2, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psllw $3, %xmm2			; SSE41-NEXT: psllw $3, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: psubb %xmm2, %xmm1			; SSE41-NEXT: psubb %xmm2, %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_16i8:			; AVX1-LABEL: test_rem7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2			; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-idiv-udiv-256.ll

Show First 20 Lines • Show All 164 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%res = udiv <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>		%res = udiv <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
ret <16 x i16> %res		ret <16 x i16> %res
}		}

define <32 x i8> @test_div7_32i8(<32 x i8> %a) nounwind {		define <32 x i8> @test_div7_32i8(<32 x i8> %a) nounwind {
; AVX1-LABEL: test_div7_32i8:		; AVX1-LABEL: test_div7_32i8:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero		; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]		; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8],xmm2[8],xmm1[9],xmm2[9],xmm1[10],xmm2[10],xmm1[11],xmm2[11],xmm1[12],xmm2[12],xmm1[13],xmm2[13],xmm1[14],xmm2[14],xmm1[15],xmm2[15]
; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]
; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2		; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3
; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4
; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpsrlw $1, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm5 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
; AVX1-NEXT: vpmullw %xmm3, %xmm5, %xmm5
; AVX1-NEXT: vpsrlw $8, %xmm5, %xmm5
; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[2,3,0,1]
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
; AVX1-NEXT: vpmullw %xmm3, %xmm6, %xmm3
; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3		; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
		; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
		; AVX1-NEXT: vpmullw %xmm4, %xmm5, %xmm5
		; AVX1-NEXT: vpsrlw $8, %xmm5, %xmm5
; AVX1-NEXT: vpackuswb %xmm3, %xmm5, %xmm3		; AVX1-NEXT: vpackuswb %xmm3, %xmm5, %xmm3
; AVX1-NEXT: vpsubb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1
		; AVX1-NEXT: vpsrlw $1, %xmm1, %xmm1
		; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
		; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1
		; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1
		; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
		; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
		; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm0[8],xmm2[8],xmm0[9],xmm2[9],xmm0[10],xmm2[10],xmm0[11],xmm2[11],xmm0[12],xmm2[12],xmm0[13],xmm2[13],xmm0[14],xmm2[14],xmm0[15],xmm2[15]
		; AVX1-NEXT: vpmullw %xmm4, %xmm2, %xmm2
		; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
		; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
		; AVX1-NEXT: vpmullw %xmm4, %xmm6, %xmm4
		; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
		; AVX1-NEXT: vpackuswb %xmm2, %xmm4, %xmm2
		; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpsrlw $1, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $1, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2NOBW-LABEL: test_div7_32i8:		; AVX2NOBW-LABEL: test_div7_32i8:
; AVX2NOBW: # %bb.0:		; AVX2NOBW: # %bb.0:
; AVX2NOBW-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX2NOBW-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX2NOBW-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15],ymm0[24],ymm1[24],ymm0[25],ymm1[25],ymm0[26],ymm1[26],ymm0[27],ymm1[27],ymm0[28],ymm1[28],ymm0[29],ymm1[29],ymm0[30],ymm1[30],ymm0[31],ymm1[31]		; AVX2NOBW-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15],ymm0[24],ymm1[24],ymm0[25],ymm1[25],ymm0[26],ymm1[26],ymm0[27],ymm1[27],ymm0[28],ymm1[28],ymm0[29],ymm1[29],ymm0[30],ymm1[30],ymm0[31],ymm1[31]
; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]		; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]
▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>		%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
ret <16 x i16> %res		ret <16 x i16> %res
}		}

define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {		define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {
; AVX1-LABEL: test_rem7_32i8:		; AVX1-LABEL: test_rem7_32i8:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero		; AVX1-NEXT: vpxor %xmm8, %xmm8, %xmm8
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]		; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8],xmm8[8],xmm1[9],xmm8[9],xmm1[10],xmm8[10],xmm1[11],xmm8[11],xmm1[12],xmm8[12],xmm1[13],xmm8[13],xmm1[14],xmm8[14],xmm1[15],xmm8[15]
; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [37,0,37,0,37,0,37,0,37,0,37,0,37,0,37,0]
; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2		; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3
; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]		; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero		; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4		; AVX1-NEXT: vpmullw %xmm4, %xmm5, %xmm5
		; AVX1-NEXT: vpsrlw $8, %xmm5, %xmm5
		; AVX1-NEXT: vpackuswb %xmm3, %xmm5, %xmm3
		; AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm5
		; AVX1-NEXT: vpsrlw $1, %xmm5, %xmm5
		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
		; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm5
		; AVX1-NEXT: vpaddb %xmm3, %xmm5, %xmm3
		; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3
		; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
		; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
		; AVX1-NEXT: vpsllw $3, %xmm3, %xmm7
		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
		; AVX1-NEXT: vpand %xmm2, %xmm7, %xmm7
		; AVX1-NEXT: vpsubb %xmm7, %xmm3, %xmm3
		; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1
		; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8],xmm8[8],xmm0[9],xmm8[9],xmm0[10],xmm8[10],xmm0[11],xmm8[11],xmm0[12],xmm8[12],xmm0[13],xmm8[13],xmm0[14],xmm8[14],xmm0[15],xmm8[15]
		; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3
		; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
		; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm7 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
		; AVX1-NEXT: vpmullw %xmm4, %xmm7, %xmm4
; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4		; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpackuswb %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm4		; AVX1-NEXT: vpsubb %xmm3, %xmm0, %xmm4
; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4		; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]		; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4
; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm4		; AVX1-NEXT: vpaddb %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vpaddb %xmm2, %xmm4, %xmm2		; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3
; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpsllw $3, %xmm2, %xmm6
; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
; AVX1-NEXT: vpand %xmm7, %xmm6, %xmm6
; AVX1-NEXT: vpsubb %xmm6, %xmm2, %xmm2
; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[2,3,0,1]
; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
; AVX1-NEXT: vpmullw %xmm3, %xmm6, %xmm3
; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm3
; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3
; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3		; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpsllw $3, %xmm3, %xmm4
; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2		; AVX1-NEXT: vpand %xmm2, %xmm4, %xmm2
; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpsubb %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3
; AVX1-NEXT: vpand %xmm7, %xmm3, %xmm3
; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2NOBW-LABEL: test_rem7_32i8:		; AVX2NOBW-LABEL: test_rem7_32i8:
; AVX2NOBW: # %bb.0:		; AVX2NOBW: # %bb.0:
; AVX2NOBW-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX2NOBW-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX2NOBW-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15],ymm0[24],ymm1[24],ymm0[25],ymm1[25],ymm0[26],ymm1[26],ymm0[27],ymm1[27],ymm0[28],ymm1[28],ymm0[29],ymm1[29],ymm0[30],ymm1[30],ymm0[31],ymm1[31]		; AVX2NOBW-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15],ymm0[24],ymm1[24],ymm0[25],ymm1[25],ymm0[26],ymm1[26],ymm0[27],ymm1[27],ymm0[28],ymm1[28],ymm0[29],ymm1[29],ymm0[30],ymm1[30],ymm0[31],ymm1[31]
Show All 39 Lines