This is an archive of the discontinued LLVM Phabricator instance.

[X86] Remove sse41 specific code from lowering v16i8 multiply
ClosedPublic

Authored by craig.topper on Mar 8 2018, 11:45 AM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel

Commits

rL327869: [X86] Remove sse41 specific code from lowering v16i8 multiply

Summary

With the SRAs removed from the SSE2 code as proposed in D44267, then there doesn't appear to be any advantage to the sse41 code. The punpcklbw instruction and pmovsx seem to have the same latency and throughput on most CPUs. And the SSE41 code requires moving the upper 64-bits into the lower 64-bit before the sign extend can be done. The unpckhbw in sse2 code can do better than that.

Diff Detail

Event Timeline

craig.topper created this revision.Mar 8 2018, 11:45 AM

craig.topper added a parent revision: D44267: Remove SRAs from v16i8 multiply lowering on sse2 targets.Mar 8 2018, 11:47 AM

RKSimon added inline comments.Mar 8 2018, 5:12 PM

test/CodeGen/X86/vector-mul.ll
968	Why wasn't this constant folded?

craig.topper added inline comments.Mar 8 2018, 5:44 PM

test/CodeGen/X86/vector-mul.ll
968	At one point that constant pool entry was used by two vector shuffles and I guess we refused to fold it due to multiple uses? Late one shuffle became UNPCKH and the other became zero_extend_vector_in_reg. The DAG combine for zero_extend_vector_in_reg was perfectly happy to overlook the multiple uses and constant fold it. This is the LCPI on the pmullw. This dropped the usage count on the original constant pool but it was too late to trigger the fold. Should we stop the zero_extend_vector_in_reg from constant folding multiple uses?

RKSimon added inline comments.Mar 12 2018, 6:36 AM

test/CodeGen/X86/vector-mul.ll
968	Should we stop the zero_extend_vector_in_reg from constant folding multiple uses? Probably but I'm wondering if it'd be better to wait until we've made progress simplifying the mixture of _EXTEND/_EXTEND_VECTOR_INREG/V*EXT that we currently use for SSE/AVX vector extensions?

LGTM - please can you add a fixme/bug about the the constant folding someplace

This revision is now accepted and ready to land.Mar 18 2018, 7:09 AM

commited in 327869 but forgot to add the Differential Revision line

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

48 lines

test/

CodeGen/

X86/

combine-mul.ll

13 lines

pmul.ll

191 lines

vector-idiv-sdiv-128.ll

22 lines

vector-idiv-sdiv-256.ll

16 lines

vector-idiv-udiv-128.ll

22 lines

vector-idiv-udiv-256.ll

74 lines

vector-mul.ll

153 lines

Diff 137624

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 22,307 Lines • ▼ Show 20 Lines	if (Subtarget.hasInt256()) {
DAG.getNode(ISD::SIGN_EXTEND, dl, ExVT, A),		DAG.getNode(ISD::SIGN_EXTEND, dl, ExVT, A),
DAG.getNode(ISD::SIGN_EXTEND, dl, ExVT, B)));		DAG.getNode(ISD::SIGN_EXTEND, dl, ExVT, B)));
}		}

assert(VT == MVT::v16i8 &&		assert(VT == MVT::v16i8 &&
"Pre-AVX2 support only supports v16i8 multiplication");		"Pre-AVX2 support only supports v16i8 multiplication");
MVT ExVT = MVT::v8i16;		MVT ExVT = MVT::v8i16;

// Extract the lo parts and sign extend to i16		// Extract the lo parts into the low byte of 16-bit elements.
SDValue ALo, BLo;
if (Subtarget.hasSSE41()) {
ALo = DAG.getSignExtendVectorInReg(A, dl, ExVT);
BLo = DAG.getSignExtendVectorInReg(B, dl, ExVT);
} else {
// We're going mask off the low byte of each result element of the mullw,		// We're going mask off the low byte of each result element of the mullw,
// so it doesn't matter what's in the high byte of each 16-bit element.		// so it doesn't matter what's in the high byte of each 16-bit element.
const int ShufMask[] = {0, -1, 1, -1, 2, -1, 3, -1,		const int LoShufMask[] = {0, -1, 1, -1, 2, -1, 3, -1,
4, -1, 5, -1, 6, -1, 7, -1};		4, -1, 5, -1, 6, -1, 7, -1};
ALo = DAG.getVectorShuffle(VT, dl, A, A, ShufMask);		SDValue ALo = DAG.getVectorShuffle(VT, dl, A, A, LoShufMask);
BLo = DAG.getVectorShuffle(VT, dl, B, B, ShufMask);		SDValue BLo = DAG.getVectorShuffle(VT, dl, B, B, LoShufMask);
ALo = DAG.getBitcast(ExVT, ALo);		ALo = DAG.getBitcast(ExVT, ALo);
BLo = DAG.getBitcast(ExVT, BLo);		BLo = DAG.getBitcast(ExVT, BLo);
}

// Extract the hi parts and sign extend to i16		// Extract the hi parts into the low byte of 16-bit elements.
SDValue AHi, BHi;
if (Subtarget.hasSSE41()) {
const int ShufMask[] = {8, 9, 10, 11, 12, 13, 14, 15,
-1, -1, -1, -1, -1, -1, -1, -1};
AHi = DAG.getVectorShuffle(VT, dl, A, A, ShufMask);
BHi = DAG.getVectorShuffle(VT, dl, B, B, ShufMask);
AHi = DAG.getSignExtendVectorInReg(AHi, dl, ExVT);
BHi = DAG.getSignExtendVectorInReg(BHi, dl, ExVT);
} else {
// We're going mask off the low byte of each result element of the mullw,		// We're going mask off the low byte of each result element of the mullw,
// so it doesn't matter what's in the high byte of each 16-bit element.		// so it doesn't matter what's in the high byte of each 16-bit element.
const int ShufMask[] = {8, -1, 9, -1, 10, -1, 11, -1,		const int HiShufMask[] = {8, -1, 9, -1, 10, -1, 11, -1,
12, -1, 13, -1, 14, -1, 15, -1};		12, -1, 13, -1, 14, -1, 15, -1};
AHi = DAG.getVectorShuffle(VT, dl, A, A, ShufMask);		SDValue AHi = DAG.getVectorShuffle(VT, dl, A, A, HiShufMask);
BHi = DAG.getVectorShuffle(VT, dl, B, B, ShufMask);		SDValue BHi = DAG.getVectorShuffle(VT, dl, B, B, HiShufMask);
AHi = DAG.getBitcast(ExVT, AHi);		AHi = DAG.getBitcast(ExVT, AHi);
BHi = DAG.getBitcast(ExVT, BHi);		BHi = DAG.getBitcast(ExVT, BHi);
}

// Multiply, mask the lower 8bits of the lo/hi results and pack		// Multiply, mask the lower 8bits of the lo/hi results and pack
SDValue RLo = DAG.getNode(ISD::MUL, dl, ExVT, ALo, BLo);		SDValue RLo = DAG.getNode(ISD::MUL, dl, ExVT, ALo, BLo);
SDValue RHi = DAG.getNode(ISD::MUL, dl, ExVT, AHi, BHi);		SDValue RHi = DAG.getNode(ISD::MUL, dl, ExVT, AHi, BHi);
RLo = DAG.getNode(ISD::AND, dl, ExVT, RLo, DAG.getConstant(255, dl, ExVT));		RLo = DAG.getNode(ISD::AND, dl, ExVT, RLo, DAG.getConstant(255, dl, ExVT));
RHi = DAG.getNode(ISD::AND, dl, ExVT, RHi, DAG.getConstant(255, dl, ExVT));		RHi = DAG.getNode(ISD::AND, dl, ExVT, RHi, DAG.getConstant(255, dl, ExVT));
return DAG.getNode(X86ISD::PACKUS, dl, VT, RLo, RHi);		return DAG.getNode(X86ISD::PACKUS, dl, VT, RLo, RHi);
}		}
▲ Show 20 Lines • Show All 17,153 Lines • Show Last 20 Lines

test/CodeGen/X86/combine-mul.ll

	Show First 20 Lines • Show All 283 Lines • ▼ Show 20 Lines
	}			}

	; This would infinite loop because DAGCombiner wants to turn this into a shift,			; This would infinite loop because DAGCombiner wants to turn this into a shift,
	; but x86 lowering wants to avoid non-uniform vector shift amounts.			; but x86 lowering wants to avoid non-uniform vector shift amounts.

	define <16 x i8> @PR35579(<16 x i8> %x) {			define <16 x i8> @PR35579(<16 x i8> %x) {
	; SSE-LABEL: PR35579:			; SSE-LABEL: PR35579:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pmovsxbw %xmm0, %xmm1			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [0,1,2,1,4,1,2,1,8,1,2,1,4,1,2,1]
	; SSE-NEXT: pmullw {{.*}}(%rip), %xmm1			; SSE-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
				; SSE-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE-NEXT: pmullw %xmm2, %xmm0
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
	; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE-NEXT: pmovsxbw %xmm0, %xmm0
	; SSE-NEXT: pmullw {{.*}}(%rip), %xmm0
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: pmullw {{.*}}(%rip), %xmm1
				; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: packuswb %xmm0, %xmm1			; SSE-NEXT: packuswb %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: PR35579:			; AVX-LABEL: PR35579:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmovsxbw %xmm0, %ymm0			; AVX-NEXT: vpmovsxbw %xmm0, %ymm0
	; AVX-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; AVX-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	Show All 11 Lines

test/CodeGen/X86/pmul.ll

	Show All 16 Lines
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pmullw %xmm2, %xmm0			; SSE2-NEXT: pmullw %xmm2, %xmm0
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: packuswb %xmm1, %xmm0			; SSE2-NEXT: packuswb %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: mul_v16i8c:			; SSE41-LABEL: mul_v16i8c:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm1			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [117,117,117,117,117,117,117,117]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm3, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0
	; SSE41-NEXT: pmullw %xmm2, %xmm0			; SSE41-NEXT: pmullw %xmm2, %xmm0
				; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
				; SSE41-NEXT: pmullw %xmm2, %xmm1
				; SSE41-NEXT: pand %xmm3, %xmm1
	; SSE41-NEXT: packuswb %xmm0, %xmm1			; SSE41-NEXT: packuswb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v16i8c:			; AVX2-LABEL: mul_v16i8c:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pmullw %xmm1, %xmm0			; SSE2-NEXT: pmullw %xmm1, %xmm0
	; SSE2-NEXT: pand %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: packuswb %xmm3, %xmm0			; SSE2-NEXT: packuswb %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: mul_v16i8:			; SSE41-LABEL: mul_v16i8:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm3			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm2			; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm3, %xmm2			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pand %xmm3, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0
	; SSE41-NEXT: pmullw %xmm1, %xmm0			; SSE41-NEXT: pmullw %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
				; SSE41-NEXT: pand %xmm1, %xmm0
				; SSE41-NEXT: pmullw %xmm3, %xmm2
				; SSE41-NEXT: pand %xmm1, %xmm2
	; SSE41-NEXT: packuswb %xmm0, %xmm2			; SSE41-NEXT: packuswb %xmm0, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v16i8:			; AVX2-LABEL: mul_v16i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	▲ Show 20 Lines • Show All 218 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: pmullw %xmm3, %xmm1			; SSE2-NEXT: pmullw %xmm3, %xmm1
	; SSE2-NEXT: pand %xmm4, %xmm1			; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1			; SSE2-NEXT: packuswb %xmm2, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: mul_v32i8c:			; SSE41-LABEL: mul_v32i8c:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm2			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [117,117,117,117,117,117,117,117]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm4, %xmm2			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm5, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0
	; SSE41-NEXT: pmullw %xmm4, %xmm0			; SSE41-NEXT: pmullw %xmm4, %xmm0
				; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: pmullw %xmm4, %xmm2
				; SSE41-NEXT: pand %xmm5, %xmm2
	; SSE41-NEXT: packuswb %xmm0, %xmm2			; SSE41-NEXT: packuswb %xmm0, %xmm2
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm3			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
				; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmullw %xmm4, %xmm1
				; SSE41-NEXT: pand %xmm5, %xmm1
	; SSE41-NEXT: pmullw %xmm4, %xmm3			; SSE41-NEXT: pmullw %xmm4, %xmm3
	; SSE41-NEXT: pand %xmm5, %xmm3			; SSE41-NEXT: pand %xmm5, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE41-NEXT: packuswb %xmm1, %xmm3
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0
	; SSE41-NEXT: pmullw %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: packuswb %xmm0, %xmm3
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v32i8c:			; AVX2-LABEL: mul_v32i8c:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2-NEXT: vpmovsxbw %xmm1, %ymm1
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: pmullw %xmm3, %xmm1			; SSE2-NEXT: pmullw %xmm3, %xmm1
	; SSE2-NEXT: pand %xmm4, %xmm1			; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: packuswb %xmm5, %xmm1			; SSE2-NEXT: packuswb %xmm5, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: mul_v32i8:			; SSE41-LABEL: mul_v32i8:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm5			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm4			; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm5, %xmm4			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pand %xmm5, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0
	; SSE41-NEXT: pmullw %xmm2, %xmm0			; SSE41-NEXT: pmullw %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
				; SSE41-NEXT: pand %xmm6, %xmm0
				; SSE41-NEXT: pmullw %xmm5, %xmm4
				; SSE41-NEXT: pand %xmm6, %xmm4
	; SSE41-NEXT: packuswb %xmm0, %xmm4			; SSE41-NEXT: packuswb %xmm0, %xmm4
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm0			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm0 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm2			; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
				; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmullw %xmm3, %xmm1
				; SSE41-NEXT: pand %xmm6, %xmm1
	; SSE41-NEXT: pmullw %xmm0, %xmm2			; SSE41-NEXT: pmullw %xmm0, %xmm2
	; SSE41-NEXT: pand %xmm5, %xmm2			; SSE41-NEXT: pand %xmm6, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm1
	; SSE41-NEXT: pmullw %xmm0, %xmm1
	; SSE41-NEXT: pand %xmm5, %xmm1
	; SSE41-NEXT: packuswb %xmm1, %xmm2			; SSE41-NEXT: packuswb %xmm1, %xmm2
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v32i8:			; AVX2-LABEL: mul_v32i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm5, %xmm3			; SSE2-NEXT: pand %xmm5, %xmm3
	; SSE2-NEXT: packuswb %xmm6, %xmm3			; SSE2-NEXT: packuswb %xmm6, %xmm3
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: mul_v64i8c:			; SSE41-LABEL: mul_v64i8c:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [117,117,117,117,117,117,117,117]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm6, %xmm0			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117]
	; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm1
	; SSE41-NEXT: pmullw %xmm6, %xmm1			; SSE41-NEXT: pmullw %xmm6, %xmm1
				; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm7, %xmm1			; SSE41-NEXT: pand %xmm7, %xmm1
				; SSE41-NEXT: pmullw %xmm6, %xmm0
				; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: packuswb %xmm1, %xmm0			; SSE41-NEXT: packuswb %xmm1, %xmm0
	; SSE41-NEXT: pmovsxbw %xmm4, %xmm1			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
	; SSE41-NEXT: pmullw %xmm6, %xmm1			; SSE41-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pand %xmm7, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm4, %xmm4
	; SSE41-NEXT: pmullw %xmm6, %xmm4			; SSE41-NEXT: pmullw %xmm6, %xmm4
	; SSE41-NEXT: pand %xmm7, %xmm4			; SSE41-NEXT: pand %xmm7, %xmm4
				; SSE41-NEXT: pmullw %xmm6, %xmm1
				; SSE41-NEXT: pand %xmm7, %xmm1
	; SSE41-NEXT: packuswb %xmm4, %xmm1			; SSE41-NEXT: packuswb %xmm4, %xmm1
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm4			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; SSE41-NEXT: pmullw %xmm6, %xmm4			; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pand %xmm7, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm2
	; SSE41-NEXT: pmullw %xmm6, %xmm2			; SSE41-NEXT: pmullw %xmm6, %xmm2
	; SSE41-NEXT: pand %xmm7, %xmm2			; SSE41-NEXT: pand %xmm7, %xmm2
				; SSE41-NEXT: pmullw %xmm6, %xmm4
				; SSE41-NEXT: pand %xmm7, %xmm4
	; SSE41-NEXT: packuswb %xmm2, %xmm4			; SSE41-NEXT: packuswb %xmm2, %xmm4
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm5			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
				; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmullw %xmm6, %xmm3
				; SSE41-NEXT: pand %xmm7, %xmm3
	; SSE41-NEXT: pmullw %xmm6, %xmm5			; SSE41-NEXT: pmullw %xmm6, %xmm5
	; SSE41-NEXT: pand %xmm7, %xmm5			; SSE41-NEXT: pand %xmm7, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,0,1]			; SSE41-NEXT: packuswb %xmm3, %xmm5
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm2
	; SSE41-NEXT: pmullw %xmm6, %xmm2
	; SSE41-NEXT: pand %xmm7, %xmm2
	; SSE41-NEXT: packuswb %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm5, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v64i8c:			; AVX2-LABEL: mul_v64i8c:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX2-NEXT: vpmovsxbw %xmm2, %ymm2
	▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm8, %xmm3			; SSE2-NEXT: pand %xmm8, %xmm3
	; SSE2-NEXT: packuswb %xmm5, %xmm3			; SSE2-NEXT: packuswb %xmm5, %xmm3
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: mul_v64i8:			; SSE41-LABEL: mul_v64i8:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movdqa %xmm1, %xmm8			; SSE41-NEXT: movdqa %xmm1, %xmm8
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pmovsxbw %xmm4, %xmm9			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm10 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm0			; SSE41-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm9, %xmm0			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [255,255,255,255,255,255,255,255]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pand %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm4, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm1
	; SSE41-NEXT: pmullw %xmm4, %xmm1			; SSE41-NEXT: pmullw %xmm4, %xmm1
				; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm9, %xmm1			; SSE41-NEXT: pand %xmm9, %xmm1
				; SSE41-NEXT: pmullw %xmm10, %xmm0
				; SSE41-NEXT: pand %xmm9, %xmm0
	; SSE41-NEXT: packuswb %xmm1, %xmm0			; SSE41-NEXT: packuswb %xmm1, %xmm0
	; SSE41-NEXT: pmovsxbw %xmm5, %xmm4			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
	; SSE41-NEXT: pmovsxbw %xmm8, %xmm1			; SSE41-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm8[0],zero,xmm8[1],zero,xmm8[2],zero,xmm8[3],zero,xmm8[4],zero,xmm8[5],zero,xmm8[6],zero,xmm8[7],zero
				; SSE41-NEXT: punpckhbw {{.*#+}} xmm8 = xmm8[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmullw %xmm5, %xmm8
				; SSE41-NEXT: pand %xmm9, %xmm8
	; SSE41-NEXT: pmullw %xmm4, %xmm1			; SSE41-NEXT: pmullw %xmm4, %xmm1
	; SSE41-NEXT: pand %xmm9, %xmm1			; SSE41-NEXT: pand %xmm9, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[2,3,0,1]			; SSE41-NEXT: packuswb %xmm8, %xmm1
	; SSE41-NEXT: pmovsxbw %xmm4, %xmm4			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm8[2,3,0,1]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmovsxbw %xmm5, %xmm5			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; SSE41-NEXT: pmullw %xmm4, %xmm5			; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pand %xmm9, %xmm5			; SSE41-NEXT: pmullw %xmm6, %xmm2
	; SSE41-NEXT: packuswb %xmm5, %xmm1			; SSE41-NEXT: pand %xmm9, %xmm2
	; SSE41-NEXT: pmovsxbw %xmm6, %xmm5
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm4
	; SSE41-NEXT: pmullw %xmm5, %xmm4			; SSE41-NEXT: pmullw %xmm5, %xmm4
	; SSE41-NEXT: pand %xmm9, %xmm4			; SSE41-NEXT: pand %xmm9, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm6[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm5, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm2
	; SSE41-NEXT: pmullw %xmm5, %xmm2
	; SSE41-NEXT: pand %xmm9, %xmm2
	; SSE41-NEXT: packuswb %xmm2, %xmm4			; SSE41-NEXT: packuswb %xmm2, %xmm4
	; SSE41-NEXT: pmovsxbw %xmm7, %xmm2			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm7[0],zero,xmm7[1],zero,xmm7[2],zero,xmm7[3],zero,xmm7[4],zero,xmm7[5],zero,xmm7[6],zero,xmm7[7],zero
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm5			; SSE41-NEXT: punpckhbw {{.*#+}} xmm7 = xmm7[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmovzxbw {{.*#+}} xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
				; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; SSE41-NEXT: pmullw %xmm7, %xmm3
				; SSE41-NEXT: pand %xmm9, %xmm3
	; SSE41-NEXT: pmullw %xmm2, %xmm5			; SSE41-NEXT: pmullw %xmm2, %xmm5
	; SSE41-NEXT: pand %xmm9, %xmm5			; SSE41-NEXT: pand %xmm9, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm7[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm3
	; SSE41-NEXT: pmullw %xmm2, %xmm3
	; SSE41-NEXT: pand %xmm9, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm5			; SSE41-NEXT: packuswb %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm5, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v64i8:			; AVX2-LABEL: mul_v64i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4
	▲ Show 20 Lines • Show All 449 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-idiv-sdiv-128.ll

	Show First 20 Lines • Show All 546 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: psrlw $2, %xmm2			; SSE41-NEXT: psrlw $2, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; SSE41-NEXT: pxor %xmm3, %xmm2			; SSE41-NEXT: pxor %xmm3, %xmm2
	; SSE41-NEXT: psubb %xmm3, %xmm2			; SSE41-NEXT: psubb %xmm3, %xmm2
	; SSE41-NEXT: psrlw $7, %xmm1			; SSE41-NEXT: psrlw $7, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: paddb %xmm2, %xmm1			; SSE41-NEXT: paddb %xmm2, %xmm1
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm2			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm3, %xmm2			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm4, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm1
	; SSE41-NEXT: pmullw %xmm3, %xmm1			; SSE41-NEXT: pmullw %xmm3, %xmm1
				; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm4, %xmm1			; SSE41-NEXT: pand %xmm4, %xmm1
				; SSE41-NEXT: pmullw %xmm3, %xmm2
				; SSE41-NEXT: pand %xmm4, %xmm2
	; SSE41-NEXT: packuswb %xmm1, %xmm2			; SSE41-NEXT: packuswb %xmm1, %xmm2
	; SSE41-NEXT: psubb %xmm2, %xmm0			; SSE41-NEXT: psubb %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_16i8:			; AVX1-LABEL: test_rem7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm2			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1
	; AVX1-NEXT: vpmullw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_16i8:			; AVX2NOBW-LABEL: test_rem7_16i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-idiv-sdiv-256.ll

	Show First 20 Lines • Show All 467 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm9 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm9 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm9, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm9, %xmm3, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpsubb %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpsubb %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpaddb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm4			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX1-NEXT: vpmullw %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpmullw %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3
	; AVX1-NEXT: vpmullw %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpackuswb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm3
	; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1			; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm3			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm3
	; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm9, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm9, %xmm1, %xmm1
	; AVX1-NEXT: vpxor %xmm7, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm7, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm7, %xmm1, %xmm1			; AVX1-NEXT: vpsubb %xmm7, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm3			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1
	; AVX1-NEXT: vpmullw %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpackuswb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_32i8:			; AVX2NOBW-LABEL: test_rem7_32i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-idiv-udiv-128.ll

	Show First 20 Lines • Show All 515 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psubb %xmm1, %xmm2			; SSE41-NEXT: psubb %xmm1, %xmm2
	; SSE41-NEXT: psrlw $1, %xmm2			; SSE41-NEXT: psrlw $1, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: paddb %xmm1, %xmm2			; SSE41-NEXT: paddb %xmm1, %xmm2
	; SSE41-NEXT: psrlw $2, %xmm2			; SSE41-NEXT: psrlw $2, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm1			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm3, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm2
	; SSE41-NEXT: pmullw %xmm3, %xmm2			; SSE41-NEXT: pmullw %xmm3, %xmm2
				; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; SSE41-NEXT: pand %xmm4, %xmm2			; SSE41-NEXT: pand %xmm4, %xmm2
				; SSE41-NEXT: pmullw %xmm3, %xmm1
				; SSE41-NEXT: pand %xmm4, %xmm1
	; SSE41-NEXT: packuswb %xmm2, %xmm1			; SSE41-NEXT: packuswb %xmm2, %xmm1
	; SSE41-NEXT: psubb %xmm1, %xmm0			; SSE41-NEXT: psubb %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_16i8:			; AVX1-LABEL: test_rem7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm2			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1
	; AVX1-NEXT: vpmullw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_16i8:			; AVX2NOBW-LABEL: test_rem7_16i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	Show All 40 Lines

test/CodeGen/X86/vector-idiv-udiv-256.ll

	Show First 20 Lines • Show All 457 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

	define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {			define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {
	; AVX1-LABEL: test_rem7_32i8:			; AVX1-LABEL: test_rem7_32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [37,37,37,37,37,37,37,37]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]
	; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm4			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm4			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm4
	; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
	; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4
	; AVX1-NEXT: vpaddb %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpaddb %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm6			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm6 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX1-NEXT: vpmullw %xmm7, %xmm6, %xmm6			; AVX1-NEXT: vpmullw %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpand %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpackuswb %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm3, %xmm6, %xmm3			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm6, %xmm1			; AVX1-NEXT: vpmullw %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm3			; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm3
	; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpaddb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm3			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm7, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_32i8:			; AVX2NOBW-LABEL: test_rem7_32i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero			; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-mul.ll

	Show First 20 Lines • Show All 319 Lines • ▼ Show 20 Lines
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%1 = mul <8 x i16> %a0, <i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17>			%1 = mul <8 x i16> %a0, <i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}

	define <16 x i8> @mul_v16i8_17(<16 x i8> %a0) nounwind {			define <16 x i8> @mul_v16i8_17(<16 x i8> %a0) nounwind {
	; X86-LABEL: mul_v16i8_17:			; X86-LABEL: mul_v16i8_17:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pmovsxbw %xmm0, %xmm1			; X86-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X86-NEXT: movdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17]			; X86-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X86-NEXT: pmullw %xmm2, %xmm1			; X86-NEXT: movdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17]
	; X86-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X86-NEXT: pand %xmm3, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X86-NEXT: pmovsxbw %xmm0, %xmm0
	; X86-NEXT: pmullw %xmm2, %xmm0			; X86-NEXT: pmullw %xmm2, %xmm0
				; X86-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X86-NEXT: pand %xmm3, %xmm0			; X86-NEXT: pand %xmm3, %xmm0
				; X86-NEXT: pmullw %xmm2, %xmm1
				; X86-NEXT: pand %xmm3, %xmm1
	; X86-NEXT: packuswb %xmm0, %xmm1			; X86-NEXT: packuswb %xmm0, %xmm1
	; X86-NEXT: movdqa %xmm1, %xmm0			; X86-NEXT: movdqa %xmm1, %xmm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: mul_v16i8_17:			; X64-LABEL: mul_v16i8_17:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pmovsxbw %xmm0, %xmm1			; X64-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17]			; X64-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-NEXT: pmullw %xmm2, %xmm1			; X64-NEXT: movdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17]
	; X64-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X64-NEXT: pand %xmm3, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-NEXT: pmovsxbw %xmm0, %xmm0
	; X64-NEXT: pmullw %xmm2, %xmm0			; X64-NEXT: pmullw %xmm2, %xmm0
				; X64-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X64-NEXT: pand %xmm3, %xmm0			; X64-NEXT: pand %xmm3, %xmm0
				; X64-NEXT: pmullw %xmm2, %xmm1
				; X64-NEXT: pand %xmm3, %xmm1
	; X64-NEXT: packuswb %xmm0, %xmm1			; X64-NEXT: packuswb %xmm0, %xmm1
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_17:			; X64-XOP-LABEL: mul_v16i8_17:
	; X64-XOP: # %bb.0:			; X64-XOP: # %bb.0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17]			; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17]
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X64-XOP-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]			; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],xmm1[0,2,4,6,8,10,12,14]
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_17:			; X64-AVX2-LABEL: mul_v16i8_17:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%1 = mul <8 x i16> %a0, <i16 2, i16 3, i16 9, i16 17, i16 33, i16 65, i16 129, i16 257>			%1 = mul <8 x i16> %a0, <i16 2, i16 3, i16 9, i16 17, i16 33, i16 65, i16 129, i16 257>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}

	define <16 x i8> @mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3(<16 x i8> %a0) nounwind {			define <16 x i8> @mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3(<16 x i8> %a0) nounwind {
	; X86-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:			; X86-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pmovsxbw %xmm0, %xmm1			; X86-NEXT: movdqa {{.*#+}} xmm2 = [2,3,9,17,33,65,129,2,3,9,17,33,65,129,2,3]
	; X86-NEXT: pmullw {{\.LCPI.*}}, %xmm1			; X86-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; X86-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
				; X86-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; X86-NEXT: pmullw %xmm2, %xmm0
	; X86-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; X86-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
	; X86-NEXT: pand %xmm2, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X86-NEXT: pmovsxbw %xmm0, %xmm0
	; X86-NEXT: pmullw {{\.LCPI.*}}, %xmm0
	; X86-NEXT: pand %xmm2, %xmm0			; X86-NEXT: pand %xmm2, %xmm0
				; X86-NEXT: pmullw {{\.LCPI.*}}, %xmm1
				; X86-NEXT: pand %xmm2, %xmm1
	; X86-NEXT: packuswb %xmm0, %xmm1			; X86-NEXT: packuswb %xmm0, %xmm1
	; X86-NEXT: movdqa %xmm1, %xmm0			; X86-NEXT: movdqa %xmm1, %xmm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:			; X64-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pmovsxbw %xmm0, %xmm1			; X64-NEXT: movdqa {{.*#+}} xmm2 = [2,3,9,17,33,65,129,2,3,9,17,33,65,129,2,3]
	; X64-NEXT: pmullw {{.*}}(%rip), %xmm1			; X64-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; X64-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
				; X64-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; X64-NEXT: pmullw %xmm2, %xmm0
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; X64-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
	; X64-NEXT: pand %xmm2, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-NEXT: pmovsxbw %xmm0, %xmm0
	; X64-NEXT: pmullw {{.*}}(%rip), %xmm0
	; X64-NEXT: pand %xmm2, %xmm0			; X64-NEXT: pand %xmm2, %xmm0
				; X64-NEXT: pmullw {{.*}}(%rip), %xmm1
				; X64-NEXT: pand %xmm2, %xmm1
	; X64-NEXT: packuswb %xmm0, %xmm1			; X64-NEXT: packuswb %xmm0, %xmm1
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:			; X64-XOP-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:
	; X64-XOP: # %bb.0:			; X64-XOP: # %bb.0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm1 = [2,3,9,17,33,65,129,2,3,9,17,33,65,129,2,3]
	; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1			; X64-XOP-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X64-XOP-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0			; X64-XOP-NEXT: vpmullw %xmm1, %xmm2, %xmm1
				; X64-XOP-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]			; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],xmm1[0,2,4,6,8,10,12,14]
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:			; X64-AVX2-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%1 = mul <8 x i16> %a0, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%1 = mul <8 x i16> %a0, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}

	define <16 x i8> @mul_v16i8_31(<16 x i8> %a0) nounwind {			define <16 x i8> @mul_v16i8_31(<16 x i8> %a0) nounwind {
	; X86-LABEL: mul_v16i8_31:			; X86-LABEL: mul_v16i8_31:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pmovsxbw %xmm0, %xmm1			; X86-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X86-NEXT: movdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31]			; X86-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X86-NEXT: pmullw %xmm2, %xmm1			; X86-NEXT: movdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]
	; X86-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X86-NEXT: pand %xmm3, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X86-NEXT: pmovsxbw %xmm0, %xmm0
	; X86-NEXT: pmullw %xmm2, %xmm0			; X86-NEXT: pmullw %xmm2, %xmm0
				; X86-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X86-NEXT: pand %xmm3, %xmm0			; X86-NEXT: pand %xmm3, %xmm0
				; X86-NEXT: pmullw %xmm2, %xmm1
				; X86-NEXT: pand %xmm3, %xmm1
	; X86-NEXT: packuswb %xmm0, %xmm1			; X86-NEXT: packuswb %xmm0, %xmm1
	; X86-NEXT: movdqa %xmm1, %xmm0			; X86-NEXT: movdqa %xmm1, %xmm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: mul_v16i8_31:			; X64-LABEL: mul_v16i8_31:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pmovsxbw %xmm0, %xmm1			; X64-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31]			; X64-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-NEXT: pmullw %xmm2, %xmm1			; X64-NEXT: movdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]
	; X64-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X64-NEXT: pand %xmm3, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-NEXT: pmovsxbw %xmm0, %xmm0
	; X64-NEXT: pmullw %xmm2, %xmm0			; X64-NEXT: pmullw %xmm2, %xmm0
				; X64-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; X64-NEXT: pand %xmm3, %xmm0			; X64-NEXT: pand %xmm3, %xmm0
				; X64-NEXT: pmullw %xmm2, %xmm1
				; X64-NEXT: pand %xmm3, %xmm1
	; X64-NEXT: packuswb %xmm0, %xmm1			; X64-NEXT: packuswb %xmm0, %xmm1
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_31:			; X64-XOP-LABEL: mul_v16i8_31:
	; X64-XOP: # %bb.0:			; X64-XOP: # %bb.0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31]			; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X64-XOP-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]			; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],xmm1[0,2,4,6,8,10,12,14]
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_31:			; X64-AVX2-LABEL: mul_v16i8_31:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 316 Lines • ▼ Show 20 Lines
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%1 = mul <8 x i16> %a0, <i16 0, i16 1, i16 7, i16 15, i16 31, i16 63, i16 127, i16 255>			%1 = mul <8 x i16> %a0, <i16 0, i16 1, i16 7, i16 15, i16 31, i16 63, i16 127, i16 255>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}

	define <16 x i8> @mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127(<16 x i8> %a0) nounwind {			define <16 x i8> @mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127(<16 x i8> %a0) nounwind {
	; X86-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:			; X86-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pmovsxbw %xmm0, %xmm1			; X86-NEXT: movdqa {{.*#+}} xmm2 = [0,1,3,7,15,31,63,127,0,1,3,7,15,31,63,127]
	; X86-NEXT: movdqa {{.*#+}} xmm2 = [0,1,3,7,15,31,63,127]			; X86-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				RKSimonUnsubmitted Not Done Reply Inline Actions Why wasn't this constant folded? RKSimon: Why wasn't this constant folded?
				craig.topperAuthorUnsubmitted Not Done Reply Inline Actions At one point that constant pool entry was used by two vector shuffles and I guess we refused to fold it due to multiple uses? Late one shuffle became UNPCKH and the other became zero_extend_vector_in_reg. The DAG combine for zero_extend_vector_in_reg was perfectly happy to overlook the multiple uses and constant fold it. This is the LCPI on the pmullw. This dropped the usage count on the original constant pool but it was too late to trigger the fold. Should we stop the zero_extend_vector_in_reg from constant folding multiple uses? craig.topper: At one point that constant pool entry was used by two vector shuffles and I guess we refused to…
				RKSimonUnsubmitted Not Done Reply Inline Actions Should we stop the zero_extend_vector_in_reg from constant folding multiple uses? Probably but I'm wondering if it'd be better to wait until we've made progress simplifying the mixture of _EXTEND/_EXTEND_VECTOR_INREG/VEXT that we currently use for SSE/AVX vector extensions? RKSimon:* > Should we stop the zero_extend_vector_in_reg from constant folding multiple uses? Probably…
	; X86-NEXT: pmullw %xmm2, %xmm1			; X86-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X86-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; X86-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X86-NEXT: pand %xmm3, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X86-NEXT: pmovsxbw %xmm0, %xmm0
	; X86-NEXT: pmullw %xmm2, %xmm0			; X86-NEXT: pmullw %xmm2, %xmm0
	; X86-NEXT: pand %xmm3, %xmm0			; X86-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
				; X86-NEXT: pand %xmm2, %xmm0
				; X86-NEXT: pmullw {{\.LCPI.*}}, %xmm1
				; X86-NEXT: pand %xmm2, %xmm1
	; X86-NEXT: packuswb %xmm0, %xmm1			; X86-NEXT: packuswb %xmm0, %xmm1
	; X86-NEXT: movdqa %xmm1, %xmm0			; X86-NEXT: movdqa %xmm1, %xmm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:			; X64-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pmovsxbw %xmm0, %xmm1			; X64-NEXT: movdqa {{.*#+}} xmm2 = [0,1,3,7,15,31,63,127,0,1,3,7,15,31,63,127]
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [0,1,3,7,15,31,63,127]			; X64-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-NEXT: pmullw %xmm2, %xmm1			; X64-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X64-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; X64-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-NEXT: pand %xmm3, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-NEXT: pmovsxbw %xmm0, %xmm0
	; X64-NEXT: pmullw %xmm2, %xmm0			; X64-NEXT: pmullw %xmm2, %xmm0
	; X64-NEXT: pand %xmm3, %xmm0			; X64-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
				; X64-NEXT: pand %xmm2, %xmm0
				; X64-NEXT: pmullw {{.*}}(%rip), %xmm1
				; X64-NEXT: pand %xmm2, %xmm1
	; X64-NEXT: packuswb %xmm0, %xmm1			; X64-NEXT: packuswb %xmm0, %xmm1
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:			; X64-XOP-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:
	; X64-XOP: # %bb.0:			; X64-XOP: # %bb.0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,3,7,15,31,63,127,0,1,3,7,15,31,63,127]
	; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,3,7,15,31,63,127]			; X64-XOP-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; X64-XOP-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X64-XOP-NEXT: vpmullw %xmm1, %xmm2, %xmm1
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0			; X64-XOP-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]			; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],xmm1[0,2,4,6,8,10,12,14]
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:			; X64-AVX2-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines