This is an archive of the discontinued LLVM Phabricator instance.

[X86] Add -x86-experimental-vector-widening support to reduceVMULWidth and combineMulToPMADDWD
ClosedPublic

Authored by craig.topper on Nov 13 2018, 11:01 PM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel

Commits

rG73bb04ab6ff0: [X86] Add -x86-experimental-vector-widening support to reduceVMULWidth and…
rL346980: [X86] Add -x86-experimental-vector-widening support to reduceVMULWidth and…

Summary

With reduceVMULWidth, we no longer need to worry about extending the vector to 128 bits first. Regular widening of extends, muls and shuffles will take care of that for us.

In combineMulToPMADDWD, we can handle v2i32 multiplies and allow the VPMADDWD to be widened to v4i32 during type legalization by adding custom widening like we do have for AVG/ADDUS/SUBUS. I had to modify that code a little to allow different and output VTs.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Nov 13 2018, 11:01 PM

Herald added subscribers: dexonsmith, inglorion, mehdi_amini. · View Herald TranscriptNov 13 2018, 11:01 PM

craig.topper added a parent revision: D54467: [X86] Disable combineToExtendVectorInReg under -x86-experimental-vector-widening-legalization. Add custom type legalization for extends..Nov 13 2018, 11:01 PM

Rebase

RKSimon added inline comments.Nov 15 2018, 2:39 AM

lib/Target/X86/X86ISelLowering.cpp
26164 ↗	(On Diff #174129)	Since you're updating the code, please can you add assert messages.
test/CodeGen/X86/shrink_vmul-widen.ll
61 ↗	(On Diff #174129)	Another couple of instances of whether we'd be better off doing PINSRW(PXOR) - see PR31287
70 ↗	(On Diff #174129)	We're doing an extra shuffle here - is that going to be a problem?
1437 ↗	(On Diff #174129)	Definite perf improvement here

Add assert messages. Going to look at the extra shuffle separately. I think we may need to try to reduceVMULWidth before combineMulToPMADDWD on pre-SSE4.1 targets. The mul_4xi8 test case in shrink_vmul.ll shows the same issue even without widening enabled.

LGTM cheers

This revision is now accepted and ready to land.Nov 15 2018, 10:54 AM

Closed by commit rL346980: [X86] Add -x86-experimental-vector-widening support to reduceVMULWidth and… (authored by ctopper). · Explain WhyNov 15 2018, 11:02 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

36 lines

test/

CodeGen/

X86/

shrink_vmul-widen.ll

56 lines

Diff 174252

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 26,122 Lines • ▼ Show 20 Lines	if (getTypeAction(*DAG.getContext(), VT) == TypePromoteInteger) {
N->getOperand(1));		N->getOperand(1));
N1 = DAG.getNode(ISD::AND, dl, MVT::v2i64, N1,		N1 = DAG.getNode(ISD::AND, dl, MVT::v2i64, N1,
DAG.getConstant(0xffffffff, dl, MVT::v2i64));		DAG.getConstant(0xffffffff, dl, MVT::v2i64));
SDValue Mul = DAG.getNode(ISD::MUL, dl, MVT::v2i64, N0, N1);		SDValue Mul = DAG.getNode(ISD::MUL, dl, MVT::v2i64, N0, N1);
Results.push_back(DAG.getNode(ISD::TRUNCATE, dl, VT, Mul));		Results.push_back(DAG.getNode(ISD::TRUNCATE, dl, VT, Mul));
}		}
return;		return;
}		}
		case X86ISD::VPMADDWD:
case X86ISD::ADDUS:		case X86ISD::ADDUS:
case X86ISD::SUBUS:		case X86ISD::SUBUS:
case X86ISD::AVG: {		case X86ISD::AVG: {
// Legalize types for X86ISD::AVG/ADDUS/SUBUS by widening.		// Legalize types for X86ISD::AVG/ADDUS/SUBUS/VPMADDWD by widening.
assert(Subtarget.hasSSE2() && "Requires at least SSE2!");		assert(Subtarget.hasSSE2() && "Requires at least SSE2!");

auto InVT = N->getValueType(0);		EVT VT = N->getValueType(0);
assert(InVT.getSizeInBits() < 128);		EVT InVT = N->getOperand(0).getValueType();
assert(128 % InVT.getSizeInBits() == 0);		assert(VT.getSizeInBits() < 128 && 128 % VT.getSizeInBits() == 0 &&
		"Expected a VT that divides into 128 bits.");
unsigned NumConcat = 128 / InVT.getSizeInBits();		unsigned NumConcat = 128 / InVT.getSizeInBits();

EVT RegVT = EVT::getVectorVT(*DAG.getContext(),		EVT InWideVT = EVT::getVectorVT(*DAG.getContext(),
InVT.getVectorElementType(),		InVT.getVectorElementType(),
NumConcat * InVT.getVectorNumElements());		NumConcat * InVT.getVectorNumElements());
		EVT WideVT = EVT::getVectorVT(*DAG.getContext(),
		VT.getVectorElementType(),
		NumConcat * VT.getVectorNumElements());

SmallVector<SDValue, 16> Ops(NumConcat, DAG.getUNDEF(InVT));		SmallVector<SDValue, 16> Ops(NumConcat, DAG.getUNDEF(InVT));
Ops[0] = N->getOperand(0);		Ops[0] = N->getOperand(0);
SDValue InVec0 = DAG.getNode(ISD::CONCAT_VECTORS, dl, RegVT, Ops);		SDValue InVec0 = DAG.getNode(ISD::CONCAT_VECTORS, dl, InWideVT, Ops);
Ops[0] = N->getOperand(1);		Ops[0] = N->getOperand(1);
SDValue InVec1 = DAG.getNode(ISD::CONCAT_VECTORS, dl, RegVT, Ops);		SDValue InVec1 = DAG.getNode(ISD::CONCAT_VECTORS, dl, InWideVT, Ops);

SDValue Res = DAG.getNode(N->getOpcode(), dl, RegVT, InVec0, InVec1);		SDValue Res = DAG.getNode(N->getOpcode(), dl, WideVT, InVec0, InVec1);
if (getTypeAction(*DAG.getContext(), InVT) != TypeWidenVector)		if (getTypeAction(*DAG.getContext(), VT) != TypeWidenVector)
Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, InVT, Res,		Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, VT, Res,
DAG.getIntPtrConstant(0, dl));		DAG.getIntPtrConstant(0, dl));
Results.push_back(Res);		Results.push_back(Res);
return;		return;
}		}
case ISD::SETCC: {		case ISD::SETCC: {
// Widen v2i32 (setcc v2f32). This is really needed for AVX512VL when		// Widen v2i32 (setcc v2f32). This is really needed for AVX512VL when
// setCC result type is v2i1 because type legalzation will end up with		// setCC result type is v2i1 because type legalzation will end up with
// a v4i1 setcc plus an extend.		// a v4i1 setcc plus an extend.
▲ Show 20 Lines • Show All 8,263 Lines • ▼ Show 20 Lines	static SDValue reduceVMULWidth(SDNode *N, SelectionDAG &DAG,
unsigned RegSize = 128;		unsigned RegSize = 128;
MVT OpsVT = MVT::getVectorVT(MVT::i16, RegSize / 16);		MVT OpsVT = MVT::getVectorVT(MVT::i16, RegSize / 16);
EVT ReducedVT = EVT::getVectorVT(*DAG.getContext(), MVT::i16, NumElts);		EVT ReducedVT = EVT::getVectorVT(*DAG.getContext(), MVT::i16, NumElts);

// Shrink the operands of mul.		// Shrink the operands of mul.
SDValue NewN0 = DAG.getNode(ISD::TRUNCATE, DL, ReducedVT, N0);		SDValue NewN0 = DAG.getNode(ISD::TRUNCATE, DL, ReducedVT, N0);
SDValue NewN1 = DAG.getNode(ISD::TRUNCATE, DL, ReducedVT, N1);		SDValue NewN1 = DAG.getNode(ISD::TRUNCATE, DL, ReducedVT, N1);

if (NumElts >= OpsVT.getVectorNumElements()) {		if (ExperimentalVectorWideningLegalization \|\|
		NumElts >= OpsVT.getVectorNumElements()) {
// Generate the lower part of mul: pmullw. For MULU8/MULS8, only the		// Generate the lower part of mul: pmullw. For MULU8/MULS8, only the
// lower part is needed.		// lower part is needed.
SDValue MulLo = DAG.getNode(ISD::MUL, DL, ReducedVT, NewN0, NewN1);		SDValue MulLo = DAG.getNode(ISD::MUL, DL, ReducedVT, NewN0, NewN1);
if (Mode == MULU8 \|\| Mode == MULS8) {		if (Mode == MULU8 \|\| Mode == MULS8) {
return DAG.getNode((Mode == MULU8) ? ISD::ZERO_EXTEND : ISD::SIGN_EXTEND,		return DAG.getNode((Mode == MULU8) ? ISD::ZERO_EXTEND : ISD::SIGN_EXTEND,
DL, VT, MulLo);		DL, VT, MulLo);
} else {		} else {
MVT ResVT = MVT::getVectorVT(MVT::i32, NumElts / 2);		MVT ResVT = MVT::getVectorVT(MVT::i32, NumElts / 2);
▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines	static SDValue combineMulToPMADDWD(SDNode *N, SelectionDAG &DAG,

EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

// Only support vXi32 vectors.		// Only support vXi32 vectors.
if (!VT.isVector() \|\| VT.getVectorElementType() != MVT::i32)		if (!VT.isVector() \|\| VT.getVectorElementType() != MVT::i32)
return SDValue();		return SDValue();

// Make sure the vXi16 type is legal. This covers the AVX512 without BWI case.		// Make sure the vXi16 type is legal. This covers the AVX512 without BWI case.
		// Also allow v2i32 if it will be widened.
MVT WVT = MVT::getVectorVT(MVT::i16, 2 * VT.getVectorNumElements());		MVT WVT = MVT::getVectorVT(MVT::i16, 2 * VT.getVectorNumElements());
if (!DAG.getTargetLoweringInfo().isTypeLegal(WVT))		if (!((ExperimentalVectorWideningLegalization && VT == MVT::v2i32) \|\|
		DAG.getTargetLoweringInfo().isTypeLegal(WVT)))
return SDValue();		return SDValue();

SDValue N0 = N->getOperand(0);		SDValue N0 = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
APInt Mask17 = APInt::getHighBitsSet(32, 17);		APInt Mask17 = APInt::getHighBitsSet(32, 17);
if (!DAG.MaskedValueIsZero(N1, Mask17) \|\|		if (!DAG.MaskedValueIsZero(N1, Mask17) \|\|
!DAG.MaskedValueIsZero(N0, Mask17))		!DAG.MaskedValueIsZero(N0, Mask17))
return SDValue();		return SDValue();
▲ Show 20 Lines • Show All 7,203 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shrink_vmul-widen.ll

	Show All 18 Lines
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-SSE-NEXT: movl c, %esi			; X86-SSE-NEXT: movl c, %esi
	; X86-SSE-NEXT: movzwl (%edx,%ecx), %edx			; X86-SSE-NEXT: movzwl (%edx,%ecx), %edx
	; X86-SSE-NEXT: movd %edx, %xmm0			; X86-SSE-NEXT: movd %edx, %xmm0
				; X86-SSE-NEXT: pxor %xmm1, %xmm1
				; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
				; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X86-SSE-NEXT: movzwl (%eax,%ecx), %eax			; X86-SSE-NEXT: movzwl (%eax,%ecx), %eax
	; X86-SSE-NEXT: movd %eax, %xmm1			; X86-SSE-NEXT: movd %eax, %xmm2
	; X86-SSE-NEXT: pxor %xmm2, %xmm2			; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X86-SSE-NEXT: pmaddwd %xmm0, %xmm2
	; X86-SSE-NEXT: pmullw %xmm0, %xmm1			; X86-SSE-NEXT: movq %xmm2, (%esi,%ecx,4)
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm1, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8:			; X86-AVX-LABEL: mul_2xi8:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %esi
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	Show All 10 Lines
	; X86-AVX-NEXT: popl %esi			; X86-AVX-NEXT: popl %esi
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8:			; X64-SSE-LABEL: mul_2xi8:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
				; X64-SSE-NEXT: pxor %xmm1, %xmm1
				; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
				; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm1			; X64-SSE-NEXT: movd %ecx, %xmm2
	; X64-SSE-NEXT: pxor %xmm2, %xmm2			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X64-SSE-NEXT: pmaddwd %xmm0, %xmm2
	; X64-SSE-NEXT: pmullw %xmm0, %xmm1			; X64-SSE-NEXT: movq %xmm2, (%rax,%rdx,4)
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm1, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8:			; X64-AVX-LABEL: mul_2xi8:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: movzwl (%rdi,%rdx), %ecx			; X64-AVX-NEXT: movzwl (%rdi,%rdx), %ecx
	; X64-AVX-NEXT: vmovd %ecx, %xmm0			; X64-AVX-NEXT: vmovd %ecx, %xmm0
	; X64-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; X64-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	▲ Show 20 Lines • Show All 1,337 Lines • ▼ Show 20 Lines
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl c, %edx			; X86-SSE-NEXT: movl c, %edx
	; X86-SSE-NEXT: movzwl (%ecx,%eax), %ecx			; X86-SSE-NEXT: movzwl (%ecx,%eax), %ecx
	; X86-SSE-NEXT: movd %ecx, %xmm0			; X86-SSE-NEXT: movd %ecx, %xmm0
	; X86-SSE-NEXT: pxor %xmm1, %xmm1			; X86-SSE-NEXT: pxor %xmm1, %xmm1
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X86-SSE-NEXT: pmullw {{\.LCPI.*}}, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; X86-SSE-NEXT: pmaddwd {{\.LCPI.*}}, %xmm0
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst1:			; X86-AVX-LABEL: mul_2xi8_varconst1:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: movzwl (%ecx,%eax), %ecx			; X86-AVX-NEXT: movzwl (%ecx,%eax), %ecx
	; X86-AVX-NEXT: vmovd %ecx, %xmm0			; X86-AVX-NEXT: vmovd %ecx, %xmm0
	; X86-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; X86-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmaddwd {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst1:			; X64-SSE-LABEL: mul_2xi8_varconst1:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: pxor %xmm1, %xmm1			; X64-SSE-NEXT: pxor %xmm1, %xmm1
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X64-SSE-NEXT: pmullw {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; X64-SSE-NEXT: pmaddwd {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst1:			; X64-AVX-LABEL: mul_2xi8_varconst1:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-AVX-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-AVX-NEXT: vmovd %ecx, %xmm0			; X64-AVX-NEXT: vmovd %ecx, %xmm0
	; X64-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; X64-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; X64-AVX-NEXT: vpmaddwd {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = zext <2 x i8> %wide.load to <2 x i32>			%tmp8 = zext <2 x i8> %wide.load to <2 x i32>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl c, %edx			; X86-SSE-NEXT: movl c, %edx
	; X86-SSE-NEXT: movzwl (%ecx,%eax), %ecx			; X86-SSE-NEXT: movzwl (%ecx,%eax), %ecx
	; X86-SSE-NEXT: movd %ecx, %xmm0			; X86-SSE-NEXT: movd %ecx, %xmm0
	; X86-SSE-NEXT: pxor %xmm1, %xmm1			; X86-SSE-NEXT: pxor %xmm1, %xmm1
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,256,u,u,u,u,u,u>			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X86-SSE-NEXT: movdqa %xmm0, %xmm2			; X86-SSE-NEXT: pmaddwd {{\.LCPI.*}}, %xmm0
	; X86-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X86-SSE-NEXT: pmullw %xmm1, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst3:			; X86-AVX-LABEL: mul_2xi8_varconst3:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: movzwl (%ecx,%eax), %ecx			; X86-AVX-NEXT: movzwl (%ecx,%eax), %ecx
	; X86-AVX-NEXT: vmovd %ecx, %xmm0			; X86-AVX-NEXT: vmovd %ecx, %xmm0
	; X86-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; X86-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmaddwd {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst3:			; X64-SSE-LABEL: mul_2xi8_varconst3:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: pxor %xmm1, %xmm1			; X64-SSE-NEXT: pxor %xmm1, %xmm1
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,256,u,u,u,u,u,u>			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: pmaddwd {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst3:			; X64-AVX-LABEL: mul_2xi8_varconst3:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-AVX-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-AVX-NEXT: vmovd %ecx, %xmm0			; X64-AVX-NEXT: vmovd %ecx, %xmm0
	; X64-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; X64-AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; X64-AVX-NEXT: vpmaddwd {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = zext <2 x i8> %wide.load to <2 x i32>			%tmp8 = zext <2 x i8> %wide.load to <2 x i32>
	▲ Show 20 Lines • Show All 992 Lines • Show Last 20 Lines