This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves
ClosedPublic

Authored by RKSimon on Nov 13 2016, 8:10 AM.

Download Raw Diff

Details

Reviewers

spatel
andreadb
mkuper
craig.topper

Commits

rG8eca5520dc5d: [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves
rL287223: [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves

Summary

vXi64 multiplication is lowered into 3 calls of vpmuludq with the upper/lower 32-bit halves.

If any of these halves are zero then we can remove individual calls. Although there was isBuildVectorAllZeros code to somewhat do this I don't think it ever worked (maybe just for constant folded cases that don't seem to be tested for any longer).

This requires additional X86ISD support for computeKnownBitsForTargetNode, so far I've just added support for X86ISD::VZEXT (VPMOVZX* - helping the AVX2+ cases), I can add further support (X86 target shuffles and bit shifts) in future commits to help SSE2-AVX1 cases.

Fix for PR30845

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 77747.Nov 13 2016, 8:10 AM

RKSimon retitled this revision from to [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves.

RKSimon updated this object.

RKSimon added reviewers: mkuper, craig.topper, spatel, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

craig.topper added inline comments.Nov 15 2016, 10:12 PM

lib/Target/X86/X86ISelLowering.cpp
19952 ↗	(On Diff #77747)	Should we pull these and the bit casts below into the blocks that use them?

Updated based on Craig's feedback

LGTM

This revision is now accepted and ready to land.Nov 16 2016, 7:51 PM

Closed by commit rL287223: [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves (authored by RKSimon). · Explain WhyNov 17 2016, 4:24 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

64 lines

test/

CodeGen/

X86/

pmul.ll

40 lines

Diff 78346

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 20,138 Lines • ▼ Show 20 Lines	static SDValue LowerMUL(SDValue Op, const X86Subtarget &Subtarget,
//		//
// AloBlo = pmuludq(a, b);		// AloBlo = pmuludq(a, b);
// AloBhi = pmuludq(a, Bhi);		// AloBhi = pmuludq(a, Bhi);
// AhiBlo = pmuludq(Ahi, b);		// AhiBlo = pmuludq(Ahi, b);

// AloBhi = psllqi(AloBhi, 32);		// AloBhi = psllqi(AloBhi, 32);
// AhiBlo = psllqi(AhiBlo, 32);		// AhiBlo = psllqi(AhiBlo, 32);
// return AloBlo + AloBhi + AhiBlo;		// return AloBlo + AloBhi + AhiBlo;
		APInt LowerBitsMask = APInt::getLowBitsSet(64, 32);
		bool ALoiIsZero = DAG.MaskedValueIsZero(A, LowerBitsMask);
		bool BLoiIsZero = DAG.MaskedValueIsZero(B, LowerBitsMask);

		APInt UpperBitsMask = APInt::getHighBitsSet(64, 32);
		bool AHiIsZero = DAG.MaskedValueIsZero(A, UpperBitsMask);
		bool BHiIsZero = DAG.MaskedValueIsZero(B, UpperBitsMask);

SDValue Ahi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, A, 32, DAG);
SDValue Bhi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, B, 32, DAG);

SDValue AhiBlo = Ahi;
SDValue AloBhi = Bhi;
// Bit cast to 32-bit vectors for MULUDQ		// Bit cast to 32-bit vectors for MULUDQ
MVT MulVT = (VT == MVT::v2i64) ? MVT::v4i32 :		MVT MulVT = (VT == MVT::v2i64) ? MVT::v4i32 :
(VT == MVT::v4i64) ? MVT::v8i32 : MVT::v16i32;		(VT == MVT::v4i64) ? MVT::v8i32 : MVT::v16i32;
A = DAG.getBitcast(MulVT, A);		SDValue Alo = DAG.getBitcast(MulVT, A);
B = DAG.getBitcast(MulVT, B);		SDValue Blo = DAG.getBitcast(MulVT, B);
Ahi = DAG.getBitcast(MulVT, Ahi);
		SDValue Res;

		// Only multiply lo/hi halves that aren't known to be zero.
		if (!ALoiIsZero && !BLoiIsZero)
		Res = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Alo, Blo);

		if (!ALoiIsZero && !BHiIsZero) {
		SDValue Bhi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, B, 32, DAG);
Bhi = DAG.getBitcast(MulVT, Bhi);		Bhi = DAG.getBitcast(MulVT, Bhi);
		SDValue AloBhi = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Alo, Bhi);
		AloBhi = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AloBhi, 32, DAG);
		Res = (Res.getNode() ? DAG.getNode(ISD::ADD, dl, VT, Res, AloBhi) : AloBhi);
		}

SDValue AloBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, B);		if (!AHiIsZero && !BLoiIsZero) {
// After shifting right const values the result may be all-zero.		SDValue Ahi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, A, 32, DAG);
if (!ISD::isBuildVectorAllZeros(Ahi.getNode())) {		Ahi = DAG.getBitcast(MulVT, Ahi);
AhiBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Ahi, B);		SDValue AhiBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Ahi, Blo);
AhiBlo = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AhiBlo, 32, DAG);		AhiBlo = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AhiBlo, 32, DAG);
}		Res = (Res.getNode() ? DAG.getNode(ISD::ADD, dl, VT, Res, AhiBlo) : AhiBlo);
if (!ISD::isBuildVectorAllZeros(Bhi.getNode())) {
AloBhi = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, Bhi);
AloBhi = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AloBhi, 32, DAG);
}		}

SDValue Res = DAG.getNode(ISD::ADD, dl, VT, AloBlo, AloBhi);		return (Res.getNode() ? Res : getZeroVector(VT, Subtarget, DAG, dl));
return DAG.getNode(ISD::ADD, dl, VT, Res, AhiBlo);
}		}

static SDValue LowerMULH(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerMULH(SDValue Op, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
SDLoc dl(Op);		SDLoc dl(Op);
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();

// Decompose 256-bit ops into smaller 128-bit ops.		// Decompose 256-bit ops into smaller 128-bit ops.
▲ Show 20 Lines • Show All 5,069 Lines • ▼ Show 20 Lines	void X86TargetLowering::computeKnownBitsForTargetNode(const SDValue Op,
case X86ISD::SETCC:		case X86ISD::SETCC:
KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - 1);		KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - 1);
break;		break;
case X86ISD::MOVMSK: {		case X86ISD::MOVMSK: {
unsigned NumLoBits = Op.getOperand(0).getValueType().getVectorNumElements();		unsigned NumLoBits = Op.getOperand(0).getValueType().getVectorNumElements();
KnownZero = APInt::getHighBitsSet(BitWidth, BitWidth - NumLoBits);		KnownZero = APInt::getHighBitsSet(BitWidth, BitWidth - NumLoBits);
break;		break;
}		}
		case X86ISD::VZEXT: {
		SDValue N0 = Op.getOperand(0);
		unsigned NumElts = Op.getValueType().getVectorNumElements();
		unsigned InNumElts = N0.getValueType().getVectorNumElements();
		unsigned InBitWidth = N0.getValueType().getScalarSizeInBits();

		KnownZero = KnownOne = APInt(InBitWidth, 0);
		APInt DemandedElts = APInt::getLowBitsSet(InNumElts, NumElts);
		DAG.computeKnownBits(N0, KnownZero, KnownOne, DemandedElts, Depth + 1);
		KnownOne = KnownOne.zext(BitWidth);
		KnownZero = KnownZero.zext(BitWidth);
		KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - InBitWidth);
		break;
		}
}		}
}		}

unsigned X86TargetLowering::ComputeNumSignBitsForTargetNode(		unsigned X86TargetLowering::ComputeNumSignBitsForTargetNode(
SDValue Op,		SDValue Op,
const SelectionDAG &,		const SelectionDAG &,
unsigned Depth) const {		unsigned Depth) const {
// SETCC_CARRY sets the dest to ~0 for true or 0 for false.		// SETCC_CARRY sets the dest to ~0 for true or 0 for false.
▲ Show 20 Lines • Show All 8,109 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/pmul.ll

	Show First 20 Lines • Show All 1,219 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,3,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,3,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v4i64_zero_upper:			; AVX2-LABEL: mul_v4i64_zero_upper:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v4i64_zero_upper:			; AVX512-LABEL: mul_v4i64_zero_upper:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX512-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%val1a = zext <4 x i32> %val1 to <4 x i64>			%val1a = zext <4 x i32> %val1 to <4 x i64>
	%val2a = zext <4 x i32> %val2 to <4 x i64>			%val2a = zext <4 x i32> %val2 to <4 x i64>
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,3,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,3,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v4i64_zero_upper_left:			; AVX2-LABEL: mul_v4i64_zero_upper_left:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v4i64_zero_upper_left:			; AVX512-LABEL: mul_v4i64_zero_upper_left:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX512-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX512-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%val1a = zext <4 x i32> %val1 to <4 x i64>			%val1a = zext <4 x i32> %val1 to <4 x i64>
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v4i64_zero_lower:			; AVX2-LABEL: mul_v4i64_zero_lower:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpxor %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v4i64_zero_lower:			; AVX512-LABEL: mul_v4i64_zero_lower:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512-NEXT: vpxor %ymm2, %ymm2, %ymm2			; AVX512-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; AVX512-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]			; AVX512-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX512-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX512-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%val1a = zext <4 x i32> %val1 to <4 x i64>			%val1a = zext <4 x i32> %val1 to <4 x i64>
	%val2a = and <4 x i64> %val2, <i64 -4294967296, i64 -4294967296, i64 -4294967296, i64 -4294967296>			%val2a = and <4 x i64> %val2, <i64 -4294967296, i64 -4294967296, i64 -4294967296, i64 -4294967296>
	%res64 = mul <4 x i64> %val1a, %val2a			%res64 = mul <4 x i64> %val1a, %val2a
	%rescast = bitcast <4 x i64> %res64 to <8 x i32>			%rescast = bitcast <4 x i64> %res64 to <8 x i32>
	%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}