This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves
ClosedPublic

Authored by RKSimon on Nov 13 2016, 8:10 AM.

Download Raw Diff

Details

Reviewers

spatel
andreadb
mkuper
craig.topper

Commits

rG8eca5520dc5d: [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves
rL287223: [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves

Summary

vXi64 multiplication is lowered into 3 calls of vpmuludq with the upper/lower 32-bit halves.

If any of these halves are zero then we can remove individual calls. Although there was isBuildVectorAllZeros code to somewhat do this I don't think it ever worked (maybe just for constant folded cases that don't seem to be tested for any longer).

This requires additional X86ISD support for computeKnownBitsForTargetNode, so far I've just added support for X86ISD::VZEXT (VPMOVZX* - helping the AVX2+ cases), I can add further support (X86 target shuffles and bit shifts) in future commits to help SSE2-AVX1 cases.

Fix for PR30845

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 77747.Nov 13 2016, 8:10 AM

RKSimon retitled this revision from to [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves.

RKSimon updated this object.

RKSimon added reviewers: mkuper, craig.topper, spatel, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

craig.topper added inline comments.Nov 15 2016, 10:12 PM

lib/Target/X86/X86ISelLowering.cpp
19952	Should we pull these and the bit casts below into the blocks that use them?

Updated based on Craig's feedback

LGTM

This revision is now accepted and ready to land.Nov 16 2016, 7:51 PM

Closed by commit rL287223: [X86][SSE] Improve lowering of vXi64 multiply with known zero 32-bit halves (authored by RKSimon). · Explain WhyNov 17 2016, 4:24 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 286765)

49 lines

test/

CodeGen/

X86/

	pmul.ll
	pmul.ll (revision 286765)

40 lines

Diff 77747

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 19,943 Lines • ▼ Show 20 Lines	static SDValue LowerMUL(SDValue Op, const X86Subtarget &Subtarget,
// AloBlo = pmuludq(a, b);		// AloBlo = pmuludq(a, b);
// AloBhi = pmuludq(a, Bhi);		// AloBhi = pmuludq(a, Bhi);
// AhiBlo = pmuludq(Ahi, b);		// AhiBlo = pmuludq(Ahi, b);

// AloBhi = psllqi(AloBhi, 32);		// AloBhi = psllqi(AloBhi, 32);
// AhiBlo = psllqi(AhiBlo, 32);		// AhiBlo = psllqi(AhiBlo, 32);
// return AloBlo + AloBhi + AhiBlo;		// return AloBlo + AloBhi + AhiBlo;

SDValue Ahi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, A, 32, DAG);		SDValue Ahi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, A, 32, DAG);
		craig.topperUnsubmitted Not Done Reply Inline Actions Should we pull these and the bit casts below into the blocks that use them? craig.topper: Should we pull these and the bit casts below into the blocks that use them?
SDValue Bhi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, B, 32, DAG);		SDValue Bhi = getTargetVShiftByConstNode(X86ISD::VSRLI, dl, VT, B, 32, DAG);

SDValue AhiBlo = Ahi;		APInt LowerBitsMask = APInt::getLowBitsSet(64, 32);
SDValue AloBhi = Bhi;		bool ALoiIsZero = DAG.MaskedValueIsZero(A, LowerBitsMask);
		bool BLoiIsZero = DAG.MaskedValueIsZero(B, LowerBitsMask);

		APInt UpperBitsMask = APInt::getHighBitsSet(64, 32);
		bool AHiIsZero = DAG.MaskedValueIsZero(A, UpperBitsMask);
		bool BHiIsZero = DAG.MaskedValueIsZero(B, UpperBitsMask);

// Bit cast to 32-bit vectors for MULUDQ		// Bit cast to 32-bit vectors for MULUDQ
MVT MulVT = (VT == MVT::v2i64) ? MVT::v4i32 :		MVT MulVT = (VT == MVT::v2i64) ? MVT::v4i32 :
(VT == MVT::v4i64) ? MVT::v8i32 : MVT::v16i32;		(VT == MVT::v4i64) ? MVT::v8i32 : MVT::v16i32;
A = DAG.getBitcast(MulVT, A);		A = DAG.getBitcast(MulVT, A);
B = DAG.getBitcast(MulVT, B);		B = DAG.getBitcast(MulVT, B);
Ahi = DAG.getBitcast(MulVT, Ahi);		Ahi = DAG.getBitcast(MulVT, Ahi);
Bhi = DAG.getBitcast(MulVT, Bhi);		Bhi = DAG.getBitcast(MulVT, Bhi);

SDValue AloBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, B);		SDValue Res;
// After shifting right const values the result may be all-zero.
if (!ISD::isBuildVectorAllZeros(Ahi.getNode())) {		if (!ALoiIsZero && !BLoiIsZero)
AhiBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Ahi, B);		Res = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, B);
AhiBlo = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AhiBlo, 32, DAG);
}		if (!ALoiIsZero && !BHiIsZero) {
if (!ISD::isBuildVectorAllZeros(Bhi.getNode())) {		SDValue AloBhi = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, Bhi);
AloBhi = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, Bhi);
AloBhi = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AloBhi, 32, DAG);		AloBhi = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AloBhi, 32, DAG);
		Res = (Res.getNode() ? DAG.getNode(ISD::ADD, dl, VT, Res, AloBhi) : AloBhi);
}		}

SDValue Res = DAG.getNode(ISD::ADD, dl, VT, AloBlo, AloBhi);		if (!AHiIsZero && !BLoiIsZero) {
return DAG.getNode(ISD::ADD, dl, VT, Res, AhiBlo);		SDValue AhiBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Ahi, B);
		AhiBlo = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, VT, AhiBlo, 32, DAG);
		Res = (Res.getNode() ? DAG.getNode(ISD::ADD, dl, VT, Res, AhiBlo) : AhiBlo);
		}

		return (Res.getNode() ? Res : getZeroVector(VT, Subtarget, DAG, dl));
}		}

static SDValue LowerMULH(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerMULH(SDValue Op, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
SDLoc dl(Op);		SDLoc dl(Op);
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();

// Decompose 256-bit ops into smaller 128-bit ops.		// Decompose 256-bit ops into smaller 128-bit ops.
▲ Show 20 Lines • Show All 5,069 Lines • ▼ Show 20 Lines	void X86TargetLowering::computeKnownBitsForTargetNode(const SDValue Op,
case X86ISD::SETCC:		case X86ISD::SETCC:
KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - 1);		KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - 1);
break;		break;
case X86ISD::MOVMSK: {		case X86ISD::MOVMSK: {
unsigned NumLoBits = Op.getOperand(0).getValueType().getVectorNumElements();		unsigned NumLoBits = Op.getOperand(0).getValueType().getVectorNumElements();
KnownZero = APInt::getHighBitsSet(BitWidth, BitWidth - NumLoBits);		KnownZero = APInt::getHighBitsSet(BitWidth, BitWidth - NumLoBits);
break;		break;
}		}
		case X86ISD::VZEXT: {
		SDValue N0 = Op.getOperand(0);
		unsigned NumElts = Op.getValueType().getVectorNumElements();
		unsigned InNumElts = N0.getValueType().getVectorNumElements();
		unsigned InBitWidth = N0.getValueType().getScalarSizeInBits();

		KnownZero = KnownOne = APInt(InBitWidth, 0);
		APInt DemandedElts = APInt::getLowBitsSet(InNumElts, NumElts);
		DAG.computeKnownBits(N0, KnownZero, KnownOne, DemandedElts, Depth + 1);
		KnownOne = KnownOne.zext(BitWidth);
		KnownZero = KnownZero.zext(BitWidth);
		KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - InBitWidth);
		break;
		}
}		}
}		}

unsigned X86TargetLowering::ComputeNumSignBitsForTargetNode(		unsigned X86TargetLowering::ComputeNumSignBitsForTargetNode(
SDValue Op,		SDValue Op,
const SelectionDAG &,		const SelectionDAG &,
unsigned Depth) const {		unsigned Depth) const {
// SETCC_CARRY sets the dest to ~0 for true or 0 for false.		// SETCC_CARRY sets the dest to ~0 for true or 0 for false.
▲ Show 20 Lines • Show All 8,094 Lines • Show Last 20 Lines

test/CodeGen/X86/pmul.ll

	Show First 20 Lines • Show All 1,219 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,3,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,3,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v4i64_zero_upper:			; AVX2-LABEL: mul_v4i64_zero_upper:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v4i64_zero_upper:			; AVX512-LABEL: mul_v4i64_zero_upper:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX512-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%val1a = zext <4 x i32> %val1 to <4 x i64>			%val1a = zext <4 x i32> %val1 to <4 x i64>
	%val2a = zext <4 x i32> %val2 to <4 x i64>			%val2a = zext <4 x i32> %val2 to <4 x i64>
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,3,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,3,2,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v4i64_zero_upper_left:			; AVX2-LABEL: mul_v4i64_zero_upper_left:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v4i64_zero_upper_left:			; AVX512-LABEL: mul_v4i64_zero_upper_left:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX512-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX512-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%val1a = zext <4 x i32> %val1 to <4 x i64>			%val1a = zext <4 x i32> %val1 to <4 x i64>
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v4i64_zero_lower:			; AVX2-LABEL: mul_v4i64_zero_lower:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpxor %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v4i64_zero_lower:			; AVX512-LABEL: mul_v4i64_zero_lower:
	; AVX512: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512-NEXT: vpxor %ymm2, %ymm2, %ymm2			; AVX512-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; AVX512-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]			; AVX512-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2
	; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX512-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX512-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0			; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0			; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%val1a = zext <4 x i32> %val1 to <4 x i64>			%val1a = zext <4 x i32> %val1 to <4 x i64>
	%val2a = and <4 x i64> %val2, <i64 -4294967296, i64 -4294967296, i64 -4294967296, i64 -4294967296>			%val2a = and <4 x i64> %val2, <i64 -4294967296, i64 -4294967296, i64 -4294967296, i64 -4294967296>
	%res64 = mul <4 x i64> %val1a, %val2a			%res64 = mul <4 x i64> %val1a, %val2a
	%rescast = bitcast <4 x i64> %res64 to <8 x i32>			%rescast = bitcast <4 x i64> %res64 to <8 x i32>
	%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%res = shufflevector <8 x i32> %rescast, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}