This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Lower suitably sign-extended mul vXi64 using PMULDQ
ClosedPublic

Authored by RKSimon on Dec 10 2016, 3:51 PM.

Download Raw Diff

Details

Reviewers

spatel
andreadb
mkuper
craig.topper
igorb

Commits

rG369cd349b968: [X86][SSE] Lower suitably sign-extended mul vXi64 using PMULDQ
rL289426: [X86][SSE] Lower suitably sign-extended mul vXi64 using PMULDQ

Summary

PMULDQ returns the 64-bit result of the signed multiplication of the lower 32-bits of vXi64 vector inputs, we can lower with this if the sign bits stretch that far.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 81009.Dec 10 2016, 3:51 PM

RKSimon retitled this revision from to [X86][SSE] Lower suitably sign-extended mul vXi64 using PMULDQ.

RKSimon updated this object.

RKSimon added reviewers: igorb, mkuper, craig.topper, spatel, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

Improved AVX1 support by adding EXTRACT_SUBVECTOR support to ComputeNumSignBits

craig.topper added inline comments.Dec 11 2016, 12:03 AM

test/CodeGen/X86/vector-compare-results.ll
1884 ↗	(On Diff #81011)	This change seems unrelated to the multiply changes. Was it caused by the computeSignBits changes handling for extract subvector?

RKSimon added inline comments.Dec 11 2016, 3:00 AM

test/CodeGen/X86/vector-compare-results.ll
1884 ↗	(On Diff #81011)	Yes it's down to adding EXTRACT_SUBVECTOR support to computeSignBits

RKSimon added inline comments.Dec 11 2016, 10:19 AM

test/CodeGen/X86/vector-compare-results.ll
1884 ↗	(On Diff #81011)	Should I commit the EXTRACT_SUBVECTOR support first to split the diffs?

LGTM. I'll let you decide whether to split it or not.

This revision is now accepted and ready to land.Dec 11 2016, 2:15 PM

RKSimon mentioned this in rL289425: [SelectionDAG] Add support for EXTRACT_SUBVECTOR to ComputeNumSignBits.Dec 12 2016, 2:40 AM

Closed by commit rL289426: [X86][SSE] Lower suitably sign-extended mul vXi64 using PMULDQ (authored by RKSimon). · Explain WhyDec 12 2016, 2:59 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

25 lines

test/

CodeGen/

X86/

masked_gather_scatter.ll

36 lines

pmul.ll

107 lines

vector-trunc-math.ll

40 lines

Diff 81063

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 20,504 Lines • ▼ Show 20 Lines	if (VT == MVT::v4i32) {
// shuffles.		// shuffles.
static const int ShufMask[] = { 0, 4, 2, 6 };		static const int ShufMask[] = { 0, 4, 2, 6 };
return DAG.getVectorShuffle(VT, dl, Evens, Odds, ShufMask);		return DAG.getVectorShuffle(VT, dl, Evens, Odds, ShufMask);
}		}

assert((VT == MVT::v2i64 \|\| VT == MVT::v4i64 \|\| VT == MVT::v8i64) &&		assert((VT == MVT::v2i64 \|\| VT == MVT::v4i64 \|\| VT == MVT::v8i64) &&
"Only know how to lower V2I64/V4I64/V8I64 multiply");		"Only know how to lower V2I64/V4I64/V8I64 multiply");

		// 32-bit vector types used for MULDQ/MULUDQ.
		MVT MulVT = MVT::getVectorVT(MVT::i32, VT.getSizeInBits() / 32);

		// MULDQ returns the 64-bit result of the signed multiplication of the lower
		// 32-bits. We can lower with this if the sign bits stretch that far.
		if (Subtarget.hasSSE41() && DAG.ComputeNumSignBits(A) > 32 &&
		DAG.ComputeNumSignBits(B) > 32) {
		return DAG.getNode(X86ISD::PMULDQ, dl, VT, DAG.getBitcast(MulVT, A),
		DAG.getBitcast(MulVT, B));
		}

// Ahi = psrlqi(a, 32);		// Ahi = psrlqi(a, 32);
// Bhi = psrlqi(b, 32);		// Bhi = psrlqi(b, 32);
//		//
// AloBlo = pmuludq(a, b);		// AloBlo = pmuludq(a, b);
// AloBhi = pmuludq(a, Bhi);		// AloBhi = pmuludq(a, Bhi);
// AhiBlo = pmuludq(Ahi, b);		// AhiBlo = pmuludq(Ahi, b);

// AloBhi = psllqi(AloBhi, 32);		// AloBhi = psllqi(AloBhi, 32);
// AhiBlo = psllqi(AhiBlo, 32);		// AhiBlo = psllqi(AhiBlo, 32);
// return AloBlo + AloBhi + AhiBlo;		// return AloBlo + AloBhi + AhiBlo;
APInt LowerBitsMask = APInt::getLowBitsSet(64, 32);		APInt LowerBitsMask = APInt::getLowBitsSet(64, 32);
bool ALoiIsZero = DAG.MaskedValueIsZero(A, LowerBitsMask);		bool ALoiIsZero = DAG.MaskedValueIsZero(A, LowerBitsMask);
bool BLoiIsZero = DAG.MaskedValueIsZero(B, LowerBitsMask);		bool BLoiIsZero = DAG.MaskedValueIsZero(B, LowerBitsMask);

APInt UpperBitsMask = APInt::getHighBitsSet(64, 32);		APInt UpperBitsMask = APInt::getHighBitsSet(64, 32);
bool AHiIsZero = DAG.MaskedValueIsZero(A, UpperBitsMask);		bool AHiIsZero = DAG.MaskedValueIsZero(A, UpperBitsMask);
bool BHiIsZero = DAG.MaskedValueIsZero(B, UpperBitsMask);		bool BHiIsZero = DAG.MaskedValueIsZero(B, UpperBitsMask);

// Bit cast to 32-bit vectors for MULUDQ		// Bit cast to 32-bit vectors for MULUDQ.
MVT MulVT = (VT == MVT::v2i64) ? MVT::v4i32 :
(VT == MVT::v4i64) ? MVT::v8i32 : MVT::v16i32;
SDValue Alo = DAG.getBitcast(MulVT, A);		SDValue Alo = DAG.getBitcast(MulVT, A);
SDValue Blo = DAG.getBitcast(MulVT, B);		SDValue Blo = DAG.getBitcast(MulVT, B);

SDValue Res;		SDValue Res;

// Only multiply lo/hi halves that aren't known to be zero.		// Only multiply lo/hi halves that aren't known to be zero.
if (!ALoiIsZero && !BLoiIsZero)		if (!ALoiIsZero && !BLoiIsZero)
Res = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Alo, Blo);		Res = DAG.getNode(X86ISD::PMULUDQ, dl, VT, Alo, Blo);
▲ Show 20 Lines • Show All 5,183 Lines • ▼ Show 20 Lines	case X86ISD::VZEXT: {
KnownZero = KnownZero.zext(BitWidth);		KnownZero = KnownZero.zext(BitWidth);
KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - InBitWidth);		KnownZero \|= APInt::getHighBitsSet(BitWidth, BitWidth - InBitWidth);
break;		break;
}		}
}		}
}		}

unsigned X86TargetLowering::ComputeNumSignBitsForTargetNode(		unsigned X86TargetLowering::ComputeNumSignBitsForTargetNode(
SDValue Op, const SelectionDAG &, unsigned Depth) const {		SDValue Op, const SelectionDAG &DAG, unsigned Depth) const {
// SETCC_CARRY sets the dest to ~0 for true or 0 for false.		// SETCC_CARRY sets the dest to ~0 for true or 0 for false.
if (Op.getOpcode() == X86ISD::SETCC_CARRY)		if (Op.getOpcode() == X86ISD::SETCC_CARRY)
return Op.getScalarValueSizeInBits();		return Op.getScalarValueSizeInBits();

		if (Op.getOpcode() == X86ISD::VSEXT) {
		EVT VT = Op.getValueType();
		EVT SrcVT = Op.getOperand(0).getValueType();
		unsigned Tmp = DAG.ComputeNumSignBits(Op.getOperand(0), Depth + 1);
		Tmp += VT.getScalarSizeInBits() - SrcVT.getScalarSizeInBits();
		return Tmp;
		}

// Fallback case.		// Fallback case.
return 1;		return 1;
}		}

/// Returns true (and the GlobalValue and the offset) if the node is a		/// Returns true (and the GlobalValue and the offset) if the node is a
/// GlobalAddress + offset.		/// GlobalAddress + offset.
bool X86TargetLowering::isGAPlusOffset(SDNode *N,		bool X86TargetLowering::isGAPlusOffset(SDNode *N,
const GlobalValue* &GA,		const GlobalValue* &GA,
▲ Show 20 Lines • Show All 8,356 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/masked_gather_scatter.ll

Show First 20 Lines • Show All 451 Lines • ▼ Show 20 Lines
; Masked gather for agregate types		; Masked gather for agregate types
; Test9 and Test10 should give the same result (scalar and vector indices in GEP)		; Test9 and Test10 should give the same result (scalar and vector indices in GEP)


define <8 x i32> @test9(%struct.ST* %base, <8 x i64> %ind1, <8 x i32>%ind5) {		define <8 x i32> @test9(%struct.ST* %base, <8 x i64> %ind1, <8 x i32>%ind5) {
; KNL_64-LABEL: test9:		; KNL_64-LABEL: test9:
; KNL_64: # BB#0: # %entry		; KNL_64: # BB#0: # %entry
; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2		; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2
; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1
; KNL_64-NEXT: vpbroadcastq {{.*}}(%rip), %zmm3
; KNL_64-NEXT: vpmuludq %zmm3, %zmm1, %zmm4
; KNL_64-NEXT: vpsrlq $32, %zmm1, %zmm1
; KNL_64-NEXT: vpmuludq %zmm3, %zmm1, %zmm1
; KNL_64-NEXT: vpsllq $32, %zmm1, %zmm1
; KNL_64-NEXT: vpaddq %zmm1, %zmm4, %zmm1
; KNL_64-NEXT: vpbroadcastq {{.*}}(%rip), %zmm3		; KNL_64-NEXT: vpbroadcastq {{.*}}(%rip), %zmm3
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0
		; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1
		; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1
; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0		; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1		; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
; KNL_64-NEXT: kxnorw %k0, %k0, %k1		; KNL_64-NEXT: kxnorw %k0, %k0, %k1
; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test9:		; KNL_32-LABEL: test9:
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	entry:
%res = call <8 x i32 > @llvm.masked.gather.v8i32(<8 x i32*>%arrayidx, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)		%res = call <8 x i32 > @llvm.masked.gather.v8i32(<8 x i32*>%arrayidx, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <8 x i32> @test10(%struct.ST* %base, <8 x i64> %i1, <8 x i32>%ind5) {		define <8 x i32> @test10(%struct.ST* %base, <8 x i64> %i1, <8 x i32>%ind5) {
; KNL_64-LABEL: test10:		; KNL_64-LABEL: test10:
; KNL_64: # BB#0: # %entry		; KNL_64: # BB#0: # %entry
; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2		; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2
; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1
; KNL_64-NEXT: vpbroadcastq {{.*}}(%rip), %zmm3
; KNL_64-NEXT: vpmuludq %zmm3, %zmm1, %zmm4
; KNL_64-NEXT: vpsrlq $32, %zmm1, %zmm1
; KNL_64-NEXT: vpmuludq %zmm3, %zmm1, %zmm1
; KNL_64-NEXT: vpsllq $32, %zmm1, %zmm1
; KNL_64-NEXT: vpaddq %zmm1, %zmm4, %zmm1
; KNL_64-NEXT: vpbroadcastq {{.*}}(%rip), %zmm3		; KNL_64-NEXT: vpbroadcastq {{.*}}(%rip), %zmm3
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0
		; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1
		; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1
; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0		; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1		; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
; KNL_64-NEXT: kxnorw %k0, %k0, %k1		; KNL_64-NEXT: kxnorw %k0, %k0, %k1
; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test10:		; KNL_32-LABEL: test10:
▲ Show 20 Lines • Show All 1,517 Lines • ▼ Show 20 Lines
; SKX_32-NEXT: popl %ebp		; SKX_32-NEXT: popl %ebp
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
call void @llvm.masked.scatter.v16f64(<16 x double> %src0, <16 x double*> %ptrs, i32 4, <16 x i1> %mask)		call void @llvm.masked.scatter.v16f64(<16 x double> %src0, <16 x double*> %ptrs, i32 4, <16 x i1> %mask)
ret void		ret void
}		}
declare void @llvm.masked.scatter.v16f64(<16 x double> %src0, <16 x double*> %ptrs, i32, <16 x i1> %mask)		declare void @llvm.masked.scatter.v16f64(<16 x double> %src0, <16 x double*> %ptrs, i32, <16 x i1> %mask)

define <4 x i64> @test_pr28312(<4 x i64*> %p1, <4 x i1> %k, <4 x i1> %k2,<4 x i64> %d) {		define <4 x i64> @test_pr28312(<4 x i64*> %p1, <4 x i1> %k, <4 x i1> %k2,<4 x i64> %d) {
; SKX-LABEL: test_pr28312:
; SKX: # BB#0:
; SKX-NEXT: vpslld $31, %xmm1, %xmm1
; SKX-NEXT: vptestmd %xmm1, %xmm1, %k1
; SKX-NEXT: vpgatherqq (,%ymm0), %ymm1 {%k1}
; SKX-NEXT: vpaddq %ymm1, %ymm1, %ymm0
; SKX-NEXT: vpaddq %ymm0, %ymm1, %ymm0
; SKX-NEXT: retq
;
; KNL_64-LABEL: test_pr28312:		; KNL_64-LABEL: test_pr28312:
; KNL_64: # BB#0:		; KNL_64: # BB#0:
; KNL_64-NEXT: # kill: %YMM0<def> %YMM0<kill> %ZMM0<def>		; KNL_64-NEXT: # kill: %YMM0<def> %YMM0<kill> %ZMM0<def>
; KNL_64-NEXT: vpslld $31, %xmm1, %xmm1		; KNL_64-NEXT: vpslld $31, %xmm1, %xmm1
; KNL_64-NEXT: vpsrad $31, %xmm1, %xmm1		; KNL_64-NEXT: vpsrad $31, %xmm1, %xmm1
; KNL_64-NEXT: vpmovsxdq %xmm1, %ymm1		; KNL_64-NEXT: vpmovsxdq %xmm1, %ymm1
; KNL_64-NEXT: vpxord %zmm2, %zmm2, %zmm2		; KNL_64-NEXT: vpxord %zmm2, %zmm2, %zmm2
; KNL_64-NEXT: vinserti64x4 $0, %ymm1, %zmm2, %zmm1		; KNL_64-NEXT: vinserti64x4 $0, %ymm1, %zmm2, %zmm1
; KNL_64-NEXT: vpsllq $63, %zmm1, %zmm1		; KNL_64-NEXT: vpsllq $63, %zmm1, %zmm1
; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k1		; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k1
; KNL_64-NEXT: vpgatherqq (,%zmm0), %zmm1 {%k1}		; KNL_64-NEXT: vpgatherqq (,%zmm0), %zmm1 {%k1}
; KNL_64-NEXT: vpaddq %ymm1, %ymm1, %ymm0		; KNL_64-NEXT: vpaddq %ymm1, %ymm1, %ymm0
; KNL_64-NEXT: vpaddq %ymm0, %ymm1, %ymm0		; KNL_64-NEXT: vpaddq %ymm0, %ymm1, %ymm0
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
		;
		; SKX-LABEL: test_pr28312:
		; SKX: # BB#0:
		; SKX-NEXT: vpslld $31, %xmm1, %xmm1
		; SKX-NEXT: vptestmd %xmm1, %xmm1, %k1
		; SKX-NEXT: vpgatherqq (,%ymm0), %ymm1 {%k1}
		; SKX-NEXT: vpaddq %ymm1, %ymm1, %ymm0
		; SKX-NEXT: vpaddq %ymm0, %ymm1, %ymm0
		; SKX-NEXT: retq
%g1 = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %p1, i32 8, <4 x i1> %k, <4 x i64> undef)		%g1 = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %p1, i32 8, <4 x i1> %k, <4 x i64> undef)
%g2 = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %p1, i32 8, <4 x i1> %k, <4 x i64> undef)		%g2 = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %p1, i32 8, <4 x i1> %k, <4 x i64> undef)
%g3 = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %p1, i32 8, <4 x i1> %k, <4 x i64> undef)		%g3 = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %p1, i32 8, <4 x i1> %k, <4 x i64> undef)
%a = add <4 x i64> %g1, %g2		%a = add <4 x i64> %g1, %g2
%b = add <4 x i64> %a, %g3		%b = add <4 x i64> %a, %g3
ret <4 x i64> %b		ret <4 x i64> %b
}		}
declare <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*>, i32, <4 x i1>, <4 x i64>)		declare <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*>, i32, <4 x i1>, <4 x i64>)

llvm/trunk/test/CodeGen/X86/pmul.ll

	Show First 20 Lines • Show All 1,540 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pmuludq %xmm8, %xmm3			; SSE2-NEXT: pmuludq %xmm8, %xmm3
	; SSE2-NEXT: psllq $32, %xmm3			; SSE2-NEXT: psllq $32, %xmm3
	; SSE2-NEXT: paddq %xmm5, %xmm3			; SSE2-NEXT: paddq %xmm5, %xmm3
	; SSE2-NEXT: paddq %xmm4, %xmm3			; SSE2-NEXT: paddq %xmm4, %xmm3
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: mul_v8i64_sext:			; SSE41-LABEL: mul_v8i64_sext:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,1,2,3]
	; SSE41-NEXT: movdqa %xmm1, %xmm5			; SSE41-NEXT: pmovsxwq %xmm3, %xmm8
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxwq %xmm1, %xmm3			; SSE41-NEXT: pmovsxwq %xmm3, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; SSE41-NEXT: pmovsxwq %xmm1, %xmm1			; SSE41-NEXT: pmovsxwq %xmm3, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pmovsxwq %xmm0, %xmm5
	; SSE41-NEXT: pmovsxwq %xmm2, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
	; SSE41-NEXT: pmovsxwq %xmm0, %xmm0			; SSE41-NEXT: pmovsxdq %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[2,3,0,1]			; SSE41-NEXT: pmovsxdq %xmm2, %xmm2
	; SSE41-NEXT: pmovsxdq %xmm6, %xmm8			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[2,3,0,1]			; SSE41-NEXT: pmovsxdq %xmm0, %xmm4
	; SSE41-NEXT: pmovsxdq %xmm7, %xmm9			; SSE41-NEXT: pmovsxdq %xmm1, %xmm0
	; SSE41-NEXT: pmovsxdq %xmm4, %xmm4			; SSE41-NEXT: pmuldq %xmm5, %xmm0
	; SSE41-NEXT: pmovsxdq %xmm5, %xmm7			; SSE41-NEXT: pmuldq %xmm7, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm6			; SSE41-NEXT: pmuldq %xmm6, %xmm2
	; SSE41-NEXT: pmuludq %xmm7, %xmm6			; SSE41-NEXT: pmuldq %xmm8, %xmm3
	; SSE41-NEXT: movdqa %xmm7, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: psrlq $32, %xmm5
	; SSE41-NEXT: pmuludq %xmm0, %xmm5
	; SSE41-NEXT: psllq $32, %xmm5
	; SSE41-NEXT: psrlq $32, %xmm0
	; SSE41-NEXT: pmuludq %xmm7, %xmm0
	; SSE41-NEXT: psllq $32, %xmm0
	; SSE41-NEXT: paddq %xmm5, %xmm0
	; SSE41-NEXT: paddq %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm5
	; SSE41-NEXT: pmuludq %xmm4, %xmm5
	; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: psrlq $32, %xmm6
	; SSE41-NEXT: pmuludq %xmm2, %xmm6
	; SSE41-NEXT: psllq $32, %xmm6
	; SSE41-NEXT: psrlq $32, %xmm2
	; SSE41-NEXT: pmuludq %xmm4, %xmm2
	; SSE41-NEXT: psllq $32, %xmm2
	; SSE41-NEXT: paddq %xmm6, %xmm2
	; SSE41-NEXT: paddq %xmm5, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pmuludq %xmm9, %xmm4
	; SSE41-NEXT: movdqa %xmm9, %xmm5
	; SSE41-NEXT: psrlq $32, %xmm5
	; SSE41-NEXT: pmuludq %xmm1, %xmm5
	; SSE41-NEXT: psllq $32, %xmm5
	; SSE41-NEXT: psrlq $32, %xmm1
	; SSE41-NEXT: pmuludq %xmm9, %xmm1
	; SSE41-NEXT: psllq $32, %xmm1
	; SSE41-NEXT: paddq %xmm5, %xmm1
	; SSE41-NEXT: paddq %xmm4, %xmm1
	; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pmuludq %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm8, %xmm5
	; SSE41-NEXT: psrlq $32, %xmm5
	; SSE41-NEXT: pmuludq %xmm3, %xmm5
	; SSE41-NEXT: psllq $32, %xmm5
	; SSE41-NEXT: psrlq $32, %xmm3
	; SSE41-NEXT: pmuludq %xmm8, %xmm3
	; SSE41-NEXT: psllq $32, %xmm3
	; SSE41-NEXT: paddq %xmm5, %xmm3
	; SSE41-NEXT: paddq %xmm4, %xmm3
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX2-LABEL: mul_v8i64_sext:			; AVX2-LABEL: mul_v8i64_sext:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmovsxwq %xmm2, %ymm2			; AVX2-NEXT: vpmovsxwq %xmm2, %ymm2
	; AVX2-NEXT: vpmovsxwq %xmm0, %ymm0			; AVX2-NEXT: vpmovsxwq %xmm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm3			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm3
	; AVX2-NEXT: vpmovsxdq %xmm3, %ymm3			; AVX2-NEXT: vpmovsxdq %xmm3, %ymm3
	; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1			; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm4			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm5			; AVX2-NEXT: vpmuldq %ymm3, %ymm2, %ymm1
	; AVX2-NEXT: vpmuludq %ymm5, %ymm0, %ymm5
	; AVX2-NEXT: vpsllq $32, %ymm5, %ymm5
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm5, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm4, %ymm0
	; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm1
	; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm4
	; AVX2-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
	; AVX2-NEXT: vpsllq $32, %ymm4, %ymm4
	; AVX2-NEXT: vpsrlq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpaddq %ymm2, %ymm4, %ymm2
	; AVX2-NEXT: vpaddq %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v8i64_sext:			; AVX512-LABEL: mul_v8i64_sext:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vpmovsxwq %xmm0, %zmm0			; AVX512-NEXT: vpmovsxwq %xmm0, %zmm0
	; AVX512-NEXT: vpmovsxdq %ymm1, %zmm1			; AVX512-NEXT: vpmovsxdq %ymm1, %zmm1
	; AVX512-NEXT: vpmuludq %zmm1, %zmm0, %zmm2			; AVX512-NEXT: vpmuldq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512-NEXT: vpsllq $32, %zmm3, %zmm3
	; AVX512-NEXT: vpsrlq $32, %zmm0, %zmm0
	; AVX512-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsllq $32, %zmm0, %zmm0
	; AVX512-NEXT: vpaddq %zmm0, %zmm3, %zmm0
	; AVX512-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sext <8 x i16> %val1 to <8 x i64>			%1 = sext <8 x i16> %val1 to <8 x i64>
	%2 = sext <8 x i32> %val2 to <8 x i64>			%2 = sext <8 x i32> %val2 to <8 x i64>
	%3 = mul <8 x i64> %1, %2			%3 = mul <8 x i64> %1, %2
	ret <8 x i64> %3			ret <8 x i64> %3
	}			}

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 5,194 Lines • ▼ Show 20 Lines
	; AVX1-LABEL: mul_add_v4i64_v4i32:			; AVX1-LABEL: mul_add_v4i64_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxdq %xmm2, %xmm2			; AVX1-NEXT: vpmovsxdq %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0			; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxdq %xmm3, %xmm3			; AVX1-NEXT: vpmovsxdq %xmm3, %xmm3
	; AVX1-NEXT: vpmovsxdq %xmm1, %xmm1			; AVX1-NEXT: vpmovsxdq %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm4			; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm5			; AVX1-NEXT: vpmuldq %xmm3, %xmm2, %xmm1
	; AVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm5
	; AVX1-NEXT: vpsllq $32, %xmm5, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpmuludq %xmm3, %xmm2, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,2]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: mul_add_v4i64_v4i32:			; AVX2-LABEL: mul_add_v4i64_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpmovsxdq %xmm0, %ymm0			; AVX2-NEXT: vpmovsxdq %xmm0, %ymm0
	; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1			; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_add_v4i64_v4i32:			; AVX512-LABEL: mul_add_v4i64_v4i32:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vpmovsxdq %xmm0, %ymm0			; AVX512-NEXT: vpmovsxdq %xmm0, %ymm0
	; AVX512-NEXT: vpmovsxdq %xmm1, %ymm1			; AVX512-NEXT: vpmovsxdq %xmm1, %ymm1
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm2			; AVX512-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX512-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsllq $32, %ymm0, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: vpaddq %ymm0, %ymm2, %ymm0
	; AVX512-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX512-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sext <4 x i32> %a0 to <4 x i64>			%1 = sext <4 x i32> %a0 to <4 x i64>
	%2 = sext <4 x i32> %a1 to <4 x i64>			%2 = sext <4 x i32> %a1 to <4 x i64>
	%3 = mul <4 x i64> %1, %2			%3 = mul <4 x i64> %1, %2
	%4 = add <4 x i64> %3, <i64 -3, i64 -1, i64 1, i64 3>			%4 = add <4 x i64> %3, <i64 -3, i64 -1, i64 1, i64 3>
	%5 = trunc <4 x i64> %4 to <4 x i32>			%5 = trunc <4 x i64> %4 to <4 x i32>
	ret <4 x i32> %5			ret <4 x i32> %5
	}			}