This is an archive of the discontinued LLVM Phabricator instance.

[X86] Individually simplify both operands of PMULDQ/PMULUDQ using the other entry point of SimplifyDemandedBits that allows the one use check of the root node to be suppressed.
AbandonedPublic

Authored by craig.topper on Dec 22 2018, 9:57 PM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel
chandlerc

Summary

This entry point takes special care to avoid completely replacing the root node if it has multiple uses. Instead it will just use UpdateNodeOperands to only update the PMULDQ/PMULUDQ node. Not sure if that can create additional instructions in some cases.

This allows masking and sign_extend_inreg opcodes to be removed from the input of these operations.

Fixes PR40142.

Diff Detail

Repository

rL LLVM

Build Status

Buildable 26254
Build 26253: arc lint + arc unit

Event Timeline

craig.topper created this revision.Dec 22 2018, 9:57 PM

Harbormaster completed remote builds in B26252: Diff 179435.Dec 22 2018, 9:57 PM

Its really annoying that we have to do this but I can't see any other way.

lib/Target/X86/X86ISelLowering.cpp

41275

Add a comment explaining what we're we having to do here.

41278

Is it worth moving this code inside SimplifyDemandedBitsForTargetNode?

Wrap this in a for loop to reduce code?

for {int OpIdx  = 0; OpIdx != 2; ++OpIdx) {
    TargetLowering::TargetLoweringOpt TLO(DAG, !DCI.isBeforeLegalize(),
                                          !DCI.isBeforeLegalizeOps());
    if (TLI.SimplifyDemandedBits(N, OpIdx, DemandedMask, DCI, TLO)) {
      DCI.AddToWorklist(N);
      return SDValue(N, 0);
    }
}

Use for loop. Add comment.

Harbormaster completed remote builds in B26254: Diff 179450.Dec 23 2018, 10:07 AM

I am a little suspicious about these changes to the test results.

If these removals are all of redundant instructions that were added previously, I worry about how well people are checking the test result output. A large chunk of the code we are removing is from this: https://reviews.llvm.org/rL347181. As you can see, there are major changes to the test results, which, unless I am mistaken, passed without questioning whether these changes are a regression or an improvement. If nobody checks test results for regressions, why have tests at all?
I also worry that they might not return the correct result. I am especially concerned about the number of removed i64 vector multiplies.
Otherwise, if these all return the correct result, nice job.

In D56057#1340475, @easyaspi314 wrote:

I am a little suspicious about these changes to the test results.

If these removals are all of redundant instructions that were added previously, I worry about how well people are checking the test result output. A large chunk of the code we are removing is from this: https://reviews.llvm.org/rL347181. As you can see, there are major changes to the test results, which, unless I am mistaken, passed without questioning whether these changes are a regression or an improvement. If nobody checks test results for regressions, why have tests at all?

I think you'e referring to pmul.ll? rL347181 just replaced psrad $31 with pcmpgt. It changed the register allocation quite a bit which made the diff look large. But it didn't change the number of instructions other than copies and xors.

I also worry that they might not return the correct result. I am especially concerned about the number of removed i64 vector multiplies.

I'll take another look.

Otherwise, if these all return the correct result, nice job.

lib/Target/X86/X86ISelLowering.cpp
41278	I don't think that will work given the current implementation AssumeSingleUse. The code that does the replacement assumes that a node with multiple uses is the root node of the simplification.

LGTM - thanks

This revision is now accepted and ready to land.Dec 23 2018, 2:22 PM

Looking at the vector-reduce-mul.ll changes, I don't think this patch is valid. If the first node has multiple uses we can't propagate the input demanded bits to the next operation down.

craig.topper planned changes to this revision.Dec 23 2018, 3:22 PM

In D56057#1340502, @craig.topper wrote:

Looking at the vector-reduce-mul.ll changes, I don't think this patch is valid. If the first node has multiple uses we can't propagate the input demanded bits to the next operation down.

Yeah, I checked it. It's definitely broken.

Although, @RKSimon, that is a perfect example of what I was saying, not checking tests. You almost accepted a patch that broke multivector 64-bit multiplication completely.

I transpiled the assembly from the test results and ran a diff, and sure enough, broken.

    .text
    .globl test_v4i64
// long long test_v4i64(i64x2 xmm0, i64x2 xmm1)
test_v4i64:
#ifndef NEW
    movdqa %xmm0, %xmm2
    psrlq $32, %xmm2
    pmuludq %xmm1, %xmm2
    movdqa %xmm1, %xmm3
    psrlq $32, %xmm3
    pmuludq %xmm0, %xmm3
    paddq %xmm2, %xmm3
    psllq $32, %xmm3
#endif
    pmuludq %xmm1, %xmm0
#ifndef NEW
    paddq %xmm3, %xmm0
#endif
    pshufd $78, %xmm0, %xmm1 # xmm1 = xmm0[2,3,0,1]
    movdqa %xmm0, %xmm2
    psrlq $32, %xmm2
    pmuludq %xmm1, %xmm2
    movdqa %xmm0, %xmm3
    psrldq $12, %xmm3
    pmuludq %xmm0, %xmm3
    paddq %xmm2, %xmm3
    psllq $32, %xmm3
    pmuludq %xmm1, %xmm0
    paddq %xmm3, %xmm0
    movq %xmm0, %rax
    retq

#include <stdio.h>

typedef long long i64x2 __attribute__((vector_size(16)));
extern long long test_v4i64(i64x2 val1, i64x2 val2); // GCC passes a pointer if I emulate an i64x4

int main(void) {
    i64x2 test = { 1234567812345678LL, 2345678923456789LL },
          test2 = { 1314151617181910LL, 9694959695969798LL };
     printf ("%lld\n", test_v4i64(test, test2));
}

Compiled with GCC to avoid any LLVM-specific issues.

-UNEW: -7524135448842347520
-DNEW: 1393403030700022784

The really concerning thing is that this patch does the exact same thing that's done by simplifyI24 in AMDGPUISelLowering.cpp. I assume Simon like myself assumed that established infrastructure like that was doing the right thing and didn't question it too much.

In D56057#1340522, @craig.topper wrote:

The really concerning thing is that this patch does the exact same thing that's done by simplifyI24 in AMDGPUISelLowering.cpp. I assume Simon like myself assumed that established infrastructure like that was doing the right thing and didn't question it too much.

Ok. Well, unfortunately, that too is probably broken.

I would test it myself, but I only have integrated on a Sandy Bridge laptop.

The good thing is that we are catching it here. It could've been a lot worse. If this got into x86 world, it would go from a visual glitch to someone getting a bill for $4,294,967,295 because of an arithmetic bug in the compiler.

Sorry if I came off sounding like a jerk, by the way.

I understand that there are a lot of patches that come in, and checking the thousands of tests is time consuming, and I don't expect every single test to be read line for line.

I was just a little shocked when I saw this patch, with hundreds of lines removed from the test results, pass review without question, even after I had already expressed my concerns with it.

I'm sorry about that, I focussed on checking the earlier (and by looks of it easier) test cases - SimplifyDemandedBits patches tend to cause a lot of changes with a lot of interesting cases where it can throw away a lot of code. So I was expecting some changes like that and didn't look at them more critically.

The splitting version of SimplifyDemandedBits now scares me - I think the issue is that the TLO.Old.hasOneUse() code doesn't take into account that it might have gone through several other ops that had multiple uses but I haven't checked this yet.

xbolva00 added a reviewer: chandlerc.Dec 24 2018, 3:00 AM

The AssumeSingleUse code will only allow the root to have multiple uses. The issue is that if the root has multiple uses, the most you should be allowed to do is decide if the root node is necessary for the instruction that is using it and replace it with one of it operands in this use. No new nodes should be created. You cannot recurse into SimplifyDemandedBits any further. You can only use computeKnownBits to make the decision.

This is analogous to the code in InstCombines’s SimplifyMultipleUseDemandedBits.

Diffusion mentioned this in rL350059: [X86] Use GetDemandedBits to simplify the operands of PMULDQ/PMULUDQ..Dec 24 2018, 11:45 AM

Abandoning in favor of the implementation from rL350059

craig.topper mentioned this in D56087: [TargetLowering][AMDGPU] Remove the SimplifyDemandedBits function that takes a User and OpIdx. Stop using it in AMDGPU target for simplifyI24..Dec 26 2018, 11:19 AM

Diffusion mentioned this in rL350560: [TargetLowering][AMDGPU] Remove the SimplifyDemandedBits function that takes a….Jan 7 2019, 11:34 AM

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

15 lines

test/

CodeGen/

X86/

avx2-intrinsics-fast-isel.ll

9 lines

avx512-intrinsics-fast-isel.ll

37 lines

pmul.ll

109 lines

sse2-intrinsics-fast-isel.ll

28 lines

sse41-intrinsics-fast-isel.ll

17 lines

vector-mul.ll

18 lines

vector-reduce-mul-widen.ll

335 lines

vector-reduce-mul.ll

335 lines

Diff 179450

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 32,758 Lines • ▼ Show 20 Lines
	if (DAG.isConstantIntBuildVectorOrConstantInt(LHS) &&			if (DAG.isConstantIntBuildVectorOrConstantInt(LHS) &&
	!DAG.isConstantIntBuildVectorOrConstantInt(RHS))			!DAG.isConstantIntBuildVectorOrConstantInt(RHS))
	return DAG.getNode(N->getOpcode(), SDLoc(N), N->getValueType(0), RHS, LHS);			return DAG.getNode(N->getOpcode(), SDLoc(N), N->getValueType(0), RHS, LHS);

	// Multiply by zero.			// Multiply by zero.
	if (ISD::isBuildVectorAllZeros(RHS.getNode()))			if (ISD::isBuildVectorAllZeros(RHS.getNode()))
	return RHS;			return RHS;

	// PMULDQ/PMULUDQ only uses lower 32 bits from each vector element.			// PMULDQ/PMULUDQ only uses lower 32 bits from each vector element.
				RKSimonUnsubmitted Not Done Reply Inline Actions Add a comment explaining what we're we having to do here. RKSimon: Add a comment explaining what we're we having to do here.
				// We need to simplify each operand using the User/OpIdx signature which will
				// allow the first node to have multiple uses. This is important since the
				// PMULDQ/PMULUDQ IR pattern contains an and or sign_extend_inreg. We would
				RKSimonUnsubmitted Not Done Reply Inline Actions Is it worth moving this code inside SimplifyDemandedBitsForTargetNode? Wrap this in a for loop to reduce code? for {int OpIdx = 0; OpIdx != 2; ++OpIdx) { TargetLowering::TargetLoweringOpt TLO(DAG, !DCI.isBeforeLegalize(), !DCI.isBeforeLegalizeOps()); if (TLI.SimplifyDemandedBits(N, OpIdx, DemandedMask, DCI, TLO)) { DCI.AddToWorklist(N); return SDValue(N, 0); } } RKSimon: Is it worth moving this code inside SimplifyDemandedBitsForTargetNode? Wrap this in a for loop…
				craig.topperAuthorUnsubmitted Done Reply Inline Actions I don't think that will work given the current implementation AssumeSingleUse. The code that does the replacement assumes that a node with multiple uses is the root node of the simplification. craig.topper: I don't think that will work given the current implementation AssumeSingleUse. The code that…
				// like to bypass that even its used by multiple PMULDQ/PMULDUDQs.
	const TargetLowering &TLI = DAG.getTargetLoweringInfo();			const TargetLowering &TLI = DAG.getTargetLoweringInfo();
	if (TLI.SimplifyDemandedBits(SDValue(N, 0), APInt::getAllOnesValue(64), DCI))			APInt DemandedMask = APInt::getLowBitsSet(64, 32);
	return SDValue(N, 0);			for (unsigned OpIdx = 0; OpIdx != 2; ++OpIdx) {
				TargetLowering::TargetLoweringOpt TLO(DAG, !DCI.isBeforeLegalize(),
				!DCI.isBeforeLegalizeOps());
				if (TLI.SimplifyDemandedBits(N, OpIdx, DemandedMask, DCI, TLO)) {
				DCI.AddToWorklist(N);
				return SDValue(N, 0);
				}
				}

	return SDValue();			return SDValue();
	}			}

	SDValue X86TargetLowering::PerformDAGCombine(SDNode *N,			SDValue X86TargetLowering::PerformDAGCombine(SDNode *N,
	DAGCombinerInfo &DCI) const {			DAGCombinerInfo &DCI) const {
	SelectionDAG &DAG = DCI.DAG;			SelectionDAG &DAG = DCI.DAG;
	switch (N->getOpcode()) {			switch (N->getOpcode()) {
	▲ Show 20 Lines • Show All 1,236 Lines • Show Last 20 Lines

test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

Show First 20 Lines • Show All 1,817 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret{{[l\|q]}}
%bc = bitcast <16 x i16> %call to <4 x i64>		%bc = bitcast <16 x i16> %call to <4 x i64>
ret <4 x i64> %bc		ret <4 x i64> %bc
}		}
declare <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8>, <32 x i8>, i8) nounwind readnone		declare <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8>, <32 x i8>, i8) nounwind readnone

define <4 x i64> @test_mm256_mul_epi32(<4 x i64> %a0, <4 x i64> %a1) {		define <4 x i64> @test_mm256_mul_epi32(<4 x i64> %a0, <4 x i64> %a1) {
; CHECK-LABEL: test_mm256_mul_epi32:		; CHECK-LABEL: test_mm256_mul_epi32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpsllq $32, %ymm0, %ymm2
; CHECK-NEXT: vpsrad $31, %ymm2, %ymm2
; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7]
; CHECK-NEXT: vpsllq $32, %ymm1, %ymm2
; CHECK-NEXT: vpsrad $31, %ymm2, %ymm2
; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]
; CHECK-NEXT: vpmuldq %ymm1, %ymm0, %ymm0		; CHECK-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%A = shl <4 x i64> %a0, <i64 32, i64 32, i64 32, i64 32>		%A = shl <4 x i64> %a0, <i64 32, i64 32, i64 32, i64 32>
%A1 = ashr exact <4 x i64> %A, <i64 32, i64 32, i64 32, i64 32>		%A1 = ashr exact <4 x i64> %A, <i64 32, i64 32, i64 32, i64 32>
%B = shl <4 x i64> %a1, <i64 32, i64 32, i64 32, i64 32>		%B = shl <4 x i64> %a1, <i64 32, i64 32, i64 32, i64 32>
%B1 = ashr exact <4 x i64> %B, <i64 32, i64 32, i64 32, i64 32>		%B1 = ashr exact <4 x i64> %B, <i64 32, i64 32, i64 32, i64 32>
%res = mul nsw <4 x i64> %A1, %B1		%res = mul nsw <4 x i64> %A1, %B1
ret <4 x i64> %res		ret <4 x i64> %res
}		}
declare <4 x i64> @llvm.x86.avx2.pmul.dq(<8 x i32>, <8 x i32>) nounwind readnone		declare <4 x i64> @llvm.x86.avx2.pmul.dq(<8 x i32>, <8 x i32>) nounwind readnone

define <4 x i64> @test_mm256_mul_epu32(<4 x i64> %a0, <4 x i64> %a1) {		define <4 x i64> @test_mm256_mul_epu32(<4 x i64> %a0, <4 x i64> %a1) {
; CHECK-LABEL: test_mm256_mul_epu32:		; CHECK-LABEL: test_mm256_mul_epu32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpxor %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7]
; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]
; CHECK-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; CHECK-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%A = and <4 x i64> %a0, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%A = and <4 x i64> %a0, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%B = and <4 x i64> %a1, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%B = and <4 x i64> %a1, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%res = mul nuw <4 x i64> %A, %B		%res = mul nuw <4 x i64> %A, %B
ret <4 x i64> %res		ret <4 x i64> %res
}		}
declare <4 x i64> @llvm.x86.avx2.pmulu.dq(<8 x i32>, <8 x i32>) nounwind readnone		declare <4 x i64> @llvm.x86.avx2.pmulu.dq(<8 x i32>, <8 x i32>) nounwind readnone
▲ Show 20 Lines • Show All 820 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,645 Lines • ▼ Show 20 Lines
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%res = shufflevector <4 x i64> %a0, <4 x i64> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%res = shufflevector <4 x i64> %a0, <4 x i64> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
ret <8 x i64> %res		ret <8 x i64> %res
}		}

define <8 x i64> @test_mm512_mul_epi32(<8 x i64> %__A, <8 x i64> %__B) nounwind {		define <8 x i64> @test_mm512_mul_epi32(<8 x i64> %__A, <8 x i64> %__B) nounwind {
; CHECK-LABEL: test_mm512_mul_epi32:		; CHECK-LABEL: test_mm512_mul_epi32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpsllq $32, %zmm0, %zmm0
; CHECK-NEXT: vpsraq $32, %zmm0, %zmm0
; CHECK-NEXT: vpsllq $32, %zmm1, %zmm1
; CHECK-NEXT: vpsraq $32, %zmm1, %zmm1
; CHECK-NEXT: vpmuldq %zmm0, %zmm1, %zmm0		; CHECK-NEXT: vpmuldq %zmm0, %zmm1, %zmm0
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%tmp = shl <8 x i64> %__A, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>		%tmp = shl <8 x i64> %__A, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>
%tmp1 = ashr exact <8 x i64> %tmp, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>		%tmp1 = ashr exact <8 x i64> %tmp, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>
%tmp2 = shl <8 x i64> %__B, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>		%tmp2 = shl <8 x i64> %__B, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>
%tmp3 = ashr exact <8 x i64> %tmp2, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>		%tmp3 = ashr exact <8 x i64> %tmp2, <i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32, i64 32>
%tmp4 = mul nsw <8 x i64> %tmp3, %tmp1		%tmp4 = mul nsw <8 x i64> %tmp3, %tmp1
ret <8 x i64> %tmp4		ret <8 x i64> %tmp4
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	entry:
%5 = bitcast i8 %__k to <8 x i1>		%5 = bitcast i8 %__k to <8 x i1>
%6 = select <8 x i1> %5, <8 x i64> %4, <8 x i64> %__src		%6 = select <8 x i1> %5, <8 x i64> %4, <8 x i64> %__src
ret <8 x i64> %6		ret <8 x i64> %6
}		}

define <8 x i64> @test_mm512_mul_epu32(<8 x i64> %__A, <8 x i64> %__B) nounwind {		define <8 x i64> @test_mm512_mul_epu32(<8 x i64> %__A, <8 x i64> %__B) nounwind {
; CHECK-LABEL: test_mm512_mul_epu32:		; CHECK-LABEL: test_mm512_mul_epu32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: movw $-21846, %ax # imm = 0xAAAA
; CHECK-NEXT: kmovw %eax, %k0
; CHECK-NEXT: knotw %k0, %k1
; CHECK-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}
; CHECK-NEXT: vmovdqa32 %zmm1, %zmm1 {%k1} {z}
; CHECK-NEXT: vpmuludq %zmm0, %zmm1, %zmm0		; CHECK-NEXT: vpmuludq %zmm0, %zmm1, %zmm0
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%tmp = and <8 x i64> %__A, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%tmp = and <8 x i64> %__A, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%tmp1 = and <8 x i64> %__B, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%tmp1 = and <8 x i64> %__B, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%tmp2 = mul nuw <8 x i64> %tmp1, %tmp		%tmp2 = mul nuw <8 x i64> %tmp1, %tmp
ret <8 x i64> %tmp2		ret <8 x i64> %tmp2
}		}

▲ Show 20 Lines • Show All 4,743 Lines • ▼ Show 20 Lines
; X86-NEXT: vpmuludq %ymm1, %ymm2, %ymm2		; X86-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
; X86-NEXT: vpsrlq $32, %ymm1, %ymm3		; X86-NEXT: vpsrlq $32, %ymm1, %ymm3
; X86-NEXT: vpmuludq %ymm3, %ymm0, %ymm3		; X86-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
; X86-NEXT: vpaddq %ymm2, %ymm3, %ymm2		; X86-NEXT: vpaddq %ymm2, %ymm3, %ymm2
; X86-NEXT: vpsllq $32, %ymm2, %ymm2		; X86-NEXT: vpsllq $32, %ymm2, %ymm2
; X86-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; X86-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; X86-NEXT: vpaddq %ymm2, %ymm0, %ymm0		; X86-NEXT: vpaddq %ymm2, %ymm0, %ymm0
; X86-NEXT: vextracti128 $1, %ymm0, %xmm1		; X86-NEXT: vextracti128 $1, %ymm0, %xmm1
; X86-NEXT: vpsrlq $32, %xmm0, %xmm2
; X86-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
; X86-NEXT: vpsrlq $32, %xmm1, %xmm3
; X86-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X86-NEXT: vpsllq $32, %xmm2, %xmm2
; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0		; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0
; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; X86-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; X86-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; X86-NEXT: vpmuludq %xmm0, %xmm2, %xmm2		; X86-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
; X86-NEXT: vpsrlq $32, %xmm0, %xmm3		; X86-NEXT: vpsrlq $32, %xmm0, %xmm3
; X86-NEXT: vpmuludq %xmm3, %xmm1, %xmm3		; X86-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2		; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X86-NEXT: vpsllq $32, %xmm2, %xmm2		; X86-NEXT: vpsllq $32, %xmm2, %xmm2
; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0		; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
Show All 10 Lines
; X64-NEXT: vpmuludq %ymm1, %ymm2, %ymm2		; X64-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
; X64-NEXT: vpsrlq $32, %ymm1, %ymm3		; X64-NEXT: vpsrlq $32, %ymm1, %ymm3
; X64-NEXT: vpmuludq %ymm3, %ymm0, %ymm3		; X64-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
; X64-NEXT: vpaddq %ymm2, %ymm3, %ymm2		; X64-NEXT: vpaddq %ymm2, %ymm3, %ymm2
; X64-NEXT: vpsllq $32, %ymm2, %ymm2		; X64-NEXT: vpsllq $32, %ymm2, %ymm2
; X64-NEXT: vpmuludq %ymm1, %ymm0, %ymm0		; X64-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
; X64-NEXT: vpaddq %ymm2, %ymm0, %ymm0		; X64-NEXT: vpaddq %ymm2, %ymm0, %ymm0
; X64-NEXT: vextracti128 $1, %ymm0, %xmm1		; X64-NEXT: vextracti128 $1, %ymm0, %xmm1
; X64-NEXT: vpsrlq $32, %xmm0, %xmm2
; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
; X64-NEXT: vpsrlq $32, %xmm1, %xmm3
; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X64-NEXT: vpsllq $32, %xmm2, %xmm2
; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0		; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2		; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
; X64-NEXT: vpsrlq $32, %xmm0, %xmm3		; X64-NEXT: vpsrlq $32, %xmm0, %xmm3
; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3		; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2		; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X64-NEXT: vpsllq $32, %xmm2, %xmm2		; X64-NEXT: vpsllq $32, %xmm2, %xmm2
; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0		; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
; X86-NEXT: vpmuludq %ymm0, %ymm2, %ymm2		; X86-NEXT: vpmuludq %ymm0, %ymm2, %ymm2
; X86-NEXT: vpsrlq $32, %ymm0, %ymm3		; X86-NEXT: vpsrlq $32, %ymm0, %ymm3
; X86-NEXT: vpmuludq %ymm3, %ymm1, %ymm3		; X86-NEXT: vpmuludq %ymm3, %ymm1, %ymm3
; X86-NEXT: vpaddq %ymm2, %ymm3, %ymm2		; X86-NEXT: vpaddq %ymm2, %ymm3, %ymm2
; X86-NEXT: vpsllq $32, %ymm2, %ymm2		; X86-NEXT: vpsllq $32, %ymm2, %ymm2
; X86-NEXT: vpmuludq %ymm0, %ymm1, %ymm0		; X86-NEXT: vpmuludq %ymm0, %ymm1, %ymm0
; X86-NEXT: vpaddq %ymm2, %ymm0, %ymm0		; X86-NEXT: vpaddq %ymm2, %ymm0, %ymm0
; X86-NEXT: vextracti128 $1, %ymm0, %xmm1		; X86-NEXT: vextracti128 $1, %ymm0, %xmm1
; X86-NEXT: vpsrlq $32, %xmm0, %xmm2
; X86-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
; X86-NEXT: vpsrlq $32, %xmm1, %xmm3
; X86-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X86-NEXT: vpsllq $32, %xmm2, %xmm2
; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0		; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0
; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; X86-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; X86-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; X86-NEXT: vpmuludq %xmm0, %xmm2, %xmm2		; X86-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
; X86-NEXT: vpsrlq $32, %xmm0, %xmm3		; X86-NEXT: vpsrlq $32, %xmm0, %xmm3
; X86-NEXT: vpmuludq %xmm3, %xmm1, %xmm3		; X86-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2		; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X86-NEXT: vpsllq $32, %xmm2, %xmm2		; X86-NEXT: vpsllq $32, %xmm2, %xmm2
; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0		; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
Show All 13 Lines
; X64-NEXT: vpmuludq %ymm0, %ymm2, %ymm2		; X64-NEXT: vpmuludq %ymm0, %ymm2, %ymm2
; X64-NEXT: vpsrlq $32, %ymm0, %ymm3		; X64-NEXT: vpsrlq $32, %ymm0, %ymm3
; X64-NEXT: vpmuludq %ymm3, %ymm1, %ymm3		; X64-NEXT: vpmuludq %ymm3, %ymm1, %ymm3
; X64-NEXT: vpaddq %ymm2, %ymm3, %ymm2		; X64-NEXT: vpaddq %ymm2, %ymm3, %ymm2
; X64-NEXT: vpsllq $32, %ymm2, %ymm2		; X64-NEXT: vpsllq $32, %ymm2, %ymm2
; X64-NEXT: vpmuludq %ymm0, %ymm1, %ymm0		; X64-NEXT: vpmuludq %ymm0, %ymm1, %ymm0
; X64-NEXT: vpaddq %ymm2, %ymm0, %ymm0		; X64-NEXT: vpaddq %ymm2, %ymm0, %ymm0
; X64-NEXT: vextracti128 $1, %ymm0, %xmm1		; X64-NEXT: vextracti128 $1, %ymm0, %xmm1
; X64-NEXT: vpsrlq $32, %xmm0, %xmm2
; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
; X64-NEXT: vpsrlq $32, %xmm1, %xmm3
; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X64-NEXT: vpsllq $32, %xmm2, %xmm2
; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0		; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2		; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
; X64-NEXT: vpsrlq $32, %xmm0, %xmm3		; X64-NEXT: vpsrlq $32, %xmm0, %xmm3
; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3		; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2		; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
; X64-NEXT: vpsllq $32, %xmm2, %xmm2		; X64-NEXT: vpsllq $32, %xmm2, %xmm2
; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0		; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
▲ Show 20 Lines • Show All 3,060 Lines • Show Last 20 Lines

test/CodeGen/X86/pmul.ll

Show First 20 Lines • Show All 1,245 Lines • ▼ Show 20 Lines	entry:
%rescast = bitcast <8 x i64> %res64 to <16 x i32>		%rescast = bitcast <8 x i64> %res64 to <16 x i32>
%res = shufflevector <16 x i32> %rescast, <16 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7,i32 9, i32 11, i32 13, i32 15 >		%res = shufflevector <16 x i32> %rescast, <16 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7,i32 9, i32 11, i32 13, i32 15 >
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <8 x i64> @mul_v8i64_sext(<8 x i16> %val1, <8 x i32> %val2) {		define <8 x i64> @mul_v8i64_sext(<8 x i16> %val1, <8 x i32> %val2) {
; SSE2-LABEL: mul_v8i64_sext:		; SSE2-LABEL: mul_v8i64_sext:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm4		; SSE2-NEXT: movdqa %xmm2, %xmm11
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm10
		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: punpckhwd {{.*#+}} xmm7 = xmm7[4],xmm0[4],xmm7[5],xmm0[5],xmm7[6],xmm0[6],xmm7[7],xmm0[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm7 = xmm7[4],xmm0[4],xmm7[5],xmm0[5],xmm7[6],xmm0[6],xmm7[7],xmm0[7]
; SSE2-NEXT: pxor %xmm8, %xmm8		; SSE2-NEXT: pxor %xmm8, %xmm8
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: pcmpgtd %xmm7, %xmm2
; SSE2-NEXT: pcmpgtd %xmm0, %xmm3
; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE2-NEXT: pxor %xmm6, %xmm6
; SSE2-NEXT: pcmpgtd %xmm4, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm4, %xmm3
; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm8[0],xmm6[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm0, %xmm6
; SSE2-NEXT: paddq %xmm3, %xmm6
; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm5[0,2,2,3,4,5,6,7]
; SSE2-NEXT: pmuludq %xmm4, %xmm0
; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: pcmpgtd %xmm3, %xmm4
; SSE2-NEXT: psrad $16, %xmm3
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
; SSE2-NEXT: psllq $32, %xmm6
; SSE2-NEXT: paddq %xmm6, %xmm0
; SSE2-NEXT: pxor %xmm6, %xmm6
; SSE2-NEXT: pcmpgtd %xmm1, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm1, %xmm4
; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm8[0],xmm6[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm3, %xmm6
; SSE2-NEXT: paddq %xmm4, %xmm6
; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: pcmpgtd %xmm7, %xmm4
; SSE2-NEXT: psrad $16, %xmm7		; SSE2-NEXT: psrad $16, %xmm7
; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm4[0],xmm7[1],xmm4[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm2[0],xmm7[1],xmm2[1]
; SSE2-NEXT: pmuludq %xmm3, %xmm1		; SSE2-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1],xmm4[2],xmm0[2],xmm4[3],xmm0[3]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[2,3,0,1]		; SSE2-NEXT: pxor %xmm0, %xmm0
; SSE2-NEXT: psllq $32, %xmm6		; SSE2-NEXT: pcmpgtd %xmm4, %xmm0
; SSE2-NEXT: paddq %xmm6, %xmm1
; SSE2-NEXT: pxor %xmm6, %xmm6
; SSE2-NEXT: pcmpgtd %xmm2, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm8[0],xmm6[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm7, %xmm6
; SSE2-NEXT: paddq %xmm4, %xmm6
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,3,4,5,6,7]
; SSE2-NEXT: pmuludq %xmm7, %xmm2
; SSE2-NEXT: pxor %xmm5, %xmm5
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: psrad $16, %xmm4		; SSE2-NEXT: psrad $16, %xmm4
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1]
; SSE2-NEXT: psllq $32, %xmm6		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
; SSE2-NEXT: paddq %xmm6, %xmm2		; SSE2-NEXT: pshuflw {{.*#+}} xmm6 = xmm3[0,2,2,3,4,5,6,7]
; SSE2-NEXT: pxor %xmm6, %xmm6		; SSE2-NEXT: pxor %xmm3, %xmm3
; SSE2-NEXT: pcmpgtd %xmm3, %xmm6		; SSE2-NEXT: pcmpgtd %xmm6, %xmm3
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1]		; SSE2-NEXT: psrad $16, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm8[0],xmm5[1],xmm8[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm8[0],xmm6[1],xmm8[1]		; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm1[0,2,2,3,4,5,6,7]
; SSE2-NEXT: pmuludq %xmm3, %xmm5		; SSE2-NEXT: pxor %xmm1, %xmm1
; SSE2-NEXT: pmuludq %xmm4, %xmm6		; SSE2-NEXT: pcmpgtd %xmm5, %xmm1
; SSE2-NEXT: paddq %xmm5, %xmm6		; SSE2-NEXT: psrad $16, %xmm5
; SSE2-NEXT: pmuludq %xmm4, %xmm3		; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
; SSE2-NEXT: psllq $32, %xmm6		; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm11[2,1,3,3]
		; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm11[0,1,1,3]
		; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm10[2,1,3,3]
		; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm10[0,1,1,3]
		; SSE2-NEXT: pmuludq %xmm10, %xmm4
		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1]
		; SSE2-NEXT: pmuludq %xmm10, %xmm0
		; SSE2-NEXT: psllq $32, %xmm0
		; SSE2-NEXT: paddq %xmm4, %xmm0
		; SSE2-NEXT: pmuludq %xmm12, %xmm5
		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[1],xmm8[1]
		; SSE2-NEXT: pmuludq %xmm12, %xmm1
		; SSE2-NEXT: psllq $32, %xmm1
		; SSE2-NEXT: paddq %xmm5, %xmm1
		; SSE2-NEXT: pmuludq %xmm11, %xmm7
		; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1]
		; SSE2-NEXT: pmuludq %xmm11, %xmm2
		; SSE2-NEXT: psllq $32, %xmm2
		; SSE2-NEXT: paddq %xmm7, %xmm2
		; SSE2-NEXT: pmuludq %xmm9, %xmm6
		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1]
		; SSE2-NEXT: pmuludq %xmm9, %xmm3
		; SSE2-NEXT: psllq $32, %xmm3
; SSE2-NEXT: paddq %xmm6, %xmm3		; SSE2-NEXT: paddq %xmm6, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mul_v8i64_sext:		; SSE41-LABEL: mul_v8i64_sext:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,1,2,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,1,2,3]
; SSE41-NEXT: pmovsxwq %xmm3, %xmm4		; SSE41-NEXT: pmovsxwq %xmm3, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 2,752 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vmovmskpd %xmm0, %eax # encoding: [0xc5,0xf9,0x50,0xc0]			; AVX-NEXT: vmovmskpd %xmm0, %eax # encoding: [0xc5,0xf9,0x50,0xc0]
	; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	%res = call i32 @llvm.x86.sse2.movmsk.pd(<2 x double> %a0)			%res = call i32 @llvm.x86.sse2.movmsk.pd(<2 x double> %a0)
	ret i32 %res			ret i32 %res
	}			}
	declare i32 @llvm.x86.sse2.movmsk.pd(<2 x double>) nounwind readnone			declare i32 @llvm.x86.sse2.movmsk.pd(<2 x double>) nounwind readnone

	define <2 x i64> @test_mm_mul_epu32(<2 x i64> %a0, <2 x i64> %a1) nounwind {			define <2 x i64> @test_mm_mul_epu32(<2 x i64> %a0, <2 x i64> %a1) nounwind {
	; X86-SSE-LABEL: test_mm_mul_epu32:			; SSE-LABEL: test_mm_mul_epu32:
	; X86-SSE: # %bb.0:			; SSE: # %bb.0:
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]			; SSE-NEXT: pmuludq %xmm1, %xmm0 # encoding: [0x66,0x0f,0xf4,0xc1]
	; X86-SSE-NEXT: # encoding: [0x66,0x0f,0x6f,0x15,A,A,A,A]			; SSE-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	; X86-SSE-NEXT: # fixup A - offset: 4, value: {{\.LCPI.*}}, kind: FK_Data_4
	; X86-SSE-NEXT: pand %xmm2, %xmm0 # encoding: [0x66,0x0f,0xdb,0xc2]
	; X86-SSE-NEXT: pand %xmm2, %xmm1 # encoding: [0x66,0x0f,0xdb,0xca]
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm0 # encoding: [0x66,0x0f,0xf4,0xc1]
	; X86-SSE-NEXT: retl # encoding: [0xc3]
	;			;
	; AVX1-LABEL: test_mm_mul_epu32:			; AVX1-LABEL: test_mm_mul_epu32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2 # encoding: [0xc5,0xe9,0xef,0xd2]
	; AVX1-NEXT: vpblendw $204, %xmm2, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x0e,0xc2,0xcc]
	; AVX1-NEXT: # xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpblendw $204, %xmm2, %xmm1, %xmm1 # encoding: [0xc4,0xe3,0x71,0x0e,0xca,0xcc]
	; AVX1-NEXT: # xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xf4,0xc1]			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xf4,0xc1]
	; AVX1-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; AVX1-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	;			;
	; AVX512-LABEL: test_mm_mul_epu32:			; AVX512-LABEL: test_mm_mul_epu32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2 # EVEX TO VEX Compression encoding: [0xc5,0xe9,0xef,0xd2]			; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2 # EVEX TO VEX Compression encoding: [0xc5,0xe9,0xef,0xd2]
	; AVX512-NEXT: vpblendd $10, %xmm2, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x02,0xc2,0x0a]			; AVX512-NEXT: vpblendd $10, %xmm2, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x02,0xc2,0x0a]
	; AVX512-NEXT: # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512-NEXT: # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX512-NEXT: vpblendd $10, %xmm2, %xmm1, %xmm1 # encoding: [0xc4,0xe3,0x71,0x02,0xca,0x0a]			; AVX512-NEXT: vpblendd $10, %xmm2, %xmm1, %xmm1 # encoding: [0xc4,0xe3,0x71,0x02,0xca,0x0a]
	; AVX512-NEXT: # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX512-NEXT: # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX512-NEXT: vpmullq %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0xfd,0x08,0x40,0xc1]			; AVX512-NEXT: vpmullq %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0xfd,0x08,0x40,0xc1]
	; AVX512-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; AVX512-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	;
	; X64-SSE-LABEL: test_mm_mul_epu32:
	; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]
	; X64-SSE-NEXT: # encoding: [0x66,0x0f,0x6f,0x15,A,A,A,A]
	; X64-SSE-NEXT: # fixup A - offset: 4, value: {{\.LCPI.*}}-4, kind: reloc_riprel_4byte
	; X64-SSE-NEXT: pand %xmm2, %xmm0 # encoding: [0x66,0x0f,0xdb,0xc2]
	; X64-SSE-NEXT: pand %xmm2, %xmm1 # encoding: [0x66,0x0f,0xdb,0xca]
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm0 # encoding: [0x66,0x0f,0xf4,0xc1]
	; X64-SSE-NEXT: retq # encoding: [0xc3]
	%A = and <2 x i64> %a0, <i64 4294967295, i64 4294967295>			%A = and <2 x i64> %a0, <i64 4294967295, i64 4294967295>
	%B = and <2 x i64> %a1, <i64 4294967295, i64 4294967295>			%B = and <2 x i64> %a1, <i64 4294967295, i64 4294967295>
	%res = mul nuw <2 x i64> %A, %B			%res = mul nuw <2 x i64> %A, %B
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <2 x double> @test_mm_mul_pd(<2 x double> %a0, <2 x double> %a1) nounwind {			define <2 x double> @test_mm_mul_pd(<2 x double> %a0, <2 x double> %a1) nounwind {
	; SSE-LABEL: test_mm_mul_pd:			; SSE-LABEL: test_mm_mul_pd:
	▲ Show 20 Lines • Show All 3,906 Lines • Show Last 20 Lines

test/CodeGen/X86/sse41-intrinsics-fast-isel.ll

Show First 20 Lines • Show All 826 Lines • ▼ Show 20 Lines	; AVX-NEXT: ret{{[l\|q]}}
%bc = bitcast <8 x i16> %res to <2 x i64>		%bc = bitcast <8 x i16> %res to <2 x i64>
ret <2 x i64> %bc		ret <2 x i64> %bc
}		}
declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i8) nounwind readnone		declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i8) nounwind readnone

define <2 x i64> @test_mm_mul_epi32(<2 x i64> %a0, <2 x i64> %a1) {		define <2 x i64> @test_mm_mul_epi32(<2 x i64> %a0, <2 x i64> %a1) {
; SSE-LABEL: test_mm_mul_epi32:		; SSE-LABEL: test_mm_mul_epi32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movdqa %xmm0, %xmm2		; SSE-NEXT: pmuldq %xmm1, %xmm0
; SSE-NEXT: psllq $32, %xmm2
; SSE-NEXT: psrad $31, %xmm2
; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: psllq $32, %xmm0
; SSE-NEXT: psrad $31, %xmm0
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
; SSE-NEXT: pmuldq %xmm0, %xmm2
; SSE-NEXT: movdqa %xmm2, %xmm0
; SSE-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;		;
; AVX1-LABEL: test_mm_mul_epi32:		; AVX1-LABEL: test_mm_mul_epi32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpsllq $32, %xmm0, %xmm2
; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpsllq $32, %xmm1, %xmm2
; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: ret{{[l\|q]}}		; AVX1-NEXT: ret{{[l\|q]}}
;		;
; AVX512-LABEL: test_mm_mul_epi32:		; AVX512-LABEL: test_mm_mul_epi32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512-NEXT: vpsraq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsraq $32, %xmm0, %xmm0
; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1
▲ Show 20 Lines • Show All 242 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-mul.ll

Show First 20 Lines • Show All 450 Lines • ▼ Show 20 Lines

;		;
; PowOf2 + 1 (non-uniform)		; PowOf2 + 1 (non-uniform)
;		;

define <2 x i64> @mul_v2i64_17_65(<2 x i64> %a0) nounwind {		define <2 x i64> @mul_v2i64_17_65(<2 x i64> %a0) nounwind {
; X86-LABEL: mul_v2i64_17_65:		; X86-LABEL: mul_v2i64_17_65:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movdqa {{.*#+}} xmm1 = [17,0,65,0]		; X86-NEXT: movdqa {{.*#+}} xmm1 = <17,u,65,u>
; X86-NEXT: movdqa %xmm0, %xmm2		; X86-NEXT: movdqa %xmm0, %xmm2
; X86-NEXT: pmuludq %xmm1, %xmm2		; X86-NEXT: pmuludq %xmm1, %xmm2
; X86-NEXT: psrlq $32, %xmm0		; X86-NEXT: psrlq $32, %xmm0
; X86-NEXT: pmuludq %xmm1, %xmm0		; X86-NEXT: pmuludq %xmm1, %xmm0
; X86-NEXT: psllq $32, %xmm0		; X86-NEXT: psllq $32, %xmm0
; X86-NEXT: paddq %xmm2, %xmm0		; X86-NEXT: paddq %xmm2, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
▲ Show 20 Lines • Show All 324 Lines • ▼ Show 20 Lines

;		;
; PowOf2 - 1 (non-uniform)		; PowOf2 - 1 (non-uniform)
;		;

define <2 x i64> @mul_v2i64_15_63(<2 x i64> %a0) nounwind {		define <2 x i64> @mul_v2i64_15_63(<2 x i64> %a0) nounwind {
; X86-LABEL: mul_v2i64_15_63:		; X86-LABEL: mul_v2i64_15_63:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movdqa {{.*#+}} xmm1 = [15,0,63,0]		; X86-NEXT: movdqa {{.*#+}} xmm1 = <15,u,63,u>
; X86-NEXT: movdqa %xmm0, %xmm2		; X86-NEXT: movdqa %xmm0, %xmm2
; X86-NEXT: pmuludq %xmm1, %xmm2		; X86-NEXT: pmuludq %xmm1, %xmm2
; X86-NEXT: psrlq $32, %xmm0		; X86-NEXT: psrlq $32, %xmm0
; X86-NEXT: pmuludq %xmm1, %xmm0		; X86-NEXT: pmuludq %xmm1, %xmm0
; X86-NEXT: psllq $32, %xmm0		; X86-NEXT: psllq $32, %xmm0
; X86-NEXT: paddq %xmm2, %xmm0		; X86-NEXT: paddq %xmm2, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
Show All 23 Lines

define <2 x i64> @mul_v2i64_neg_15_63(<2 x i64> %a0) nounwind {		define <2 x i64> @mul_v2i64_neg_15_63(<2 x i64> %a0) nounwind {
; X86-LABEL: mul_v2i64_neg_15_63:		; X86-LABEL: mul_v2i64_neg_15_63:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: pcmpeqd %xmm1, %xmm1		; X86-NEXT: pcmpeqd %xmm1, %xmm1
; X86-NEXT: pmuludq %xmm0, %xmm1		; X86-NEXT: pmuludq %xmm0, %xmm1
; X86-NEXT: movdqa %xmm0, %xmm2		; X86-NEXT: movdqa %xmm0, %xmm2
; X86-NEXT: psrlq $32, %xmm2		; X86-NEXT: psrlq $32, %xmm2
; X86-NEXT: movdqa {{.*#+}} xmm3 = [4294967281,4294967295,4294967233,4294967295]		; X86-NEXT: movdqa {{.*#+}} xmm3 = <4294967281,u,4294967233,u>
; X86-NEXT: pmuludq %xmm3, %xmm2		; X86-NEXT: pmuludq %xmm3, %xmm2
; X86-NEXT: paddq %xmm1, %xmm2		; X86-NEXT: paddq %xmm1, %xmm2
; X86-NEXT: psllq $32, %xmm2		; X86-NEXT: psllq $32, %xmm2
; X86-NEXT: pmuludq %xmm3, %xmm0		; X86-NEXT: pmuludq %xmm3, %xmm0
; X86-NEXT: paddq %xmm2, %xmm0		; X86-NEXT: paddq %xmm2, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: mul_v2i64_neg_15_63:		; X64-LABEL: mul_v2i64_neg_15_63:
Show All 27 Lines

define <2 x i64> @mul_v2i64_neg_17_65(<2 x i64> %a0) nounwind {		define <2 x i64> @mul_v2i64_neg_17_65(<2 x i64> %a0) nounwind {
; X86-LABEL: mul_v2i64_neg_17_65:		; X86-LABEL: mul_v2i64_neg_17_65:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: pcmpeqd %xmm1, %xmm1		; X86-NEXT: pcmpeqd %xmm1, %xmm1
; X86-NEXT: pmuludq %xmm0, %xmm1		; X86-NEXT: pmuludq %xmm0, %xmm1
; X86-NEXT: movdqa %xmm0, %xmm2		; X86-NEXT: movdqa %xmm0, %xmm2
; X86-NEXT: psrlq $32, %xmm2		; X86-NEXT: psrlq $32, %xmm2
; X86-NEXT: movdqa {{.*#+}} xmm3 = [4294967279,4294967295,4294967231,4294967295]		; X86-NEXT: movdqa {{.*#+}} xmm3 = <4294967279,u,4294967231,u>
; X86-NEXT: pmuludq %xmm3, %xmm2		; X86-NEXT: pmuludq %xmm3, %xmm2
; X86-NEXT: paddq %xmm1, %xmm2		; X86-NEXT: paddq %xmm1, %xmm2
; X86-NEXT: psllq $32, %xmm2		; X86-NEXT: psllq $32, %xmm2
; X86-NEXT: pmuludq %xmm3, %xmm0		; X86-NEXT: pmuludq %xmm3, %xmm0
; X86-NEXT: paddq %xmm2, %xmm0		; X86-NEXT: paddq %xmm2, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: mul_v2i64_neg_17_65:		; X64-LABEL: mul_v2i64_neg_17_65:
Show All 23 Lines
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <2 x i64> %a0, <i64 -17, i64 -65>		%1 = mul <2 x i64> %a0, <i64 -17, i64 -65>
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <2 x i64> @mul_v2i64_0_1(<2 x i64> %a0) nounwind {		define <2 x i64> @mul_v2i64_0_1(<2 x i64> %a0) nounwind {
; X86-LABEL: mul_v2i64_0_1:		; X86-LABEL: mul_v2i64_0_1:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movdqa {{.*#+}} xmm1 = [0,0,1,0]		; X86-NEXT: movdqa {{.*#+}} xmm1 = <0,u,1,u>
; X86-NEXT: movdqa %xmm0, %xmm2		; X86-NEXT: movdqa %xmm0, %xmm2
; X86-NEXT: pmuludq %xmm1, %xmm2		; X86-NEXT: pmuludq %xmm1, %xmm2
; X86-NEXT: psrlq $32, %xmm0		; X86-NEXT: psrlq $32, %xmm0
; X86-NEXT: pmuludq %xmm1, %xmm0		; X86-NEXT: pmuludq %xmm1, %xmm0
; X86-NEXT: psllq $32, %xmm0		; X86-NEXT: psllq $32, %xmm0
; X86-NEXT: paddq %xmm2, %xmm0		; X86-NEXT: paddq %xmm2, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
Show All 25 Lines	; X64-AVX-NEXT: retq
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <2 x i64> @mul_v2i64_neg_0_1(<2 x i64> %a0) nounwind {		define <2 x i64> @mul_v2i64_neg_0_1(<2 x i64> %a0) nounwind {
; X86-LABEL: mul_v2i64_neg_0_1:		; X86-LABEL: mul_v2i64_neg_0_1:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movdqa %xmm0, %xmm1		; X86-NEXT: movdqa %xmm0, %xmm1
; X86-NEXT: psrlq $32, %xmm1		; X86-NEXT: psrlq $32, %xmm1
; X86-NEXT: movdqa {{.*#+}} xmm2 = [0,0,4294967295,4294967295]		; X86-NEXT: movdqa {{.*#+}} xmm2 = <0,u,4294967295,u>
; X86-NEXT: pmuludq %xmm2, %xmm1		; X86-NEXT: pmuludq %xmm2, %xmm1
; X86-NEXT: movdqa %xmm2, %xmm3		; X86-NEXT: movdqa %xmm2, %xmm3
; X86-NEXT: psrlq $32, %xmm3		; X86-NEXT: psrlq $32, %xmm3
; X86-NEXT: pmuludq %xmm0, %xmm3		; X86-NEXT: pmuludq %xmm0, %xmm3
; X86-NEXT: paddq %xmm1, %xmm3		; X86-NEXT: paddq %xmm1, %xmm3
; X86-NEXT: psllq $32, %xmm3		; X86-NEXT: psllq $32, %xmm3
; X86-NEXT: pmuludq %xmm2, %xmm0		; X86-NEXT: pmuludq %xmm2, %xmm0
; X86-NEXT: paddq %xmm3, %xmm0		; X86-NEXT: paddq %xmm3, %xmm0
Show All 37 Lines	; X64-AVX-NEXT: retq
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <2 x i64> @mul_v2i64_15_neg_63(<2 x i64> %a0) nounwind {		define <2 x i64> @mul_v2i64_15_neg_63(<2 x i64> %a0) nounwind {
; X86-LABEL: mul_v2i64_15_neg_63:		; X86-LABEL: mul_v2i64_15_neg_63:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movdqa %xmm0, %xmm1		; X86-NEXT: movdqa %xmm0, %xmm1
; X86-NEXT: psrlq $32, %xmm1		; X86-NEXT: psrlq $32, %xmm1
; X86-NEXT: movdqa {{.*#+}} xmm2 = [15,0,4294967233,4294967295]		; X86-NEXT: movdqa {{.*#+}} xmm2 = <15,u,4294967233,u>
; X86-NEXT: pmuludq %xmm2, %xmm1		; X86-NEXT: pmuludq %xmm2, %xmm1
; X86-NEXT: movdqa %xmm2, %xmm3		; X86-NEXT: movdqa %xmm2, %xmm3
; X86-NEXT: psrlq $32, %xmm3		; X86-NEXT: psrlq $32, %xmm3
; X86-NEXT: pmuludq %xmm0, %xmm3		; X86-NEXT: pmuludq %xmm0, %xmm3
; X86-NEXT: paddq %xmm1, %xmm3		; X86-NEXT: paddq %xmm1, %xmm3
; X86-NEXT: psllq $32, %xmm3		; X86-NEXT: psllq $32, %xmm3
; X86-NEXT: pmuludq %xmm2, %xmm0		; X86-NEXT: pmuludq %xmm2, %xmm0
; X86-NEXT: paddq %xmm3, %xmm0		; X86-NEXT: paddq %xmm3, %xmm0
▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
%1 = mul <16 x i8> %a0, <i8 0, i8 1, i8 3, i8 7, i8 15, i8 31, i8 63, i8 127, i8 0, i8 1, i8 3, i8 7, i8 15, i8 31, i8 63, i8 127>		%1 = mul <16 x i8> %a0, <i8 0, i8 1, i8 3, i8 7, i8 15, i8 31, i8 63, i8 127, i8 0, i8 1, i8 3, i8 7, i8 15, i8 31, i8 63, i8 127>
ret <16 x i8> %1		ret <16 x i8> %1
}		}

define <2 x i64> @mul_v2i64_68_132(<2 x i64> %x) nounwind {		define <2 x i64> @mul_v2i64_68_132(<2 x i64> %x) nounwind {
; X86-LABEL: mul_v2i64_68_132:		; X86-LABEL: mul_v2i64_68_132:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movdqa {{.*#+}} xmm1 = [68,0,132,0]		; X86-NEXT: movdqa {{.*#+}} xmm1 = <68,u,132,u>
; X86-NEXT: movdqa %xmm0, %xmm2		; X86-NEXT: movdqa %xmm0, %xmm2
; X86-NEXT: pmuludq %xmm1, %xmm2		; X86-NEXT: pmuludq %xmm1, %xmm2
; X86-NEXT: psrlq $32, %xmm0		; X86-NEXT: psrlq $32, %xmm0
; X86-NEXT: pmuludq %xmm1, %xmm0		; X86-NEXT: pmuludq %xmm1, %xmm0
; X86-NEXT: psllq $32, %xmm0		; X86-NEXT: psllq $32, %xmm0
; X86-NEXT: paddq %xmm2, %xmm0		; X86-NEXT: paddq %xmm2, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
Show All 19 Lines
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%mul = mul <2 x i64> %x, <i64 68, i64 132>		%mul = mul <2 x i64> %x, <i64 68, i64 132>
ret <2 x i64> %mul		ret <2 x i64> %mul
}		}

define <2 x i64> @mul_v2i64_60_120(<2 x i64> %x) nounwind {		define <2 x i64> @mul_v2i64_60_120(<2 x i64> %x) nounwind {
; X86-LABEL: mul_v2i64_60_120:		; X86-LABEL: mul_v2i64_60_120:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movdqa {{.*#+}} xmm1 = [60,0,124,0]		; X86-NEXT: movdqa {{.*#+}} xmm1 = <60,u,124,u>
; X86-NEXT: movdqa %xmm0, %xmm2		; X86-NEXT: movdqa %xmm0, %xmm2
; X86-NEXT: pmuludq %xmm1, %xmm2		; X86-NEXT: pmuludq %xmm1, %xmm2
; X86-NEXT: psrlq $32, %xmm0		; X86-NEXT: psrlq $32, %xmm0
; X86-NEXT: pmuludq %xmm1, %xmm0		; X86-NEXT: pmuludq %xmm1, %xmm0
; X86-NEXT: psllq $32, %xmm0		; X86-NEXT: psllq $32, %xmm0
; X86-NEXT: paddq %xmm2, %xmm0		; X86-NEXT: paddq %xmm2, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
▲ Show 20 Lines • Show All 115 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-mul-widen.ll

	Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v4i64(<4 x i64> %a0) {			define i64 @test_v4i64(<4 x i64> %a0) {
	; SSE-LABEL: test_v4i64:			; SSE-LABEL: test_v4i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v4i64:			; AVX512BW-LABEL: test_v4i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX512BW-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX512BW-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v4i64:			; AVX512BWVL-LABEL: test_v4i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	Show All 24 Lines
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm1, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm3, %xmm4
	; SSE-NEXT: movdqa %xmm3, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm1, %xmm5
	; SSE-NEXT: paddq %xmm4, %xmm5
	; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm3, %xmm1			; SSE-NEXT: pmuludq %xmm3, %xmm1
	; SSE-NEXT: paddq %xmm5, %xmm1
	; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm0, %xmm4
	; SSE-NEXT: paddq %xmm3, %xmm4
	; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm2, %xmm0			; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: paddq %xmm4, %xmm0
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm4
	; AVX1-NEXT: vpmuludq %xmm2, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm5
	; AVX1-NEXT: vpmuludq %xmm5, %xmm3, %xmm5
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm4
	; AVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8i64:			; AVX512BW-LABEL: test_v8i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v8i64:			; AVX512BWVL-LABEL: test_v8i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	Show All 27 Lines
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v16i64(<16 x i64> %a0) {			define i64 @test_v16i64(<16 x i64> %a0) {
	; SSE-LABEL: test_v16i64:			; SSE-LABEL: test_v16i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm2, %xmm8
	; SSE-NEXT: psrlq $32, %xmm8
	; SSE-NEXT: pmuludq %xmm6, %xmm8
	; SSE-NEXT: movdqa %xmm6, %xmm9
	; SSE-NEXT: psrlq $32, %xmm9
	; SSE-NEXT: pmuludq %xmm2, %xmm9
	; SSE-NEXT: paddq %xmm8, %xmm9
	; SSE-NEXT: psllq $32, %xmm9
	; SSE-NEXT: pmuludq %xmm6, %xmm2			; SSE-NEXT: pmuludq %xmm6, %xmm2
	; SSE-NEXT: paddq %xmm9, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm8
	; SSE-NEXT: psrlq $32, %xmm8
	; SSE-NEXT: pmuludq %xmm4, %xmm8
	; SSE-NEXT: movdqa %xmm4, %xmm6
	; SSE-NEXT: psrlq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm0, %xmm6
	; SSE-NEXT: paddq %xmm8, %xmm6
	; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm4, %xmm0			; SSE-NEXT: pmuludq %xmm4, %xmm0
	; SSE-NEXT: paddq %xmm6, %xmm0			; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: movdqa %xmm3, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm7, %xmm4
	; SSE-NEXT: movdqa %xmm7, %xmm6
	; SSE-NEXT: psrlq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm3, %xmm6
	; SSE-NEXT: paddq %xmm4, %xmm6
	; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm7, %xmm3			; SSE-NEXT: pmuludq %xmm7, %xmm3
	; SSE-NEXT: paddq %xmm6, %xmm3
	; SSE-NEXT: movdqa %xmm1, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm5, %xmm4
	; SSE-NEXT: movdqa %xmm5, %xmm6
	; SSE-NEXT: psrlq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm1, %xmm6
	; SSE-NEXT: paddq %xmm4, %xmm6
	; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm5, %xmm1			; SSE-NEXT: pmuludq %xmm5, %xmm1
	; SSE-NEXT: paddq %xmm6, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm3, %xmm4
	; SSE-NEXT: movdqa %xmm3, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm1, %xmm5
	; SSE-NEXT: paddq %xmm4, %xmm5
	; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm3, %xmm1			; SSE-NEXT: pmuludq %xmm3, %xmm1
	; SSE-NEXT: paddq %xmm5, %xmm1			; SSE-NEXT: pmuludq %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: psrlq $32, %xmm3			; SSE-NEXT: movdqa %xmm1, %xmm2
	; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm0, %xmm4
	; SSE-NEXT: paddq %xmm3, %xmm4
	; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: paddq %xmm4, %xmm0
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm0, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm1, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm0, %xmm1
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm1
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4			; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm4
	; AVX1-NEXT: vpmuludq %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm5			; AVX1-NEXT: vpmuludq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm5
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm5
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm5
	; AVX1-NEXT: vpmuludq %xmm2, %xmm5, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm6
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm6
	; AVX1-NEXT: vpaddq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vpsllq $32, %xmm5, %xmm5
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm6
	; AVX1-NEXT: vpaddq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm6
	; AVX1-NEXT: vpmuludq %xmm3, %xmm6, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm7
	; AVX1-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
	; AVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6
	; AVX1-NEXT: vpsllq $32, %xmm6, %xmm6
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpaddq %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm6
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm6
	; AVX1-NEXT: vpaddq %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm5, %xmm1
	; AVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm4, %xmm2
	; AVX1-NEXT: vpmuludq %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpaddq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm4, %xmm5, %xmm2
	; AVX1-NEXT: vpaddq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm4
	; AVX2-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
	; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm5
	; AVX2-NEXT: vpmuludq %ymm5, %ymm1, %ymm5
	; AVX2-NEXT: vpaddq %ymm4, %ymm5, %ymm4
	; AVX2-NEXT: vpsllq $32, %ymm4, %ymm4
	; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddq %ymm4, %ymm1, %ymm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm2, %ymm4
	; AVX2-NEXT: vpmuludq %ymm4, %ymm0, %ymm4
	; AVX2-NEXT: vpaddq %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v16i64:			; AVX512BW-LABEL: test_v16i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v16i64:			; AVX512BWVL-LABEL: test_v16i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 2,638 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-mul.ll

	Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v4i64(<4 x i64> %a0) {			define i64 @test_v4i64(<4 x i64> %a0) {
	; SSE-LABEL: test_v4i64:			; SSE-LABEL: test_v4i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v4i64:			; AVX512BW-LABEL: test_v4i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX512BW-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX512BW-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v4i64:			; AVX512BWVL-LABEL: test_v4i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	Show All 24 Lines
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm1, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm3, %xmm4
	; SSE-NEXT: movdqa %xmm3, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm1, %xmm5
	; SSE-NEXT: paddq %xmm4, %xmm5
	; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm3, %xmm1			; SSE-NEXT: pmuludq %xmm3, %xmm1
	; SSE-NEXT: paddq %xmm5, %xmm1
	; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm0, %xmm4
	; SSE-NEXT: paddq %xmm3, %xmm4
	; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm2, %xmm0			; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: paddq %xmm4, %xmm0
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm4
	; AVX1-NEXT: vpmuludq %xmm2, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm5
	; AVX1-NEXT: vpmuludq %xmm5, %xmm3, %xmm5
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm4
	; AVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8i64:			; AVX512BW-LABEL: test_v8i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v8i64:			; AVX512BWVL-LABEL: test_v8i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	Show All 27 Lines
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v16i64(<16 x i64> %a0) {			define i64 @test_v16i64(<16 x i64> %a0) {
	; SSE-LABEL: test_v16i64:			; SSE-LABEL: test_v16i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm2, %xmm8
	; SSE-NEXT: psrlq $32, %xmm8
	; SSE-NEXT: pmuludq %xmm6, %xmm8
	; SSE-NEXT: movdqa %xmm6, %xmm9
	; SSE-NEXT: psrlq $32, %xmm9
	; SSE-NEXT: pmuludq %xmm2, %xmm9
	; SSE-NEXT: paddq %xmm8, %xmm9
	; SSE-NEXT: psllq $32, %xmm9
	; SSE-NEXT: pmuludq %xmm6, %xmm2			; SSE-NEXT: pmuludq %xmm6, %xmm2
	; SSE-NEXT: paddq %xmm9, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm8
	; SSE-NEXT: psrlq $32, %xmm8
	; SSE-NEXT: pmuludq %xmm4, %xmm8
	; SSE-NEXT: movdqa %xmm4, %xmm6
	; SSE-NEXT: psrlq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm0, %xmm6
	; SSE-NEXT: paddq %xmm8, %xmm6
	; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm4, %xmm0			; SSE-NEXT: pmuludq %xmm4, %xmm0
	; SSE-NEXT: paddq %xmm6, %xmm0			; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: movdqa %xmm3, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm7, %xmm4
	; SSE-NEXT: movdqa %xmm7, %xmm6
	; SSE-NEXT: psrlq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm3, %xmm6
	; SSE-NEXT: paddq %xmm4, %xmm6
	; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm7, %xmm3			; SSE-NEXT: pmuludq %xmm7, %xmm3
	; SSE-NEXT: paddq %xmm6, %xmm3
	; SSE-NEXT: movdqa %xmm1, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm5, %xmm4
	; SSE-NEXT: movdqa %xmm5, %xmm6
	; SSE-NEXT: psrlq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm1, %xmm6
	; SSE-NEXT: paddq %xmm4, %xmm6
	; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm5, %xmm1			; SSE-NEXT: pmuludq %xmm5, %xmm1
	; SSE-NEXT: paddq %xmm6, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm3, %xmm4
	; SSE-NEXT: movdqa %xmm3, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm1, %xmm5
	; SSE-NEXT: paddq %xmm4, %xmm5
	; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm3, %xmm1			; SSE-NEXT: pmuludq %xmm3, %xmm1
	; SSE-NEXT: paddq %xmm5, %xmm1			; SSE-NEXT: pmuludq %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: psrlq $32, %xmm3			; SSE-NEXT: movdqa %xmm1, %xmm2
	; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm0, %xmm4
	; SSE-NEXT: paddq %xmm3, %xmm4
	; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: paddq %xmm4, %xmm0
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm0, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm1, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm0, %xmm1
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm1
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4			; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm4
	; AVX1-NEXT: vpmuludq %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm5			; AVX1-NEXT: vpmuludq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm5
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm5
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm5
	; AVX1-NEXT: vpmuludq %xmm2, %xmm5, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm6
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm6
	; AVX1-NEXT: vpaddq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vpsllq $32, %xmm5, %xmm5
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm6
	; AVX1-NEXT: vpaddq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm6
	; AVX1-NEXT: vpmuludq %xmm3, %xmm6, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm7
	; AVX1-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
	; AVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6
	; AVX1-NEXT: vpsllq $32, %xmm6, %xmm6
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpaddq %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm6
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm6
	; AVX1-NEXT: vpaddq %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm5, %xmm1
	; AVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm4, %xmm2
	; AVX1-NEXT: vpmuludq %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpaddq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm4, %xmm5, %xmm2
	; AVX1-NEXT: vpaddq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm4
	; AVX2-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
	; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm5
	; AVX2-NEXT: vpmuludq %ymm5, %ymm1, %ymm5
	; AVX2-NEXT: vpaddq %ymm4, %ymm5, %ymm4
	; AVX2-NEXT: vpsllq $32, %ymm4, %ymm4
	; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddq %ymm4, %ymm1, %ymm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm3
	; AVX2-NEXT: vpsrlq $32, %ymm2, %ymm4
	; AVX2-NEXT: vpmuludq %ymm4, %ymm0, %ymm4
	; AVX2-NEXT: vpaddq %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: vpsllq $32, %ymm3, %ymm3
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v16i64:			; AVX512BW-LABEL: test_v16i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v16i64:			; AVX512BWVL-LABEL: test_v16i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 2,668 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Individually simplify both operands of PMULDQ/PMULUDQ using the other entry point of SimplifyDemandedBits that allows the one use check of the root node to be suppressed.AbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 179450

lib/Target/X86/X86ISelLowering.cpp

test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

test/CodeGen/X86/pmul.ll

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

test/CodeGen/X86/sse41-intrinsics-fast-isel.ll

test/CodeGen/X86/vector-mul.ll

test/CodeGen/X86/vector-reduce-mul-widen.ll

test/CodeGen/X86/vector-reduce-mul.ll

[X86] Individually simplify both operands of PMULDQ/PMULUDQ using the other entry point of SimplifyDemandedBits that allows the one use check of the root node to be suppressed.
AbandonedPublic