This is an archive of the discontinued LLVM Phabricator instance.

[x86] Enable some support for lowerVectorShuffleWithUndefHalf with AVX-512
ClosedPublic

Authored by craig.topper on Aug 10 2017, 6:52 PM.

Download Raw Diff

Details

Reviewers

RKSimon
zvi
delena
jbhateja

Commits

rG0f30fe963436: [x86] Enable some support for lowerVectorShuffleWithUndefHalf with AVX-512
rL310724: [x86] Enable some support for lowerVectorShuffleWithUndefHalf with AVX-512

Summary

This teaches 512-bit shuffles to detect unused halfs in order to reduce shuffle size.

We may need to refine the 512-bit exit point. I couldn't remember if we had good cross lane shuffles for 8/16 bit with AVX-512 or not.

I believe this is step towards being able to handle D36454 without a special case.

From here we need to improve our ability to combine extract_subvector with insert_subvector and other extract_subvectors. And we need to support narrowing binary operations where we don't demand all elements. This may be improvements to DAGCombiner::narrowExtractedVectorBinOp(by recognizing an insert_subvector in addition to concat) or we may need a target specific combiner.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Aug 10 2017, 6:52 PM

LGTM

lib/Target/X86/X86ISelLowering.cpp
12259 ↗	(On Diff #110665)	256 or 512-bit vector

This revision is now accepted and ready to land.Aug 11 2017, 5:21 AM

LGTM , I shall TRY to use this already written routine for D36454

Closed by commit rL310724: [x86] Enable some support for lowerVectorShuffleWithUndefHalf with AVX-512 (authored by ctopper). · Explain WhyAug 11 2017, 9:21 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

14 lines

test/

CodeGen/

X86/

madd.ll

8 lines

sad.ll

48 lines

vector-shuffle-512-v16.ll

17 lines

vector-shuffle-512-v32.ll

4 lines

vector-shuffle-512-v64.ll

23 lines

vector-shuffle-512-v8.ll

4 lines

Diff 110742

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,250 Lines • ▼ Show 20 Lines	for (int i = 0; i < Size; ++i)
if (Mask[i] >= 0)		if (Mask[i] >= 0)
NewMask[i] = (i / LaneSize) * LaneSize + Mask[i] % LaneSize;		NewMask[i] = (i / LaneSize) * LaneSize + Mask[i] % LaneSize;
assert(!is128BitLaneCrossingShuffleMask(VT, NewMask) &&		assert(!is128BitLaneCrossingShuffleMask(VT, NewMask) &&
"Must not introduce lane crosses at this point!");		"Must not introduce lane crosses at this point!");

return DAG.getVectorShuffle(VT, DL, LaneShuffle, DAG.getUNDEF(VT), NewMask);		return DAG.getVectorShuffle(VT, DL, LaneShuffle, DAG.getUNDEF(VT), NewMask);
}		}

/// Lower shuffles where an entire half of a 256-bit vector is UNDEF.		/// Lower shuffles where an entire half of a 256 or 512-bit vector is UNDEF.
/// This allows for fast cases such as subvector extraction/insertion		/// This allows for fast cases such as subvector extraction/insertion
/// or shuffling smaller vector types which can lower more efficiently.		/// or shuffling smaller vector types which can lower more efficiently.
static SDValue lowerVectorShuffleWithUndefHalf(const SDLoc &DL, MVT VT,		static SDValue lowerVectorShuffleWithUndefHalf(const SDLoc &DL, MVT VT,
SDValue V1, SDValue V2,		SDValue V1, SDValue V2,
ArrayRef<int> Mask,		ArrayRef<int> Mask,
const X86Subtarget &Subtarget,		const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
assert(VT.is256BitVector() && "Expected 256-bit vector");		assert((VT.is256BitVector() \|\| VT.is512BitVector()) &&
		"Expected 256-bit or 512-bit vector");

unsigned NumElts = VT.getVectorNumElements();		unsigned NumElts = VT.getVectorNumElements();
unsigned HalfNumElts = NumElts / 2;		unsigned HalfNumElts = NumElts / 2;
MVT HalfVT = MVT::getVectorVT(VT.getVectorElementType(), HalfNumElts);		MVT HalfVT = MVT::getVectorVT(VT.getVectorElementType(), HalfNumElts);

bool UndefLower = isUndefInRange(Mask, 0, HalfNumElts);		bool UndefLower = isUndefInRange(Mask, 0, HalfNumElts);
bool UndefUpper = isUndefInRange(Mask, HalfNumElts, HalfNumElts);		bool UndefUpper = isUndefInRange(Mask, HalfNumElts, HalfNumElts);
if (!UndefLower && !UndefUpper)		if (!UndefLower && !UndefUpper)
▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines	if (Subtarget.hasAVX2() && !(UndefUpper && NumUpperHalves == 0)) {
// AVX2 supports variable 32-bit element cross-lane shuffles.		// AVX2 supports variable 32-bit element cross-lane shuffles.
if (VT == MVT::v8f32 \|\| VT == MVT::v8i32) {		if (VT == MVT::v8f32 \|\| VT == MVT::v8i32) {
// XXXXuuuu - don't extract lowers and uppers.		// XXXXuuuu - don't extract lowers and uppers.
if (UndefUpper && NumLowerHalves != 0 && NumUpperHalves != 0)		if (UndefUpper && NumLowerHalves != 0 && NumUpperHalves != 0)
return SDValue();		return SDValue();
}		}
}		}

		// AVX512 - XXXXuuuu - always extract lowers.
		if (VT.is512BitVector() && !(UndefUpper && NumUpperHalves == 0))
		return SDValue();

auto GetHalfVector = [&](int HalfIdx) {		auto GetHalfVector = [&](int HalfIdx) {
if (HalfIdx < 0)		if (HalfIdx < 0)
return DAG.getUNDEF(HalfVT);		return DAG.getUNDEF(HalfVT);
SDValue V = (HalfIdx < 2 ? V1 : V2);		SDValue V = (HalfIdx < 2 ? V1 : V2);
HalfIdx = (HalfIdx % 2) * HalfNumElts;		HalfIdx = (HalfIdx % 2) * HalfNumElts;
return DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, HalfVT, V,		return DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, HalfVT, V,
DAG.getIntPtrConstant(HalfIdx, DL));		DAG.getIntPtrConstant(HalfIdx, DL));
};		};
▲ Show 20 Lines • Show All 1,327 Lines • ▼ Show 20 Lines	static SDValue lower512BitVectorShuffle(const SDLoc &DL, ArrayRef<int> Mask,
int NumElts = Mask.size();		int NumElts = Mask.size();
int NumV2Elements = count_if(Mask, [NumElts](int M) { return M >= NumElts; });		int NumV2Elements = count_if(Mask, [NumElts](int M) { return M >= NumElts; });

if (NumV2Elements == 1 && Mask[0] >= NumElts)		if (NumV2Elements == 1 && Mask[0] >= NumElts)
if (SDValue Insertion = lowerVectorShuffleAsElementInsertion(		if (SDValue Insertion = lowerVectorShuffleAsElementInsertion(
DL, VT, V1, V2, Mask, Zeroable, Subtarget, DAG))		DL, VT, V1, V2, Mask, Zeroable, Subtarget, DAG))
return Insertion;		return Insertion;

		// Handle special cases where the lower or upper half is UNDEF.
		if (SDValue V =
		lowerVectorShuffleWithUndefHalf(DL, VT, V1, V2, Mask, Subtarget, DAG))
		return V;

// Check for being able to broadcast a single element.		// Check for being able to broadcast a single element.
if (SDValue Broadcast =		if (SDValue Broadcast =
lowerVectorShuffleAsBroadcast(DL, VT, V1, V2, Mask, Subtarget, DAG))		lowerVectorShuffleAsBroadcast(DL, VT, V1, V2, Mask, Subtarget, DAG))
return Broadcast;		return Broadcast;

// Dispatch to each element type for lowering. If we don't have support for		// Dispatch to each element type for lowering. If we don't have support for
// specific element type shuffles at 512 bits, immediately split them and		// specific element type shuffles at 512 bits, immediately split them and
// lower them. Each lowering routine of a given type is allowed to assume that		// lower them. Each lowering routine of a given type is allowed to assume that
▲ Show 20 Lines • Show All 23,001 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 317 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpmovsxbw (%rsi,%rcx), %ymm3			; AVX512-NEXT: vpmovsxbw (%rsi,%rcx), %ymm3
	; AVX512-NEXT: vpmaddwd %ymm2, %ymm3, %ymm2			; AVX512-NEXT: vpmaddwd %ymm2, %ymm3, %ymm2
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm2, %zmm2			; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm2, %zmm2
	; AVX512-NEXT: vpaddd %zmm0, %zmm2, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm2, %zmm0
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB2_1			; AVX512-NEXT: jne .LBB2_1
	; AVX512-NEXT: # BB#2: # %middle.block			; AVX512-NEXT: # BB#2: # %middle.block
	; AVX512-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[4,5,6,7,0,1,0,1]			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[2,3,0,1,0,1,0,1]			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[2,3,2,3,6,7,6,7,10,11,10,11,14,15,14,15]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[1,1,2,3,5,5,6,7,9,9,10,11,13,13,14,15]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	Show All 29 Lines

llvm/trunk/test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: # =>This Inner Loop Header: Depth=1			; AVX512F-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX512F-NEXT: vmovdqu a+1024(%rax), %xmm1			; AVX512F-NEXT: vmovdqu a+1024(%rax), %xmm1
	; AVX512F-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1			; AVX512F-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1
	; AVX512F-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; AVX512F-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; AVX512F-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0			; AVX512F-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
	; AVX512F-NEXT: addq $4, %rax			; AVX512F-NEXT: addq $4, %rax
	; AVX512F-NEXT: jne .LBB0_1			; AVX512F-NEXT: jne .LBB0_1
	; AVX512F-NEXT: # BB#2: # %middle.block			; AVX512F-NEXT: # BB#2: # %middle.block
	; AVX512F-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[4,5,6,7,0,1,0,1]			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[2,3,0,1,0,1,0,1]			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[2,3,2,3,6,7,6,7,10,11,10,11,14,15,14,15]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[1,1,2,3,5,5,6,7,9,9,10,11,13,13,14,15]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: sad_16i8:			; AVX512BW-LABEL: sad_16i8:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX512BW-NEXT: .p2align 4, 0x90			; AVX512BW-NEXT: .p2align 4, 0x90
	; AVX512BW-NEXT: .LBB0_1: # %vector.body			; AVX512BW-NEXT: .LBB0_1: # %vector.body
	; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1			; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX512BW-NEXT: vmovdqu a+1024(%rax), %xmm1			; AVX512BW-NEXT: vmovdqu a+1024(%rax), %xmm1
	; AVX512BW-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1			; AVX512BW-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1
	; AVX512BW-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; AVX512BW-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; AVX512BW-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: addq $4, %rax			; AVX512BW-NEXT: addq $4, %rax
	; AVX512BW-NEXT: jne .LBB0_1			; AVX512BW-NEXT: jne .LBB0_1
	; AVX512BW-NEXT: # BB#2: # %middle.block			; AVX512BW-NEXT: # BB#2: # %middle.block
	; AVX512BW-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[4,5,6,7,0,1,0,1]			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[2,3,0,1,0,1,0,1]			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[2,3,2,3,6,7,6,7,10,11,10,11,14,15,14,15]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[1,1,2,3,5,5,6,7,9,9,10,11,13,13,14,15]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 200 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vmovdqa a+1024(%rax), %ymm2			; AVX512F-NEXT: vmovdqa a+1024(%rax), %ymm2
	; AVX512F-NEXT: vpsadbw b+1024(%rax), %ymm2, %ymm2			; AVX512F-NEXT: vpsadbw b+1024(%rax), %ymm2, %ymm2
	; AVX512F-NEXT: vpaddd %ymm1, %ymm2, %ymm2			; AVX512F-NEXT: vpaddd %ymm1, %ymm2, %ymm2
	; AVX512F-NEXT: vinserti64x4 $0, %ymm2, %zmm1, %zmm1			; AVX512F-NEXT: vinserti64x4 $0, %ymm2, %zmm1, %zmm1
	; AVX512F-NEXT: addq $4, %rax			; AVX512F-NEXT: addq $4, %rax
	; AVX512F-NEXT: jne .LBB1_1			; AVX512F-NEXT: jne .LBB1_1
	; AVX512F-NEXT: # BB#2: # %middle.block			; AVX512F-NEXT: # BB#2: # %middle.block
	; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512F-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[4,5,6,7,0,1,0,1]			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[2,3,0,1,0,1,0,1]			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[2,3,2,3,6,7,6,7,10,11,10,11,14,15,14,15]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[1,1,2,3,5,5,6,7,9,9,10,11,13,13,14,15]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: sad_32i8:			; AVX512BW-LABEL: sad_32i8:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: .p2align 4, 0x90			; AVX512BW-NEXT: .p2align 4, 0x90
	; AVX512BW-NEXT: .LBB1_1: # %vector.body			; AVX512BW-NEXT: .LBB1_1: # %vector.body
	; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1			; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX512BW-NEXT: vmovdqa a+1024(%rax), %ymm2			; AVX512BW-NEXT: vmovdqa a+1024(%rax), %ymm2
	; AVX512BW-NEXT: vpsadbw b+1024(%rax), %ymm2, %ymm2			; AVX512BW-NEXT: vpsadbw b+1024(%rax), %ymm2, %ymm2
	; AVX512BW-NEXT: vpaddd %ymm1, %ymm2, %ymm2			; AVX512BW-NEXT: vpaddd %ymm1, %ymm2, %ymm2
	; AVX512BW-NEXT: vinserti64x4 $0, %ymm2, %zmm1, %zmm1			; AVX512BW-NEXT: vinserti64x4 $0, %ymm2, %zmm1, %zmm1
	; AVX512BW-NEXT: addq $4, %rax			; AVX512BW-NEXT: addq $4, %rax
	; AVX512BW-NEXT: jne .LBB1_1			; AVX512BW-NEXT: jne .LBB1_1
	; AVX512BW-NEXT: # BB#2: # %middle.block			; AVX512BW-NEXT: # BB#2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[4,5,6,7,0,1,0,1]			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[2,3,0,1,0,1,0,1]			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[2,3,2,3,6,7,6,7,10,11,10,11,14,15,14,15]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[1,1,2,3,5,5,6,7,9,9,10,11,13,13,14,15]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 422 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpabsd %zmm7, %zmm4			; AVX512F-NEXT: vpabsd %zmm7, %zmm4
	; AVX512F-NEXT: vpaddd %zmm3, %zmm4, %zmm3			; AVX512F-NEXT: vpaddd %zmm3, %zmm4, %zmm3
	; AVX512F-NEXT: addq $4, %rax			; AVX512F-NEXT: addq $4, %rax
	; AVX512F-NEXT: jne .LBB2_1			; AVX512F-NEXT: jne .LBB2_1
	; AVX512F-NEXT: # BB#2: # %middle.block			; AVX512F-NEXT: # BB#2: # %middle.block
	; AVX512F-NEXT: vpaddd %zmm2, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm2, %zmm0, %zmm0
	; AVX512F-NEXT: vpaddd %zmm3, %zmm1, %zmm1			; AVX512F-NEXT: vpaddd %zmm3, %zmm1, %zmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[4,5,6,7,0,1,0,1]			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[2,3,0,1,0,1,0,1]			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[2,3,2,3,6,7,6,7,10,11,10,11,14,15,14,15]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[1,1,2,3,5,5,6,7,9,9,10,11,13,13,14,15]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: sad_avx64i8:			; AVX512BW-LABEL: sad_avx64i8:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: .p2align 4, 0x90			; AVX512BW-NEXT: .p2align 4, 0x90
	; AVX512BW-NEXT: .LBB2_1: # %vector.body			; AVX512BW-NEXT: .LBB2_1: # %vector.body
	; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1			; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX512BW-NEXT: vmovdqa64 a+1024(%rax), %zmm2			; AVX512BW-NEXT: vmovdqa64 a+1024(%rax), %zmm2
	; AVX512BW-NEXT: vpsadbw b+1024(%rax), %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw b+1024(%rax), %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm2, %zmm1			; AVX512BW-NEXT: vpaddd %zmm1, %zmm2, %zmm1
	; AVX512BW-NEXT: addq $4, %rax			; AVX512BW-NEXT: addq $4, %rax
	; AVX512BW-NEXT: jne .LBB2_1			; AVX512BW-NEXT: jne .LBB2_1
	; AVX512BW-NEXT: # BB#2: # %middle.block			; AVX512BW-NEXT: # BB#2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[4,5,6,7,0,1,0,1]			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm0[2,3,0,1,0,1,0,1]			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[2,3,2,3,6,7,6,7,10,11,10,11,14,15,14,15]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} zmm1 = zmm0[1,1,2,3,5,5,6,7,9,9,10,11,13,13,14,15]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 466 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v16.ll

	Show First 20 Lines • Show All 256 Lines • ▼ Show 20 Lines
	; ALL-NEXT: vpermt2d (%rdi), %zmm1, %zmm0			; ALL-NEXT: vpermt2d (%rdi), %zmm1, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%c = load <16 x i32>, <16 x i32>* %b			%c = load <16 x i32>, <16 x i32>* %b
	%d = shufflevector <16 x i32> %a, <16 x i32> %c, <16 x i32> <i32 15, i32 31, i32 14, i32 22, i32 13, i32 29, i32 4, i32 28, i32 11, i32 27, i32 10, i32 26, i32 9, i32 25, i32 8, i32 24>			%d = shufflevector <16 x i32> %a, <16 x i32> %c, <16 x i32> <i32 15, i32 31, i32 14, i32 22, i32 13, i32 29, i32 4, i32 28, i32 11, i32 27, i32 10, i32 26, i32 9, i32 25, i32 8, i32 24>
	ret <16 x i32> %d			ret <16 x i32> %d
	}			}

	define <16 x i32> @shuffle_v16i32_0_1_2_19_u_u_u_u_u_u_u_u_u_u_u_u(<16 x i32> %a, <16 x i32> %b) {			define <16 x i32> @shuffle_v16i32_0_1_2_19_u_u_u_u_u_u_u_u_u_u_u_u(<16 x i32> %a, <16 x i32> %b) {
	; AVX512F-LABEL: shuffle_v16i32_0_1_2_19_u_u_u_u_u_u_u_u_u_u_u_u:			; ALL-LABEL: shuffle_v16i32_0_1_2_19_u_u_u_u_u_u_u_u_u_u_u_u:
	; AVX512F: # BB#0:			; ALL: # BB#0:
	; AVX512F-NEXT: movw $8, %ax			; ALL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
	; AVX512F-NEXT: kmovw %eax, %k1			; ALL-NEXT: retq
	; AVX512F-NEXT: vmovdqa32 %zmm1, %zmm0 {%k1}
	; AVX512F-NEXT: retq
	;
	; AVX512BW-LABEL: shuffle_v16i32_0_1_2_19_u_u_u_u_u_u_u_u_u_u_u_u:
	; AVX512BW: # BB#0:
	; AVX512BW-NEXT: movw $8, %ax
	; AVX512BW-NEXT: kmovd %eax, %k1
	; AVX512BW-NEXT: vmovdqa32 %zmm1, %zmm0 {%k1}
	; AVX512BW-NEXT: retq
	%c = shufflevector <16 x i32> %a, <16 x i32> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 19, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%c = shufflevector <16 x i32> %a, <16 x i32> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 19, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i32> %c			ret <16 x i32> %c
	}			}

	;FIXME: can do better with vpcompress			;FIXME: can do better with vpcompress
	define <8 x i32> @test_v16i32_1_3_5_7_9_11_13_15(<16 x i32> %v) {			define <8 x i32> @test_v16i32_1_3_5_7_9_11_13_15(<16 x i32> %v) {
	; ALL-LABEL: test_v16i32_1_3_5_7_9_11_13_15:			; ALL-LABEL: test_v16i32_1_3_5_7_9_11_13_15:
	; ALL: # BB#0:			; ALL: # BB#0:
	▲ Show 20 Lines • Show All 426 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v32.ll

	Show First 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	define <32 x i16> @shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u(<32 x i16> %a, <32 x i16> %b) {			define <32 x i16> @shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u(<32 x i16> %a, <32 x i16> %b) {
	; KNL-LABEL: shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u:			; KNL-LABEL: shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u:
	; KNL: ## BB#0:			; KNL: ## BB#0:
	; KNL-NEXT: vpunpcklwd {{.*#+}} ymm0 = ymm0[0],ymm2[0],ymm0[1],ymm2[1],ymm0[2],ymm2[2],ymm0[3],ymm2[3],ymm0[8],ymm2[8],ymm0[9],ymm2[9],ymm0[10],ymm2[10],ymm0[11],ymm2[11]			; KNL-NEXT: vpunpcklwd {{.*#+}} ymm0 = ymm0[0],ymm2[0],ymm0[1],ymm2[1],ymm0[2],ymm2[2],ymm0[3],ymm2[3],ymm0[8],ymm2[8],ymm0[9],ymm2[9],ymm0[10],ymm2[10],ymm0[11],ymm2[11]
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u:			; SKX-LABEL: shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vpunpcklwd {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[16],zmm1[16],zmm0[17],zmm1[17],zmm0[18],zmm1[18],zmm0[19],zmm1[19],zmm0[24],zmm1[24],zmm0[25],zmm1[25],zmm0[26],zmm1[26],zmm0[27],zmm1[27]			; SKX-NEXT: vpunpcklwd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%c = shufflevector <32 x i16> %a, <32 x i16> %b, <32 x i32> <i32 0, i32 32, i32 1, i32 33, i32 2, i32 34, i32 3, i32 35, i32 8, i32 40, i32 9, i32 41, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%c = shufflevector <32 x i16> %a, <32 x i16> %b, <32 x i32> <i32 0, i32 32, i32 1, i32 33, i32 2, i32 34, i32 3, i32 35, i32 8, i32 40, i32 9, i32 41, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <32 x i16> %c			ret <32 x i16> %c
	}			}

	define <32 x i16> @shuffle_v16i32_4_36_5_37_6_38_7_39_12_44_13_45_u_u_u_u(<32 x i16> %a, <32 x i16> %b) {			define <32 x i16> @shuffle_v16i32_4_36_5_37_6_38_7_39_12_44_13_45_u_u_u_u(<32 x i16> %a, <32 x i16> %b) {
	; KNL-LABEL: shuffle_v16i32_4_36_5_37_6_38_7_39_12_44_13_45_u_u_u_u:			; KNL-LABEL: shuffle_v16i32_4_36_5_37_6_38_7_39_12_44_13_45_u_u_u_u:
	; KNL: ## BB#0:			; KNL: ## BB#0:
	; KNL-NEXT: vpunpckhwd {{.*#+}} ymm0 = ymm0[4],ymm2[4],ymm0[5],ymm2[5],ymm0[6],ymm2[6],ymm0[7],ymm2[7],ymm0[12],ymm2[12],ymm0[13],ymm2[13],ymm0[14],ymm2[14],ymm0[15],ymm2[15]			; KNL-NEXT: vpunpckhwd {{.*#+}} ymm0 = ymm0[4],ymm2[4],ymm0[5],ymm2[5],ymm0[6],ymm2[6],ymm0[7],ymm2[7],ymm0[12],ymm2[12],ymm0[13],ymm2[13],ymm0[14],ymm2[14],ymm0[15],ymm2[15]
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: shuffle_v16i32_4_36_5_37_6_38_7_39_12_44_13_45_u_u_u_u:			; SKX-LABEL: shuffle_v16i32_4_36_5_37_6_38_7_39_12_44_13_45_u_u_u_u:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vpunpckhwd {{.*#+}} zmm0 = zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[12],zmm1[12],zmm0[13],zmm1[13],zmm0[14],zmm1[14],zmm0[15],zmm1[15],zmm0[20],zmm1[20],zmm0[21],zmm1[21],zmm0[22],zmm1[22],zmm0[23],zmm1[23],zmm0[28],zmm1[28],zmm0[29],zmm1[29],zmm0[30],zmm1[30],zmm0[31],zmm1[31]			; SKX-NEXT: vpunpckhwd {{.*#+}} ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%c = shufflevector <32 x i16> %a, <32 x i16> %b, <32 x i32> <i32 4, i32 36, i32 5, i32 37, i32 6, i32 38, i32 7, i32 39, i32 12, i32 44, i32 13, i32 45, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%c = shufflevector <32 x i16> %a, <32 x i16> %b, <32 x i32> <i32 4, i32 36, i32 5, i32 37, i32 6, i32 38, i32 7, i32 39, i32 12, i32 44, i32 13, i32 45, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <32 x i16> %c			ret <32 x i16> %c
	}			}

	define <32 x i16> @shuffle_v32i16_1_z_3_z_5_z_7_z_9_z_11_z_13_z_15_z_17_z_19_z_21_z_23_z_25_z_27_z_29_z_31_z(<32 x i16> %a, <32 x i16> %b) {			define <32 x i16> @shuffle_v32i16_1_z_3_z_5_z_7_z_9_z_11_z_13_z_15_z_17_z_19_z_21_z_23_z_25_z_27_z_29_z_31_z(<32 x i16> %a, <32 x i16> %b) {
	; KNL-LABEL: shuffle_v32i16_1_z_3_z_5_z_7_z_9_z_11_z_13_z_15_z_17_z_19_z_21_z_23_z_25_z_27_z_29_z_31_z:			; KNL-LABEL: shuffle_v32i16_1_z_3_z_5_z_7_z_9_z_11_z_13_z_15_z_17_z_19_z_21_z_23_z_25_z_27_z_29_z_31_z:
	; KNL: ## BB#0:			; KNL: ## BB#0:
	▲ Show 20 Lines • Show All 234 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v64.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512F			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512DQ			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512DQ
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vbmi \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VBMI			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vbmi \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VBMI

	define <64 x i8> @shuffle_v64i8_02_03_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u(<64 x i8> %a) {			define <64 x i8> @shuffle_v64i8_02_03_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u(<64 x i8> %a) {
	; AVX512F-LABEL: shuffle_v64i8_02_03_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u:			; ALL-LABEL: shuffle_v64i8_02_03_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u:
	; AVX512F: # BB#0:			; ALL: # BB#0:
	; AVX512F-NEXT: vpsrld $16, %xmm0, %xmm0			; ALL-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX512F-NEXT: retq			; ALL-NEXT: retq
	;
	; AVX512BW-LABEL: shuffle_v64i8_02_03_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u:
	; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512DQ-LABEL: shuffle_v64i8_02_03_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u:
	; AVX512DQ: # BB#0:
	; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX512DQ-NEXT: retq
	;
	; AVX512VBMI-LABEL: shuffle_v64i8_02_03_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u_u:
	; AVX512VBMI: # BB#0:
	; AVX512VBMI-NEXT: vpsrld $16, %zmm0, %zmm0
	; AVX512VBMI-NEXT: retq
	%b = shufflevector <64 x i8> %a, <64 x i8> undef, <64 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%b = shufflevector <64 x i8> %a, <64 x i8> undef, <64 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <64 x i8> %b			ret <64 x i8> %b
	}			}

	define <64 x i8> @shuffle_v64i8_zz_00_01_02_03_04_05_06_07_08_09_10_11_12_13_14_zz_16_17_18_19_20_21_22_23_24_25_26_27_28_29_30_zz_32_33_34_35_36_37_38_39_40_41_42_43_44_45_46_zz_48_49_50_51_52_53_54_55_56_57_58_59_60_61_62(<64 x i8> %a, <64 x i8> %b) {			define <64 x i8> @shuffle_v64i8_zz_00_01_02_03_04_05_06_07_08_09_10_11_12_13_14_zz_16_17_18_19_20_21_22_23_24_25_26_27_28_29_30_zz_32_33_34_35_36_37_38_39_40_41_42_43_44_45_46_zz_48_49_50_51_52_53_54_55_56_57_58_59_60_61_62(<64 x i8> %a, <64 x i8> %b) {
	; AVX512F-LABEL: shuffle_v64i8_zz_00_01_02_03_04_05_06_07_08_09_10_11_12_13_14_zz_16_17_18_19_20_21_22_23_24_25_26_27_28_29_30_zz_32_33_34_35_36_37_38_39_40_41_42_43_44_45_46_zz_48_49_50_51_52_53_54_55_56_57_58_59_60_61_62:			; AVX512F-LABEL: shuffle_v64i8_zz_00_01_02_03_04_05_06_07_08_09_10_11_12_13_14_zz_16_17_18_19_20_21_22_23_24_25_26_27_28_29_30_zz_32_33_34_35_36_37_38_39_40_41_42_43_44_45_46_zz_48_49_50_51_52_53_54_55_56_57_58_59_60_61_62:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vpslldq {{.*#+}} ymm0 = zero,ymm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14],zero,ymm0[16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]			; AVX512F-NEXT: vpslldq {{.*#+}} ymm0 = zero,ymm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14],zero,ymm0[16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]
	▲ Show 20 Lines • Show All 521 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v8.ll

	Show First 20 Lines • Show All 2,235 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%1 = shufflevector <8 x double> %a1, <8 x double> undef, <8 x i32> <i32 2, i32 3, i32 0, i32 1, i32 undef, i32 undef, i32 6, i32 7>			%1 = shufflevector <8 x double> %a1, <8 x double> undef, <8 x i32> <i32 2, i32 3, i32 0, i32 1, i32 undef, i32 undef, i32 6, i32 7>
	ret <8 x double> %1			ret <8 x double> %1
	}			}

	define <8 x double> @shuffle_v8f64_2301uuuu(<8 x double> %a0, <8 x double> %a1) {			define <8 x double> @shuffle_v8f64_2301uuuu(<8 x double> %a0, <8 x double> %a1) {
	; AVX512F-LABEL: shuffle_v8f64_2301uuuu:			; AVX512F-LABEL: shuffle_v8f64_2301uuuu:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vpermpd {{.*#+}} zmm0 = zmm1[2,3,0,1,6,7,4,5]			; AVX512F-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm1[2,3,0,1]
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512F-32-LABEL: shuffle_v8f64_2301uuuu:			; AVX512F-32-LABEL: shuffle_v8f64_2301uuuu:
	; AVX512F-32: # BB#0:			; AVX512F-32: # BB#0:
	; AVX512F-32-NEXT: vpermpd {{.*#+}} zmm0 = zmm1[2,3,0,1,6,7,4,5]			; AVX512F-32-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm1[2,3,0,1]
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%1 = shufflevector <8 x double> %a1, <8 x double> undef, <8 x i32> <i32 2, i32 3, i32 0, i32 1, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x double> %a1, <8 x double> undef, <8 x i32> <i32 2, i32 3, i32 0, i32 1, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <8 x double> %1			ret <8 x double> %1
	}			}

	define <8 x double> @shuffle_v8f64_uuu2301(<8 x double> %a0, <8 x double> %a1) {			define <8 x double> @shuffle_v8f64_uuu2301(<8 x double> %a0, <8 x double> %a1) {
	; AVX512F-LABEL: shuffle_v8f64_uuu2301:			; AVX512F-LABEL: shuffle_v8f64_uuu2301:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	▲ Show 20 Lines • Show All 490 Lines • Show Last 20 Lines