This is an archive of the discontinued LLVM Phabricator instance.

[X86] Teach lowerShuffleAsBlend to use bit blend for v16i8/v32i8/v16i16 when avx512vl is enabled but not avx512bw.
ClosedPublic

Authored by craig.topper on Jul 3 2020, 11:06 PM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel

Commits

rGe652c0f8f3e7: [X86] Teach lowerShuffleAsBlend to use bit blend for v16i8/v32i8/v16i16 when…

Summary

Probably not super important since there are no real CPUs with
avx512vl and not avx512bw. But vpternlog should be better than
vblendvb.

I do wonder if we should use vpternlog even with BWI. We
currently use vblendmb or vpblendmw by putting the mask into a GPR
and moving it to a k-register. But I don't think we hoist the
GPR to k-register copy in machine LICM. Using VPTERNLOG would use
a constant pool load, but has the advantage that we're pretty good
at hoisting and rematerializing those.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

craig.topper created this revision.Jul 3 2020, 11:06 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 3 2020, 11:07 PM

Herald added a subscriber: hiraditya. · View Herald Transcript

craig.topper added a parent revision: D83155: [X86] Disable VPBLENDVB formation in combineLogicBlendIntoPBLENDV if VPTERNLOG is supported..Jul 3 2020, 11:07 PM

Harbormaster failed remote builds in B62893: Diff 275483!Jul 3 2020, 11:57 PM

LGTM - but as you said this doesn't tend to occur in the real world - but I guess somebody might decide to disable avx512bw for "reasons".....

This revision is now accepted and ready to land.Jul 4 2020, 12:21 AM

Thanks Simon. Thoughts on whether we should do this with BWI too? I think the bit blend would also work better with shuffle combining?

In D83156#2131280, @craig.topper wrote:

Thanks Simon. Thoughts on whether we should do this with BWI too? I think the bit blend would also work better with shuffle combining?

Yes, my only concern is that currently we don't anything to combine variable select patterns OTHER than bit blend - ternlog/vselect are neither handled as faux shuffles or combined to at the moment which they probably need to be.

Closed by commit rGe652c0f8f3e7: [X86] Teach lowerShuffleAsBlend to use bit blend for v16i8/v32i8/v16i16 when… (authored by craig.topper). · Explain WhyJul 4 2020, 10:45 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

6 lines

test/

CodeGen/

X86/

prefer-avx256-mask-shuffle.ll

13 lines

shuffle-vs-trunc-256.ll

9 lines

4 lines

4 lines

6 lines

6 lines

vector-shuffle-v48.ll

19 lines

Diff 275511

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 11,725 Lines • ▼ Show 20 Lines	case MVT::v16i8: {

if (Subtarget.hasBWI() && Subtarget.hasVLX()) {		if (Subtarget.hasBWI() && Subtarget.hasVLX()) {
MVT IntegerType =		MVT IntegerType =
MVT::getIntegerVT(std::max((int)VT.getVectorNumElements(), 8));		MVT::getIntegerVT(std::max((int)VT.getVectorNumElements(), 8));
SDValue MaskNode = DAG.getConstant(BlendMask, DL, IntegerType);		SDValue MaskNode = DAG.getConstant(BlendMask, DL, IntegerType);
return getVectorMaskingNode(V2, MaskNode, V1, Subtarget, DAG);		return getVectorMaskingNode(V2, MaskNode, V1, Subtarget, DAG);
}		}

		// If we have VPTERNLOG, we can use that as a bit blend.
		if (Subtarget.hasVLX())
		if (SDValue BitBlend =
		lowerShuffleAsBitBlend(DL, VT, V1, V2, Mask, DAG))
		return BitBlend;

// Scale the blend by the number of bytes per element.		// Scale the blend by the number of bytes per element.
int Scale = VT.getScalarSizeInBits() / 8;		int Scale = VT.getScalarSizeInBits() / 8;

// This form of blend is always done on bytes. Compute the byte vector		// This form of blend is always done on bytes. Compute the byte vector
// type.		// type.
MVT BlendVT = MVT::getVectorVT(MVT::i8, VT.getSizeInBits() / 8);		MVT BlendVT = MVT::getVectorVT(MVT::i8, VT.getSizeInBits() / 8);

// x86 allows load folding with blendvb from the 2nd source operand. But		// x86 allows load folding with blendvb from the 2nd source operand. But
▲ Show 20 Lines • Show All 38,275 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/prefer-avx256-mask-shuffle.ll

	Show First 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; AVX256VL-NEXT: vpcmpeqd %ymm0, %ymm0, %ymm0			; AVX256VL-NEXT: vpcmpeqd %ymm0, %ymm0, %ymm0
	; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm1 {%k3} {z}			; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm1 {%k3} {z}
	; AVX256VL-NEXT: vpmovdw %ymm1, %xmm1			; AVX256VL-NEXT: vpmovdw %ymm1, %xmm1
	; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm2 {%k2} {z}			; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm2 {%k2} {z}
	; AVX256VL-NEXT: vpmovdw %ymm2, %xmm2			; AVX256VL-NEXT: vpmovdw %ymm2, %xmm2
	; AVX256VL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX256VL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX256VL-NEXT: vpermq {{.*#+}} ymm2 = ymm1[2,3,0,1]			; AVX256VL-NEXT: vpermq {{.*#+}} ymm2 = ymm1[2,3,0,1]
	; AVX256VL-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1],ymm2[2],ymm1[3],ymm2[4,5],ymm1[6],ymm2[7]			; AVX256VL-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1],ymm2[2],ymm1[3],ymm2[4,5],ymm1[6],ymm2[7]
	; AVX256VL-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[6,7,12,13,u,u,8,9,6,7,14,15,14,15,0,1,22,23,28,29,18,19,26,27,22,23,u,u,30,31,16,17]			; AVX256VL-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[6,7,12,13],zero,zero,ymm1[8,9,6,7,14,15,14,15,0,1,22,23,28,29,18,19,26,27,22,23],zero,zero,ymm1[30,31,16,17]
	; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm2 {%k1} {z}			; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm2 {%k1} {z}
	; AVX256VL-NEXT: vpmovdw %ymm2, %xmm2			; AVX256VL-NEXT: vpmovdw %ymm2, %xmm2
	; AVX256VL-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3			; AVX256VL-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3
	; AVX256VL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX256VL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX256VL-NEXT: vpermq {{.*#+}} ymm2 = ymm2[1,1,2,1]			; AVX256VL-NEXT: vpermq {{.*#+}} ymm2 = ymm2[1,1,2,1]
	; AVX256VL-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,0,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,0,255,255,255,255]			; AVX256VL-NEXT: vpternlogq $220, {{.*}}(%rip), %ymm1, %ymm2
	; AVX256VL-NEXT: vpblendvb %ymm3, %ymm1, %ymm2, %ymm1			; AVX256VL-NEXT: vpmovsxwd %xmm2, %ymm1
	; AVX256VL-NEXT: vpmovsxwd %xmm1, %ymm2			; AVX256VL-NEXT: vpslld $31, %ymm1, %ymm1
	; AVX256VL-NEXT: vpslld $31, %ymm2, %ymm2			; AVX256VL-NEXT: vptestmd %ymm1, %ymm1, %k1
	; AVX256VL-NEXT: vptestmd %ymm2, %ymm2, %k1			; AVX256VL-NEXT: vextracti128 $1, %ymm2, %xmm1
	; AVX256VL-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX256VL-NEXT: vpmovsxwd %xmm1, %ymm1			; AVX256VL-NEXT: vpmovsxwd %xmm1, %ymm1
	; AVX256VL-NEXT: vpslld $31, %ymm1, %ymm1			; AVX256VL-NEXT: vpslld $31, %ymm1, %ymm1
	; AVX256VL-NEXT: vptestmd %ymm1, %ymm1, %k0			; AVX256VL-NEXT: vptestmd %ymm1, %ymm1, %k0
	; AVX256VL-NEXT: kunpckbw %k1, %k0, %k0			; AVX256VL-NEXT: kunpckbw %k1, %k0, %k0
	; AVX256VL-NEXT: kshiftrw $8, %k0, %k2			; AVX256VL-NEXT: kshiftrw $8, %k0, %k2
	; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm1 {%k2} {z}			; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm1 {%k2} {z}
	; AVX256VL-NEXT: vpmovdw %ymm1, %xmm1			; AVX256VL-NEXT: vpmovdw %ymm1, %xmm1
	; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm0 {%k1} {z}			; AVX256VL-NEXT: vmovdqa32 %ymm0, %ymm0 {%k1} {z}
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/shuffle-vs-trunc-256.ll

	Show First 20 Lines • Show All 1,339 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0			; AVX512F-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
	; AVX512F-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]			; AVX512F-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: negative:			; AVX512VL-LABEL: negative:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[u,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]			; AVX512VL-NEXT: vpshufb {{.*#+}} ymm0 = zero,ymm0[2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512VL-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: # ymm2 = mem[0,1,0,1]
	; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]			; AVX512VL-NEXT: vpternlogq $206, %ymm1, %ymm0, %ymm2
				; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm2[0,3,2,3]
	; AVX512VL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512VL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: negative:			; AVX512BW-LABEL: negative:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[u,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]			; AVX512BW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[u,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	Show All 29 Lines

llvm/test/CodeGen/X86/vector-fshl-128.ll

	Show First 20 Lines • Show All 2,899 Lines • ▼ Show 20 Lines
	; AVX512VL-LABEL: constant_funnnel_v16i8:			; AVX512VL-LABEL: constant_funnnel_v16i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512VL-NEXT: vpsrlvd {{.*}}(%rip), %zmm1, %zmm1			; AVX512VL-NEXT: vpsrlvd {{.*}}(%rip), %zmm1, %zmm1
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512VL-NEXT: vpsllvd {{.*}}(%rip), %zmm2, %zmm2			; AVX512VL-NEXT: vpsllvd {{.*}}(%rip), %zmm2, %zmm2
	; AVX512VL-NEXT: vpord %zmm1, %zmm2, %zmm1			; AVX512VL-NEXT: vpord %zmm1, %zmm2, %zmm1
	; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1			; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512VL-NEXT: vpbroadcastq {{.*#+}} xmm2 = [18446744073709551360,18446744073709551360]
	; AVX512VL-NEXT: vpblendvb %xmm2, %xmm1, %xmm0, %xmm0			; AVX512VL-NEXT: vpternlogq $216, %xmm2, %xmm1, %xmm0
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_funnnel_v16i8:			; AVX512BW-LABEL: constant_funnnel_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = <u,7,6,5,4,3,2,1,u,1,2,3,4,5,6,7>			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = <u,7,6,5,4,3,2,1,u,1,2,3,4,5,6,7>
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
	; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm1, %zmm1
	▲ Show 20 Lines • Show All 403 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshl-256.ll

	Show First 20 Lines • Show All 2,370 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15],ymm1[24],ymm3[24],ymm1[25],ymm3[25],ymm1[26],ymm3[26],ymm1[27],ymm3[27],ymm1[28],ymm3[28],ymm1[29],ymm3[29],ymm1[30],ymm3[30],ymm1[31],ymm3[31]			; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15],ymm1[24],ymm3[24],ymm1[25],ymm3[25],ymm1[26],ymm3[26],ymm1[27],ymm3[27],ymm1[28],ymm3[28],ymm1[29],ymm3[29],ymm1[30],ymm3[30],ymm1[31],ymm3[31]
	; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm4, %ymm4			; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm4, %ymm4
	; AVX512VL-NEXT: vpsrlw $8, %ymm4, %ymm4			; AVX512VL-NEXT: vpsrlw $8, %ymm4, %ymm4
	; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[16],ymm3[16],ymm1[17],ymm3[17],ymm1[18],ymm3[18],ymm1[19],ymm3[19],ymm1[20],ymm3[20],ymm1[21],ymm3[21],ymm1[22],ymm3[22],ymm1[23],ymm3[23]			; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[16],ymm3[16],ymm1[17],ymm3[17],ymm1[18],ymm3[18],ymm1[19],ymm3[19],ymm1[20],ymm3[20],ymm1[21],ymm3[21],ymm1[22],ymm3[22],ymm1[23],ymm3[23]
	; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512VL-NEXT: vpackuswb %ymm4, %ymm1, %ymm1			; AVX512VL-NEXT: vpackuswb %ymm4, %ymm1, %ymm1
	; AVX512VL-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX512VL-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512VL-NEXT: vpbroadcastq {{.*#+}} ymm2 = [18446744073709551360,18446744073709551360,18446744073709551360,18446744073709551360]
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; AVX512VL-NEXT: vpternlogq $216, %ymm2, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_funnnel_v32i8:			; AVX512BW-LABEL: constant_funnnel_v32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero,ymm1[16],zero,ymm1[17],zero,ymm1[18],zero,ymm1[19],zero,ymm1[20],zero,ymm1[21],zero,ymm1[22],zero,ymm1[23],zero,ymm1[24],zero,ymm1[25],zero,ymm1[26],zero,ymm1[27],zero,ymm1[28],zero,ymm1[29],zero,ymm1[30],zero,ymm1[31],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero,ymm1[16],zero,ymm1[17],zero,ymm1[18],zero,ymm1[19],zero,ymm1[20],zero,ymm1[21],zero,ymm1[22],zero,ymm1[23],zero,ymm1[24],zero,ymm1[25],zero,ymm1[26],zero,ymm1[27],zero,ymm1[28],zero,ymm1[29],zero,ymm1[30],zero,ymm1[31],zero
	; AVX512BW-NEXT: vpsrlvw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlvw {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm2 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm2 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512BW-NEXT: vpsllvw {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpsllvw {{.*}}(%rip), %zmm2, %zmm2
	▲ Show 20 Lines • Show All 440 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshr-128.ll

	Show First 20 Lines • Show All 2,645 Lines • ▼ Show 20 Lines
	;			;
	; AVX512VL-LABEL: constant_funnnel_v16i8:			; AVX512VL-LABEL: constant_funnnel_v16i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512VL-NEXT: vpsrlvd {{.*}}(%rip), %zmm2, %zmm2			; AVX512VL-NEXT: vpsrlvd {{.*}}(%rip), %zmm2, %zmm2
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512VL-NEXT: vpsllvd {{.*}}(%rip), %zmm0, %zmm0			; AVX512VL-NEXT: vpsllvd {{.*}}(%rip), %zmm0, %zmm0
	; AVX512VL-NEXT: vpord %zmm2, %zmm0, %zmm0			; AVX512VL-NEXT: vpord %zmm2, %zmm0, %zmm0
	; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0			; AVX512VL-NEXT: vpmovdb %zmm0, %xmm2
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512VL-NEXT: vpbroadcastq {{.*#+}} xmm0 = [18446744073709551360,18446744073709551360]
	; AVX512VL-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0			; AVX512VL-NEXT: vpternlogq $202, %xmm1, %xmm2, %xmm0
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_funnnel_v16i8:			; AVX512BW-LABEL: constant_funnnel_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = <u,1,2,3,4,5,6,7,u,7,6,5,4,3,2,1>			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = <u,1,2,3,4,5,6,7,u,7,6,5,4,3,2,1>
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm3 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm3 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
	; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm3, %zmm2
	▲ Show 20 Lines • Show All 400 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshr-256.ll

	Show First 20 Lines • Show All 2,077 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512VL-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm2[8],ymm1[9],ymm2[9],ymm1[10],ymm2[10],ymm1[11],ymm2[11],ymm1[12],ymm2[12],ymm1[13],ymm2[13],ymm1[14],ymm2[14],ymm1[15],ymm2[15],ymm1[24],ymm2[24],ymm1[25],ymm2[25],ymm1[26],ymm2[26],ymm1[27],ymm2[27],ymm1[28],ymm2[28],ymm1[29],ymm2[29],ymm1[30],ymm2[30],ymm1[31],ymm2[31]			; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm2[8],ymm1[9],ymm2[9],ymm1[10],ymm2[10],ymm1[11],ymm2[11],ymm1[12],ymm2[12],ymm1[13],ymm2[13],ymm1[14],ymm2[14],ymm1[15],ymm2[15],ymm1[24],ymm2[24],ymm1[25],ymm2[25],ymm1[26],ymm2[26],ymm1[27],ymm2[27],ymm1[28],ymm2[28],ymm1[29],ymm2[29],ymm1[30],ymm2[30],ymm1[31],ymm2[31]
	; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm3, %ymm3			; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm3, %ymm3
	; AVX512VL-NEXT: vpsrlw $8, %ymm3, %ymm3			; AVX512VL-NEXT: vpsrlw $8, %ymm3, %ymm3
	; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm1[0],ymm2[0],ymm1[1],ymm2[1],ymm1[2],ymm2[2],ymm1[3],ymm2[3],ymm1[4],ymm2[4],ymm1[5],ymm2[5],ymm1[6],ymm2[6],ymm1[7],ymm2[7],ymm1[16],ymm2[16],ymm1[17],ymm2[17],ymm1[18],ymm2[18],ymm1[19],ymm2[19],ymm1[20],ymm2[20],ymm1[21],ymm2[21],ymm1[22],ymm2[22],ymm1[23],ymm2[23]			; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm1[0],ymm2[0],ymm1[1],ymm2[1],ymm1[2],ymm2[2],ymm1[3],ymm2[3],ymm1[4],ymm2[4],ymm1[5],ymm2[5],ymm1[6],ymm2[6],ymm1[7],ymm2[7],ymm1[16],ymm2[16],ymm1[17],ymm2[17],ymm1[18],ymm2[18],ymm1[19],ymm2[19],ymm1[20],ymm2[20],ymm1[21],ymm2[21],ymm1[22],ymm2[22],ymm1[23],ymm2[23]
	; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm2, %ymm2			; AVX512VL-NEXT: vpmullw {{.*}}(%rip), %ymm2, %ymm2
	; AVX512VL-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX512VL-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512VL-NEXT: vpackuswb %ymm3, %ymm2, %ymm2			; AVX512VL-NEXT: vpackuswb %ymm3, %ymm2, %ymm2
	; AVX512VL-NEXT: vpor %ymm2, %ymm0, %ymm0			; AVX512VL-NEXT: vpor %ymm2, %ymm0, %ymm2
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512VL-NEXT: vpbroadcastq {{.*#+}} ymm0 = [18446744073709551360,18446744073709551360,18446744073709551360,18446744073709551360]
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpternlogq $202, %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_funnnel_v32i8:			; AVX512BW-LABEL: constant_funnnel_v32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm2 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero,ymm1[16],zero,ymm1[17],zero,ymm1[18],zero,ymm1[19],zero,ymm1[20],zero,ymm1[21],zero,ymm1[22],zero,ymm1[23],zero,ymm1[24],zero,ymm1[25],zero,ymm1[26],zero,ymm1[27],zero,ymm1[28],zero,ymm1[29],zero,ymm1[30],zero,ymm1[31],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm2 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero,ymm1[16],zero,ymm1[17],zero,ymm1[18],zero,ymm1[19],zero,ymm1[20],zero,ymm1[21],zero,ymm1[22],zero,ymm1[23],zero,ymm1[24],zero,ymm1[25],zero,ymm1[26],zero,ymm1[27],zero,ymm1[28],zero,ymm1[29],zero,ymm1[30],zero,ymm1[31],zero
	; AVX512BW-NEXT: vpsrlvw {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlvw {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512BW-NEXT: vpsllvw {{.*}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpsllvw {{.*}}(%rip), %zmm0, %zmm0
	▲ Show 20 Lines • Show All 438 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-v48.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,1,2,4,5,7,8,10,11,13,14]			; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,1,2,4,5,7,8,10,11,13,14]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7],ymm1[8,9,10],ymm0[11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7],ymm1[8,9,10],ymm0[11,12,13,14,15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: foo:			; AVX512F-LABEL: foo:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqu 32(%rdi), %xmm0			; AVX512F-NEXT: vmovdqu (%rdi), %ymm0
	; AVX512F-NEXT: vmovdqu (%rdi), %ymm1			; AVX512F-NEXT: vmovdqu 32(%rdi), %xmm1
				; AVX512F-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,1,2,4,5,7,8,10,11,13,14]
				; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm1
	; AVX512F-NEXT: vmovdqu 16(%rdi), %xmm2			; AVX512F-NEXT: vmovdqu 16(%rdi), %xmm2
	; AVX512F-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[u,u,u,u,u,u,u,u,u,u,u,0,2,3,5,6]			; AVX512F-NEXT: vpshufb {{.*#+}} ymm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm2[0,2,3,5,6],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX512F-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,3,4,6,7,9,10,12,13,15,u,u,u,u,u,24,25,27,28,30,31,u,u,u,u,u,u,u,u,u,u]			; AVX512F-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,3,4,6,7,9,10,12,13,15],zero,zero,zero,zero,zero,ymm0[24,25,27,28,30,31,u,u,u,u,u,u,u,u,u,u]
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = <255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,u,u,u,u,u,u,u,u,u,u>			; AVX512F-NEXT: vpor %ymm2, %ymm0, %ymm0
	; AVX512F-NEXT: vpblendvb %ymm3, %ymm1, %ymm2, %ymm1			; AVX512F-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0,1,2],ymm1[3,4,5,6,7],ymm0[8,9,10],ymm1[11,12,13,14,15]
	; AVX512F-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,1,2,4,5,7,8,10,11,13,14]			; AVX512F-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7],ymm1[8,9,10],ymm0[11,12,13,14,15]
	; AVX512F-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: foo:			; AVX512BW-LABEL: foo:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vmovdqu 32(%rdi), %xmm0			; AVX512BW-NEXT: vmovdqu 32(%rdi), %xmm0
	; AVX512BW-NEXT: vmovdqu (%rdi), %ymm1			; AVX512BW-NEXT: vmovdqu (%rdi), %ymm1
	; AVX512BW-NEXT: vmovdqu 16(%rdi), %xmm2			; AVX512BW-NEXT: vmovdqu 16(%rdi), %xmm2
	; AVX512BW-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[u,u,u,u,u,u,u,u,u,u,u,0,2,3,5,6]			; AVX512BW-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[u,u,u,u,u,u,u,u,u,u,u,0,2,3,5,6]
	Show All 21 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Teach lowerShuffleAsBlend to use bit blend for v16i8/v32i8/v16i16 when avx512vl is enabled but not avx512bw.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 275511

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/prefer-avx256-mask-shuffle.ll

llvm/test/CodeGen/X86/shuffle-vs-trunc-256.ll

llvm/test/CodeGen/X86/vector-fshl-128.ll

llvm/test/CodeGen/X86/vector-fshl-256.ll

llvm/test/CodeGen/X86/vector-fshr-128.ll

llvm/test/CodeGen/X86/vector-fshr-256.ll

llvm/test/CodeGen/X86/vector-shuffle-v48.ll

[X86] Teach lowerShuffleAsBlend to use bit blend for v16i8/v32i8/v16i16 when avx512vl is enabled but not avx512bw.
ClosedPublic