This is an archive of the discontinued LLVM Phabricator instance.

[AVX-512] Remove patterns that select vmovdqu8/16 for unmasked loads. Prefer vmovdqa64/vmovdqu64 instead.
ClosedPublic

Authored by craig.topper on Jul 27 2017, 11:39 PM.

Download Raw Diff

Details

Reviewers

RKSimon
zvi

Commits

rGcb0e74975a51: [AVX-512] Remove patterns that select vmovdqu8/16 for unmasked loads. Prefer…
rL309589: [AVX-512] Remove patterns that select vmovdqu8/16 for unmasked loads. Prefer…

Summary

These were taking priority over the aligned load instructions since there is no vmovda8/16. I don't think there is really a difference between aligned and unaligned on newer cpus so I don't think it matters which instructions we use.

But with this change we reduce the size of the isel table a little and we allow the aligned information to pass through to the evex->vec pass and produce the same output has avx/avx2 in some cases.

I also generally dislike patterns rooted in a bitcast which these were.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Jul 27 2017, 11:39 PM

Harbormaster completed remote builds in B8674: Diff 108586.Jul 27 2017, 11:40 PM

craig.topper added reviewers: RKSimon, zvi.Jul 27 2017, 11:40 PM

craig.topper added a subscriber: llvm-commits.

craig.topper added a child revision: D35978: [AVX-512] Don't use unmasked VMOVDQU8/16 for 8-bit or 16-bit element stores even when BWI instructions are supported. Always use VMOVDQA32/VMOVDQU32..Jul 27 2017, 11:45 PM

LGTM

This revision is now accepted and ready to land.Jul 31 2017, 6:35 AM

Closed by commit rL309589: [AVX-512] Remove patterns that select vmovdqu8/16 for unmasked loads. Prefer… (authored by ctopper). · Explain WhyJul 31 2017, 10:36 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86InstrAVX512.td

29 lines

test/

CodeGen/

X86/

avg.ll

12 lines

avx2-intrinsics-x86.ll

2 lines

avx512-insert-extract.ll

2 lines

avx512bw-intrinsics-upgrade.ll

8 lines

avx512bw-intrinsics.ll

4 lines

4 lines

8 lines

4 lines

2 lines

2 lines

shuffle-vs-trunc-128.ll

4 lines

shuffle-vs-trunc-256.ll

4 lines

shuffle-vs-trunc-512.ll

8 lines

sse42-intrinsics-x86.ll

4 lines

ssse3-intrinsics-x86.ll

2 lines

subvector-broadcast.ll

8 lines

16 lines

24 lines

68 lines

16 lines

12 lines

45 lines

42 lines

16 lines

vector-shift-ashr-512.ll

2 lines

vector-shift-lshr-512.ll

2 lines

vector-shift-shl-512.ll

2 lines

vector-shuffle-128-v16.ll

22 lines

vector-shuffle-256-v16.ll

266 lines

vector-shuffle-512-v32.ll

4 lines

vector-shuffle-512-v64.ll

6 lines

vector-shuffle-combining-avx512bw.ll

20 lines

vector-shuffle-combining-avx512bwvl.ll

16 lines

vector-shuffle-combining-avx512vbmi.ll

32 lines

vector-shuffle-v1.ll

2 lines

vector-trunc.ll

38 lines

vector-tzcnt-512.ll

28 lines

Diff 108951

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,243 Lines • ▼ Show 20 Lines
defm : mask_shift_lowering<VK2, v2i1>, Requires<[HasAVX512]>;		defm : mask_shift_lowering<VK2, v2i1>, Requires<[HasAVX512]>;
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX-512 - Aligned and unaligned load and store		// AVX-512 - Aligned and unaligned load and store
//		//


multiclass avx512_load<bits<8> opc, string OpcodeStr, X86VectorVTInfo _,		multiclass avx512_load<bits<8> opc, string OpcodeStr, X86VectorVTInfo _,
PatFrag ld_frag, PatFrag mload,		PatFrag ld_frag, PatFrag mload,
		bit NoRMPattern = 0,
SDPatternOperator SelectOprr = vselect> {		SDPatternOperator SelectOprr = vselect> {
let hasSideEffects = 0 in {		let hasSideEffects = 0 in {
def rr : AVX512PI<opc, MRMSrcReg, (outs _.RC:$dst), (ins _.RC:$src),		def rr : AVX512PI<opc, MRMSrcReg, (outs _.RC:$dst), (ins _.RC:$src),
!strconcat(OpcodeStr, "\t{$src, $dst\|$dst, $src}"), [],		!strconcat(OpcodeStr, "\t{$src, $dst\|$dst, $src}"), [],
_.ExeDomain>, EVEX;		_.ExeDomain>, EVEX;
def rrkz : AVX512PI<opc, MRMSrcReg, (outs _.RC:$dst),		def rrkz : AVX512PI<opc, MRMSrcReg, (outs _.RC:$dst),
(ins _.KRCWM:$mask, _.RC:$src),		(ins _.KRCWM:$mask, _.RC:$src),
!strconcat(OpcodeStr, "\t{$src, ${dst} {${mask}} {z}\|",		!strconcat(OpcodeStr, "\t{$src, ${dst} {${mask}} {z}\|",
"${dst} {${mask}} {z}, $src}"),		"${dst} {${mask}} {z}, $src}"),
[(set _.RC:$dst, (_.VT (SelectOprr _.KRCWM:$mask,		[(set _.RC:$dst, (_.VT (SelectOprr _.KRCWM:$mask,
(_.VT _.RC:$src),		(_.VT _.RC:$src),
_.ImmAllZerosV)))], _.ExeDomain>,		_.ImmAllZerosV)))], _.ExeDomain>,
EVEX, EVEX_KZ;		EVEX, EVEX_KZ;

let canFoldAsLoad = 1, isReMaterializable = 1,		let mayLoad = 1, canFoldAsLoad = 1, isReMaterializable = 1,
SchedRW = [WriteLoad] in		SchedRW = [WriteLoad] in
def rm : AVX512PI<opc, MRMSrcMem, (outs _.RC:$dst), (ins _.MemOp:$src),		def rm : AVX512PI<opc, MRMSrcMem, (outs _.RC:$dst), (ins _.MemOp:$src),
!strconcat(OpcodeStr, "\t{$src, $dst\|$dst, $src}"),		!strconcat(OpcodeStr, "\t{$src, $dst\|$dst, $src}"),
[(set _.RC:$dst, (_.VT (bitconvert (ld_frag addr:$src))))],		!if(NoRMPattern, [],
		[(set _.RC:$dst,
		(_.VT (bitconvert (ld_frag addr:$src))))]),
_.ExeDomain>, EVEX;		_.ExeDomain>, EVEX;

let Constraints = "$src0 = $dst", isConvertibleToThreeAddress = 1 in {		let Constraints = "$src0 = $dst", isConvertibleToThreeAddress = 1 in {
def rrk : AVX512PI<opc, MRMSrcReg, (outs _.RC:$dst),		def rrk : AVX512PI<opc, MRMSrcReg, (outs _.RC:$dst),
(ins _.RC:$src0, _.KRCWM:$mask, _.RC:$src1),		(ins _.RC:$src0, _.KRCWM:$mask, _.RC:$src1),
!strconcat(OpcodeStr, "\t{$src1, ${dst} {${mask}}\|",		!strconcat(OpcodeStr, "\t{$src1, ${dst} {${mask}}\|",
"${dst} {${mask}}, $src1}"),		"${dst} {${mask}}, $src1}"),
[(set _.RC:$dst, (_.VT (SelectOprr _.KRCWM:$mask,		[(set _.RC:$dst, (_.VT (SelectOprr _.KRCWM:$mask,
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	multiclass avx512_alignedload_vl<bits<8> opc, string OpcodeStr,
defm Z128 : avx512_load<opc, OpcodeStr, _.info128, _.info128.AlignedLdFrag,		defm Z128 : avx512_load<opc, OpcodeStr, _.info128, _.info128.AlignedLdFrag,
masked_load_aligned128>, EVEX_V128;		masked_load_aligned128>, EVEX_V128;
}		}
}		}

multiclass avx512_load_vl<bits<8> opc, string OpcodeStr,		multiclass avx512_load_vl<bits<8> opc, string OpcodeStr,
AVX512VLVectorVTInfo _,		AVX512VLVectorVTInfo _,
Predicate prd,		Predicate prd,
		bit NoRMPattern = 0,
SDPatternOperator SelectOprr = vselect> {		SDPatternOperator SelectOprr = vselect> {
let Predicates = [prd] in		let Predicates = [prd] in
defm Z : avx512_load<opc, OpcodeStr, _.info512, _.info512.LdFrag,		defm Z : avx512_load<opc, OpcodeStr, _.info512, _.info512.LdFrag,
masked_load_unaligned, SelectOprr>, EVEX_V512;		masked_load_unaligned, NoRMPattern,
		SelectOprr>, EVEX_V512;

let Predicates = [prd, HasVLX] in {		let Predicates = [prd, HasVLX] in {
defm Z256 : avx512_load<opc, OpcodeStr, _.info256, _.info256.LdFrag,		defm Z256 : avx512_load<opc, OpcodeStr, _.info256, _.info256.LdFrag,
masked_load_unaligned, SelectOprr>, EVEX_V256;		masked_load_unaligned, NoRMPattern,
		SelectOprr>, EVEX_V256;
defm Z128 : avx512_load<opc, OpcodeStr, _.info128, _.info128.LdFrag,		defm Z128 : avx512_load<opc, OpcodeStr, _.info128, _.info128.LdFrag,
masked_load_unaligned, SelectOprr>, EVEX_V128;		masked_load_unaligned, NoRMPattern,
		SelectOprr>, EVEX_V128;
}		}
}		}

multiclass avx512_store<bits<8> opc, string OpcodeStr, X86VectorVTInfo _,		multiclass avx512_store<bits<8> opc, string OpcodeStr, X86VectorVTInfo _,
PatFrag st_frag, PatFrag mstore, string Name> {		PatFrag st_frag, PatFrag mstore, string Name> {

let hasSideEffects = 0 in {		let hasSideEffects = 0 in {
def rr_REV : AVX512PI<opc, MRMDestReg, (outs _.RC:$dst), (ins _.RC:$src),		def rr_REV : AVX512PI<opc, MRMDestReg, (outs _.RC:$dst), (ins _.RC:$src),
▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines

defm VMOVAPD : avx512_alignedload_vl<0x28, "vmovapd", avx512vl_f64_info,		defm VMOVAPD : avx512_alignedload_vl<0x28, "vmovapd", avx512vl_f64_info,
HasAVX512>,		HasAVX512>,
avx512_alignedstore_vl<0x29, "vmovapd", avx512vl_f64_info,		avx512_alignedstore_vl<0x29, "vmovapd", avx512vl_f64_info,
HasAVX512, "VMOVAPD">,		HasAVX512, "VMOVAPD">,
PD, VEX_W, EVEX_CD8<64, CD8VF>;		PD, VEX_W, EVEX_CD8<64, CD8VF>;

defm VMOVUPS : avx512_load_vl<0x10, "vmovups", avx512vl_f32_info, HasAVX512,		defm VMOVUPS : avx512_load_vl<0x10, "vmovups", avx512vl_f32_info, HasAVX512,
null_frag>,		0, null_frag>,
avx512_store_vl<0x11, "vmovups", avx512vl_f32_info, HasAVX512,		avx512_store_vl<0x11, "vmovups", avx512vl_f32_info, HasAVX512,
"VMOVUPS">,		"VMOVUPS">,
PS, EVEX_CD8<32, CD8VF>;		PS, EVEX_CD8<32, CD8VF>;

defm VMOVUPD : avx512_load_vl<0x10, "vmovupd", avx512vl_f64_info, HasAVX512,		defm VMOVUPD : avx512_load_vl<0x10, "vmovupd", avx512vl_f64_info, HasAVX512,
null_frag>,		0, null_frag>,
avx512_store_vl<0x11, "vmovupd", avx512vl_f64_info, HasAVX512,		avx512_store_vl<0x11, "vmovupd", avx512vl_f64_info, HasAVX512,
"VMOVUPD">,		"VMOVUPD">,
PD, VEX_W, EVEX_CD8<64, CD8VF>;		PD, VEX_W, EVEX_CD8<64, CD8VF>;

defm VMOVDQA32 : avx512_alignedload_vl<0x6F, "vmovdqa32", avx512vl_i32_info,		defm VMOVDQA32 : avx512_alignedload_vl<0x6F, "vmovdqa32", avx512vl_i32_info,
HasAVX512>,		HasAVX512>,
avx512_alignedstore_vl<0x7F, "vmovdqa32", avx512vl_i32_info,		avx512_alignedstore_vl<0x7F, "vmovdqa32", avx512vl_i32_info,
HasAVX512, "VMOVDQA32">,		HasAVX512, "VMOVDQA32">,
PD, EVEX_CD8<32, CD8VF>;		PD, EVEX_CD8<32, CD8VF>;

defm VMOVDQA64 : avx512_alignedload_vl<0x6F, "vmovdqa64", avx512vl_i64_info,		defm VMOVDQA64 : avx512_alignedload_vl<0x6F, "vmovdqa64", avx512vl_i64_info,
HasAVX512>,		HasAVX512>,
avx512_alignedstore_vl<0x7F, "vmovdqa64", avx512vl_i64_info,		avx512_alignedstore_vl<0x7F, "vmovdqa64", avx512vl_i64_info,
HasAVX512, "VMOVDQA64">,		HasAVX512, "VMOVDQA64">,
PD, VEX_W, EVEX_CD8<64, CD8VF>;		PD, VEX_W, EVEX_CD8<64, CD8VF>;

defm VMOVDQU8 : avx512_load_vl<0x6F, "vmovdqu8", avx512vl_i8_info, HasBWI>,		defm VMOVDQU8 : avx512_load_vl<0x6F, "vmovdqu8", avx512vl_i8_info, HasBWI, 1>,
avx512_store_vl<0x7F, "vmovdqu8", avx512vl_i8_info,		avx512_store_vl<0x7F, "vmovdqu8", avx512vl_i8_info,
HasBWI, "VMOVDQU8">,		HasBWI, "VMOVDQU8">,
XD, EVEX_CD8<8, CD8VF>;		XD, EVEX_CD8<8, CD8VF>;

defm VMOVDQU16 : avx512_load_vl<0x6F, "vmovdqu16", avx512vl_i16_info, HasBWI>,		defm VMOVDQU16 : avx512_load_vl<0x6F, "vmovdqu16", avx512vl_i16_info, HasBWI, 1>,
avx512_store_vl<0x7F, "vmovdqu16", avx512vl_i16_info,		avx512_store_vl<0x7F, "vmovdqu16", avx512vl_i16_info,
HasBWI, "VMOVDQU16">,		HasBWI, "VMOVDQU16">,
XD, VEX_W, EVEX_CD8<16, CD8VF>;		XD, VEX_W, EVEX_CD8<16, CD8VF>;

defm VMOVDQU32 : avx512_load_vl<0x6F, "vmovdqu32", avx512vl_i32_info, HasAVX512,		defm VMOVDQU32 : avx512_load_vl<0x6F, "vmovdqu32", avx512vl_i32_info, HasAVX512,
null_frag>,		0, null_frag>,
avx512_store_vl<0x7F, "vmovdqu32", avx512vl_i32_info,		avx512_store_vl<0x7F, "vmovdqu32", avx512vl_i32_info,
HasAVX512, "VMOVDQU32">,		HasAVX512, "VMOVDQU32">,
XS, EVEX_CD8<32, CD8VF>;		XS, EVEX_CD8<32, CD8VF>;

defm VMOVDQU64 : avx512_load_vl<0x6F, "vmovdqu64", avx512vl_i64_info, HasAVX512,		defm VMOVDQU64 : avx512_load_vl<0x6F, "vmovdqu64", avx512vl_i64_info, HasAVX512,
null_frag>,		0, null_frag>,
avx512_store_vl<0x7F, "vmovdqu64", avx512vl_i64_info,		avx512_store_vl<0x7F, "vmovdqu64", avx512vl_i64_info,
HasAVX512, "VMOVDQU64">,		HasAVX512, "VMOVDQU64">,
XS, VEX_W, EVEX_CD8<64, CD8VF>;		XS, VEX_W, EVEX_CD8<64, CD8VF>;

// Special instructions to help with spilling when we don't have VLX. We need		// Special instructions to help with spilling when we don't have VLX. We need
// to load or store from a ZMM register instead. These are converted in		// to load or store from a ZMM register instead. These are converted in
// expandPostRAPseudos.		// expandPostRAPseudos.
let isReMaterializable = 1, canFoldAsLoad = 1,		let isReMaterializable = 1, canFoldAsLoad = 1,
▲ Show 20 Lines • Show All 6,814 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avg.ll

	Show First 20 Lines • Show All 704 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512F-NEXT: vmovdqu %ymm1, (%rax)			; AVX512F-NEXT: vmovdqu %ymm1, (%rax)
	; AVX512F-NEXT: vmovdqu %ymm0, (%rax)			; AVX512F-NEXT: vmovdqu %ymm0, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: avg_v64i8:			; AVX512BW-LABEL: avg_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 (%rsi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rsi), %zmm0
	; AVX512BW-NEXT: vpavgb (%rdi), %zmm0, %zmm0			; AVX512BW-NEXT: vpavgb (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu8 %zmm0, (%rax)			; AVX512BW-NEXT: vmovdqu8 %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%1 = load <64 x i8>, <64 x i8>* %a			%1 = load <64 x i8>, <64 x i8>* %a
	%2 = load <64 x i8>, <64 x i8>* %b			%2 = load <64 x i8>, <64 x i8>* %b
	%3 = zext <64 x i8> %1 to <64 x i32>			%3 = zext <64 x i8> %1 to <64 x i32>
	%4 = zext <64 x i8> %2 to <64 x i32>			%4 = zext <64 x i8> %2 to <64 x i32>
	▲ Show 20 Lines • Show All 372 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrld $1, %zmm0, %zmm0			; AVX512F-NEXT: vpsrld $1, %zmm0, %zmm0
	; AVX512F-NEXT: vpmovdw %zmm0, (%rax)			; AVX512F-NEXT: vpmovdw %zmm0, (%rax)
	; AVX512F-NEXT: vpmovdw %zmm1, (%rax)			; AVX512F-NEXT: vpmovdw %zmm1, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: avg_v32i16:			; AVX512BW-LABEL: avg_v32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu16 (%rsi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rsi), %zmm0
	; AVX512BW-NEXT: vpavgw (%rdi), %zmm0, %zmm0			; AVX512BW-NEXT: vpavgw (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu16 %zmm0, (%rax)			; AVX512BW-NEXT: vmovdqu16 %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%1 = load <32 x i16>, <32 x i16>* %a			%1 = load <32 x i16>, <32 x i16>* %a
	%2 = load <32 x i16>, <32 x i16>* %b			%2 = load <32 x i16>, <32 x i16>* %b
	%3 = zext <32 x i16> %1 to <32 x i32>			%3 = zext <32 x i16> %1 to <32 x i32>
	%4 = zext <32 x i16> %2 to <32 x i32>			%4 = zext <32 x i16> %2 to <32 x i32>
	▲ Show 20 Lines • Show All 616 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512F-NEXT: vmovdqu %ymm1, (%rax)			; AVX512F-NEXT: vmovdqu %ymm1, (%rax)
	; AVX512F-NEXT: vmovdqu %ymm0, (%rax)			; AVX512F-NEXT: vmovdqu %ymm0, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: avg_v64i8_2:			; AVX512BW-LABEL: avg_v64i8_2:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 (%rsi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rsi), %zmm0
	; AVX512BW-NEXT: vpavgb %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpavgb %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu8 %zmm0, (%rax)			; AVX512BW-NEXT: vmovdqu8 %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%1 = load <64 x i8>, <64 x i8>* %a			%1 = load <64 x i8>, <64 x i8>* %a
	%2 = load <64 x i8>, <64 x i8>* %b			%2 = load <64 x i8>, <64 x i8>* %b
	%3 = zext <64 x i8> %1 to <64 x i32>			%3 = zext <64 x i8> %1 to <64 x i32>
	%4 = zext <64 x i8> %2 to <64 x i32>			%4 = zext <64 x i8> %2 to <64 x i32>
	▲ Show 20 Lines • Show All 373 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrld $1, %zmm0, %zmm0			; AVX512F-NEXT: vpsrld $1, %zmm0, %zmm0
	; AVX512F-NEXT: vpmovdw %zmm0, (%rax)			; AVX512F-NEXT: vpmovdw %zmm0, (%rax)
	; AVX512F-NEXT: vpmovdw %zmm1, (%rax)			; AVX512F-NEXT: vpmovdw %zmm1, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: avg_v32i16_2:			; AVX512BW-LABEL: avg_v32i16_2:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BW-NEXT: vpavgw (%rsi), %zmm0, %zmm0			; AVX512BW-NEXT: vpavgw (%rsi), %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu16 %zmm0, (%rax)			; AVX512BW-NEXT: vmovdqu16 %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%1 = load <32 x i16>, <32 x i16>* %a			%1 = load <32 x i16>, <32 x i16>* %a
	%2 = load <32 x i16>, <32 x i16>* %b			%2 = load <32 x i16>, <32 x i16>* %b
	%3 = zext <32 x i16> %1 to <32 x i32>			%3 = zext <32 x i16> %1 to <32 x i32>
	%4 = zext <32 x i16> %2 to <32 x i32>			%4 = zext <32 x i16> %2 to <32 x i32>
	▲ Show 20 Lines • Show All 508 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX512F-NEXT: vmovdqu %ymm0, (%rax)			; AVX512F-NEXT: vmovdqu %ymm0, (%rax)
	; AVX512F-NEXT: vmovdqu %ymm2, (%rax)			; AVX512F-NEXT: vmovdqu %ymm2, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: avg_v64i8_const:			; AVX512BW-LABEL: avg_v64i8_const:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 (%rdi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BW-NEXT: vpavgb {{.*}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpavgb {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu8 %zmm0, (%rax)			; AVX512BW-NEXT: vmovdqu8 %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%1 = load <64 x i8>, <64 x i8>* %a			%1 = load <64 x i8>, <64 x i8>* %a
	%2 = zext <64 x i8> %1 to <64 x i32>			%2 = zext <64 x i8> %1 to <64 x i32>
	%3 = add nuw nsw <64 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>			%3 = add nuw nsw <64 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>
	%4 = lshr <64 x i32> %3, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%4 = lshr <64 x i32> %3, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	▲ Show 20 Lines • Show All 291 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrld $1, %zmm1, %zmm1			; AVX512F-NEXT: vpsrld $1, %zmm1, %zmm1
	; AVX512F-NEXT: vpmovdw %zmm1, (%rax)			; AVX512F-NEXT: vpmovdw %zmm1, (%rax)
	; AVX512F-NEXT: vpmovdw %zmm0, (%rax)			; AVX512F-NEXT: vpmovdw %zmm0, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: avg_v32i16_const:			; AVX512BW-LABEL: avg_v32i16_const:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BW-NEXT: vpavgw {{.*}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpavgw {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu16 %zmm0, (%rax)			; AVX512BW-NEXT: vmovdqu16 %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%1 = load <32 x i16>, <32 x i16>* %a			%1 = load <32 x i16>, <32 x i16>* %a
	%2 = zext <32 x i16> %1 to <32 x i32>			%2 = zext <32 x i16> %1 to <32 x i32>
	%3 = add nuw nsw <32 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>			%3 = add nuw nsw <32 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>
	%4 = lshr <32 x i32> %3, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%4 = lshr <32 x i32> %3, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	%5 = trunc <32 x i32> %4 to <32 x i16>			%5 = trunc <32 x i32> %4 to <32 x i16>
	store <32 x i16> %5, <32 x i16>* undef, align 4			store <32 x i16> %5, <32 x i16>* undef, align 4
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/avx2-intrinsics-x86.ll

	Show First 20 Lines • Show All 757 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]			; AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]
	; AVX2-NEXT: vmovdqa (%eax), %ymm1 ## encoding: [0xc5,0xfd,0x6f,0x08]			; AVX2-NEXT: vmovdqa (%eax), %ymm1 ## encoding: [0xc5,0xfd,0x6f,0x08]
	; AVX2-NEXT: vpmaddubsw %ymm0, %ymm1, %ymm0 ## encoding: [0xc4,0xe2,0x75,0x04,0xc0]			; AVX2-NEXT: vpmaddubsw %ymm0, %ymm1, %ymm0 ## encoding: [0xc4,0xe2,0x75,0x04,0xc0]
	; AVX2-NEXT: retl ## encoding: [0xc3]			; AVX2-NEXT: retl ## encoding: [0xc3]
	;			;
	; AVX512VL-LABEL: test_x86_avx2_pmadd_ub_sw_load_op0:			; AVX512VL-LABEL: test_x86_avx2_pmadd_ub_sw_load_op0:
	; AVX512VL: ## BB#0:			; AVX512VL: ## BB#0:
	; AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]			; AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]
	; AVX512VL-NEXT: vmovdqu (%eax), %ymm1 ## EVEX TO VEX Compression encoding: [0xc5,0xfe,0x6f,0x08]			; AVX512VL-NEXT: vmovdqa (%eax), %ymm1 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0x08]
	; AVX512VL-NEXT: vpmaddubsw %ymm0, %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0x04,0xc0]			; AVX512VL-NEXT: vpmaddubsw %ymm0, %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0x04,0xc0]
	; AVX512VL-NEXT: retl ## encoding: [0xc3]			; AVX512VL-NEXT: retl ## encoding: [0xc3]
	%a0 = load <32 x i8>, <32 x i8>* %ptr			%a0 = load <32 x i8>, <32 x i8>* %ptr
	%res = call <16 x i16> @llvm.x86.avx2.pmadd.ub.sw(<32 x i8> %a0, <32 x i8> %a1) ; <<16 x i16>> [#uses=1]			%res = call <16 x i16> @llvm.x86.avx2.pmadd.ub.sw(<32 x i8> %a0, <32 x i8> %a1) ; <<16 x i16>> [#uses=1]
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

	define <16 x i16> @test_x86_avx2_pmul_hr_sw(<16 x i16> %a0, <16 x i16> %a1) {			define <16 x i16> @test_x86_avx2_pmul_hr_sw(<16 x i16> %a0, <16 x i16> %a1) {
	▲ Show 20 Lines • Show All 863 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-insert-extract.ll

	Show First 20 Lines • Show All 1,289 Lines • ▼ Show 20 Lines
	; SKX-NEXT: cmpl %esi, %edi			; SKX-NEXT: cmpl %esi, %edi
	; SKX-NEXT: setb %al			; SKX-NEXT: setb %al
	; SKX-NEXT: vpcmpltud %zmm2, %zmm0, %k0			; SKX-NEXT: vpcmpltud %zmm2, %zmm0, %k0
	; SKX-NEXT: vpcmpltud %zmm3, %zmm1, %k1			; SKX-NEXT: vpcmpltud %zmm3, %zmm1, %k1
	; SKX-NEXT: kunpckwd %k0, %k1, %k0			; SKX-NEXT: kunpckwd %k0, %k1, %k0
	; SKX-NEXT: vpmovm2w %k0, %zmm0			; SKX-NEXT: vpmovm2w %k0, %zmm0
	; SKX-NEXT: kmovd %eax, %k0			; SKX-NEXT: kmovd %eax, %k0
	; SKX-NEXT: vpmovm2w %k0, %zmm1			; SKX-NEXT: vpmovm2w %k0, %zmm1
	; SKX-NEXT: vmovdqu16 {{.*#+}} zmm2 = [0,1,2,3,32,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31]			; SKX-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,1,2,3,32,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31]
	; SKX-NEXT: vpermi2w %zmm1, %zmm0, %zmm2			; SKX-NEXT: vpermi2w %zmm1, %zmm0, %zmm2
	; SKX-NEXT: vpmovw2m %zmm2, %k0			; SKX-NEXT: vpmovw2m %zmm2, %k0
	; SKX-NEXT: kmovd %k0, %eax			; SKX-NEXT: kmovd %k0, %eax
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%cmp_res_i1 = icmp ult i32 %a, %b			%cmp_res_i1 = icmp ult i32 %a, %b
	%cmp_cmp_vec = icmp ult <32 x i32> %x, %y			%cmp_cmp_vec = icmp ult <32 x i32> %x, %y
	%maskv = insertelement <32 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 4			%maskv = insertelement <32 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 4
	▲ Show 20 Lines • Show All 1,232 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
ret void		ret void
}		}

declare <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8*, <32 x i16>, i32)		declare <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8*, <32 x i16>, i32)

define <32 x i16>@test_int_x86_avx512_mask_loadu_w_512(i8* %ptr, i8* %ptr2, <32 x i16> %x1, i32 %mask) {		define <32 x i16>@test_int_x86_avx512_mask_loadu_w_512(i8* %ptr, i8* %ptr2, <32 x i16> %x1, i32 %mask) {
; AVX512BW-LABEL: test_int_x86_avx512_mask_loadu_w_512:		; AVX512BW-LABEL: test_int_x86_avx512_mask_loadu_w_512:
; AVX512BW: ## BB#0:		; AVX512BW: ## BB#0:
; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm0		; AVX512BW-NEXT: vmovdqu64 (%rdi), %zmm0
; AVX512BW-NEXT: kmovd %edx, %k1		; AVX512BW-NEXT: kmovd %edx, %k1
; AVX512BW-NEXT: vmovdqu16 (%rsi), %zmm0 {%k1}		; AVX512BW-NEXT: vmovdqu16 (%rsi), %zmm0 {%k1}
; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm1 {%k1} {z}		; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm1 {%k1} {z}
; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512F-32-LABEL: test_int_x86_avx512_mask_loadu_w_512:		; AVX512F-32-LABEL: test_int_x86_avx512_mask_loadu_w_512:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax		; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx		; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx
; AVX512F-32-NEXT: vmovdqu16 (%ecx), %zmm0		; AVX512F-32-NEXT: vmovdqu64 (%ecx), %zmm0
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1		; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vmovdqu16 (%eax), %zmm0 {%k1}		; AVX512F-32-NEXT: vmovdqu16 (%eax), %zmm0 {%k1}
; AVX512F-32-NEXT: vmovdqu16 (%ecx), %zmm1 {%k1} {z}		; AVX512F-32-NEXT: vmovdqu16 (%ecx), %zmm1 {%k1} {z}
; AVX512F-32-NEXT: vpaddw %zmm1, %zmm0, %zmm0		; AVX512F-32-NEXT: vpaddw %zmm1, %zmm0, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%res0 = call <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8* %ptr, <32 x i16> %x1, i32 -1)		%res0 = call <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8* %ptr, <32 x i16> %x1, i32 -1)
%res = call <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8* %ptr2, <32 x i16> %res0, i32 %mask)		%res = call <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8* %ptr2, <32 x i16> %res0, i32 %mask)
%res1 = call <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8* %ptr, <32 x i16> zeroinitializer, i32 %mask)		%res1 = call <32 x i16> @llvm.x86.avx512.mask.loadu.w.512(i8* %ptr, <32 x i16> zeroinitializer, i32 %mask)
%res2 = add <32 x i16> %res, %res1		%res2 = add <32 x i16> %res, %res1
ret <32 x i16> %res2		ret <32 x i16> %res2
}		}

declare <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8*, <64 x i8>, i64)		declare <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8*, <64 x i8>, i64)

define <64 x i8>@test_int_x86_avx512_mask_loadu_b_512(i8* %ptr, i8* %ptr2, <64 x i8> %x1, i64 %mask) {		define <64 x i8>@test_int_x86_avx512_mask_loadu_b_512(i8* %ptr, i8* %ptr2, <64 x i8> %x1, i64 %mask) {
; AVX512BW-LABEL: test_int_x86_avx512_mask_loadu_b_512:		; AVX512BW-LABEL: test_int_x86_avx512_mask_loadu_b_512:
; AVX512BW: ## BB#0:		; AVX512BW: ## BB#0:
; AVX512BW-NEXT: vmovdqu8 (%rdi), %zmm0		; AVX512BW-NEXT: vmovdqu64 (%rdi), %zmm0
; AVX512BW-NEXT: kmovq %rdx, %k1		; AVX512BW-NEXT: kmovq %rdx, %k1
; AVX512BW-NEXT: vmovdqu8 (%rsi), %zmm0 {%k1}		; AVX512BW-NEXT: vmovdqu8 (%rsi), %zmm0 {%k1}
; AVX512BW-NEXT: vmovdqu8 (%rdi), %zmm1 {%k1} {z}		; AVX512BW-NEXT: vmovdqu8 (%rdi), %zmm1 {%k1} {z}
; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512F-32-LABEL: test_int_x86_avx512_mask_loadu_b_512:		; AVX512F-32-LABEL: test_int_x86_avx512_mask_loadu_b_512:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax		; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx		; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx
; AVX512F-32-NEXT: vmovdqu8 (%ecx), %zmm0		; AVX512F-32-NEXT: vmovdqu64 (%ecx), %zmm0
; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1		; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vmovdqu8 (%eax), %zmm0 {%k1}		; AVX512F-32-NEXT: vmovdqu8 (%eax), %zmm0 {%k1}
; AVX512F-32-NEXT: vmovdqu8 (%ecx), %zmm1 {%k1} {z}		; AVX512F-32-NEXT: vmovdqu8 (%ecx), %zmm1 {%k1} {z}
; AVX512F-32-NEXT: vpaddb %zmm1, %zmm0, %zmm0		; AVX512F-32-NEXT: vpaddb %zmm1, %zmm0, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%res0 = call <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8* %ptr, <64 x i8> %x1, i64 -1)		%res0 = call <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8* %ptr, <64 x i8> %x1, i64 -1)
%res = call <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8* %ptr2, <64 x i8> %res0, i64 %mask)		%res = call <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8* %ptr2, <64 x i8> %res0, i64 %mask)
%res1 = call <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8* %ptr, <64 x i8> zeroinitializer, i64 %mask)		%res1 = call <64 x i8> @llvm.x86.avx512.mask.loadu.b.512(i8* %ptr, <64 x i8> zeroinitializer, i64 %mask)
▲ Show 20 Lines • Show All 3,512 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512bw-intrinsics.ll

Show First 20 Lines • Show All 1,704 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
%res3 = add <32 x i16> %res, %res1		%res3 = add <32 x i16> %res, %res1
%res4 = add <32 x i16> %res3, %res2		%res4 = add <32 x i16> %res3, %res2
ret <32 x i16> %res4		ret <32 x i16> %res4
}		}

define <32 x i16>@test_int_x86_avx512_mask_psrav32_hi_const(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 %x3) {		define <32 x i16>@test_int_x86_avx512_mask_psrav32_hi_const(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 %x3) {
; AVX512BW-LABEL: test_int_x86_avx512_mask_psrav32_hi_const:		; AVX512BW-LABEL: test_int_x86_avx512_mask_psrav32_hi_const:
; AVX512BW: ## BB#0:		; AVX512BW: ## BB#0:
; AVX512BW-NEXT: vmovdqu16 {{.*#+}} zmm0 = [2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51]		; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm0 = [2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51]
; AVX512BW-NEXT: vpsravw {{.*}}(%rip), %zmm0, %zmm0		; AVX512BW-NEXT: vpsravw {{.*}}(%rip), %zmm0, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512F-32-LABEL: test_int_x86_avx512_mask_psrav32_hi_const:		; AVX512F-32-LABEL: test_int_x86_avx512_mask_psrav32_hi_const:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqu16 {{.*#+}} zmm0 = [2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm0 = [2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51,2,9,65524,23,65510,37,65496,51]
; AVX512F-32-NEXT: vpsravw {{\.LCPI.*}}, %zmm0, %zmm0		; AVX512F-32-NEXT: vpsravw {{\.LCPI.*}}, %zmm0, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.psrav32.hi(<32 x i16> <i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51, i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51, i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51, i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51>,		%res = call <32 x i16> @llvm.x86.avx512.mask.psrav32.hi(<32 x i16> <i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51, i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51, i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51, i16 2, i16 9, i16 -12, i16 23, i16 -26, i16 37, i16 -40, i16 51>,
<32 x i16> <i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49, i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49, i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49, i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49>,		<32 x i16> <i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49, i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49, i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49, i16 1, i16 10, i16 35, i16 52, i16 69, i16 9, i16 16, i16 49>,
<32 x i16> zeroinitializer, i32 -1)		<32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res		ret <32 x i16> %res
}		}

▲ Show 20 Lines • Show All 565 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512bw-mov.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -march=x86-64 -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw \| FileCheck %s		; RUN: llc < %s -march=x86-64 -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw \| FileCheck %s

define <64 x i8> @test1(i8 * %addr) {		define <64 x i8> @test1(i8 * %addr) {
; CHECK-LABEL: test1:		; CHECK-LABEL: test1:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: vmovdqu8 (%rdi), %zmm0		; CHECK-NEXT: vmovups (%rdi), %zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vaddr = bitcast i8* %addr to <64 x i8>*		%vaddr = bitcast i8* %addr to <64 x i8>*
%res = load <64 x i8>, <64 x i8>* %vaddr, align 1		%res = load <64 x i8>, <64 x i8>* %vaddr, align 1
ret <64 x i8>%res		ret <64 x i8>%res
}		}

define void @test2(i8 * %addr, <64 x i8> %data) {		define void @test2(i8 * %addr, <64 x i8> %data) {
; CHECK-LABEL: test2:		; CHECK-LABEL: test2:
Show All 31 Lines	; CHECK-NEXT: retq
%r = load <64 x i8>, <64 x i8>* %vaddr, align 1		%r = load <64 x i8>, <64 x i8>* %vaddr, align 1
%res = select <64 x i1> %mask, <64 x i8> %r, <64 x i8> zeroinitializer		%res = select <64 x i1> %mask, <64 x i8> %r, <64 x i8> zeroinitializer
ret <64 x i8>%res		ret <64 x i8>%res
}		}

define <32 x i16> @test5(i8 * %addr) {		define <32 x i16> @test5(i8 * %addr) {
; CHECK-LABEL: test5:		; CHECK-LABEL: test5:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: vmovdqu16 (%rdi), %zmm0		; CHECK-NEXT: vmovups (%rdi), %zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vaddr = bitcast i8* %addr to <32 x i16>*		%vaddr = bitcast i8* %addr to <32 x i16>*
%res = load <32 x i16>, <32 x i16>* %vaddr, align 1		%res = load <32 x i16>, <32 x i16>* %vaddr, align 1
ret <32 x i16>%res		ret <32 x i16>%res
}		}

define void @test6(i8 * %addr, <32 x i16> %data) {		define void @test6(i8 * %addr, <32 x i16> %data) {
; CHECK-LABEL: test6:		; CHECK-LABEL: test6:
▲ Show 20 Lines • Show All 155 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512bwvl-mov.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -march=x86-64 -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512vl --show-mc-encoding\| FileCheck %s		; RUN: llc < %s -march=x86-64 -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512vl --show-mc-encoding\| FileCheck %s

define <32 x i8> @test_256_1(i8 * %addr) {		define <32 x i8> @test_256_1(i8 * %addr) {
; CHECK-LABEL: test_256_1:		; CHECK-LABEL: test_256_1:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: vmovdqu (%rdi), %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfe,0x6f,0x07]		; CHECK-NEXT: vmovups (%rdi), %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfc,0x10,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]		; CHECK-NEXT: retq ## encoding: [0xc3]
%vaddr = bitcast i8* %addr to <32 x i8>*		%vaddr = bitcast i8* %addr to <32 x i8>*
%res = load <32 x i8>, <32 x i8>* %vaddr, align 1		%res = load <32 x i8>, <32 x i8>* %vaddr, align 1
ret <32 x i8>%res		ret <32 x i8>%res
}		}

define void @test_256_2(i8 * %addr, <32 x i8> %data) {		define void @test_256_2(i8 * %addr, <32 x i8> %data) {
; CHECK-LABEL: test_256_2:		; CHECK-LABEL: test_256_2:
Show All 31 Lines	; CHECK-NEXT: retq ## encoding: [0xc3]
%r = load <32 x i8>, <32 x i8>* %vaddr, align 1		%r = load <32 x i8>, <32 x i8>* %vaddr, align 1
%res = select <32 x i1> %mask, <32 x i8> %r, <32 x i8> zeroinitializer		%res = select <32 x i1> %mask, <32 x i8> %r, <32 x i8> zeroinitializer
ret <32 x i8>%res		ret <32 x i8>%res
}		}

define <16 x i16> @test_256_5(i8 * %addr) {		define <16 x i16> @test_256_5(i8 * %addr) {
; CHECK-LABEL: test_256_5:		; CHECK-LABEL: test_256_5:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: vmovdqu (%rdi), %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfe,0x6f,0x07]		; CHECK-NEXT: vmovups (%rdi), %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfc,0x10,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]		; CHECK-NEXT: retq ## encoding: [0xc3]
%vaddr = bitcast i8* %addr to <16 x i16>*		%vaddr = bitcast i8* %addr to <16 x i16>*
%res = load <16 x i16>, <16 x i16>* %vaddr, align 1		%res = load <16 x i16>, <16 x i16>* %vaddr, align 1
ret <16 x i16>%res		ret <16 x i16>%res
}		}

define void @test_256_6(i8 * %addr, <16 x i16> %data) {		define void @test_256_6(i8 * %addr, <16 x i16> %data) {
; CHECK-LABEL: test_256_6:		; CHECK-LABEL: test_256_6:
Show All 31 Lines	; CHECK-NEXT: retq ## encoding: [0xc3]
%r = load <16 x i16>, <16 x i16>* %vaddr, align 1		%r = load <16 x i16>, <16 x i16>* %vaddr, align 1
%res = select <16 x i1> %mask, <16 x i16> %r, <16 x i16> zeroinitializer		%res = select <16 x i1> %mask, <16 x i16> %r, <16 x i16> zeroinitializer
ret <16 x i16>%res		ret <16 x i16>%res
}		}

define <16 x i8> @test_128_1(i8 * %addr) {		define <16 x i8> @test_128_1(i8 * %addr) {
; CHECK-LABEL: test_128_1:		; CHECK-LABEL: test_128_1:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: vmovdqu (%rdi), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfa,0x6f,0x07]		; CHECK-NEXT: vmovups (%rdi), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x10,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]		; CHECK-NEXT: retq ## encoding: [0xc3]
%vaddr = bitcast i8* %addr to <16 x i8>*		%vaddr = bitcast i8* %addr to <16 x i8>*
%res = load <16 x i8>, <16 x i8>* %vaddr, align 1		%res = load <16 x i8>, <16 x i8>* %vaddr, align 1
ret <16 x i8>%res		ret <16 x i8>%res
}		}

define void @test_128_2(i8 * %addr, <16 x i8> %data) {		define void @test_128_2(i8 * %addr, <16 x i8> %data) {
; CHECK-LABEL: test_128_2:		; CHECK-LABEL: test_128_2:
Show All 31 Lines	; CHECK-NEXT: retq ## encoding: [0xc3]
%r = load <16 x i8>, <16 x i8>* %vaddr, align 1		%r = load <16 x i8>, <16 x i8>* %vaddr, align 1
%res = select <16 x i1> %mask, <16 x i8> %r, <16 x i8> zeroinitializer		%res = select <16 x i1> %mask, <16 x i8> %r, <16 x i8> zeroinitializer
ret <16 x i8>%res		ret <16 x i8>%res
}		}

define <8 x i16> @test_128_5(i8 * %addr) {		define <8 x i16> @test_128_5(i8 * %addr) {
; CHECK-LABEL: test_128_5:		; CHECK-LABEL: test_128_5:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: vmovdqu (%rdi), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfa,0x6f,0x07]		; CHECK-NEXT: vmovups (%rdi), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x10,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]		; CHECK-NEXT: retq ## encoding: [0xc3]
%vaddr = bitcast i8* %addr to <8 x i16>*		%vaddr = bitcast i8* %addr to <8 x i16>*
%res = load <8 x i16>, <8 x i16>* %vaddr, align 1		%res = load <8 x i16>, <8 x i16>* %vaddr, align 1
ret <8 x i16>%res		ret <8 x i16>%res
}		}

define void @test_128_6(i8 * %addr, <8 x i16> %data) {		define void @test_128_6(i8 * %addr, <8 x i16> %data) {
; CHECK-LABEL: test_128_6:		; CHECK-LABEL: test_128_6:
Show All 36 Lines

llvm/trunk/test/CodeGen/X86/nontemporal-loads.ll

	Show First 20 Lines • Show All 1,744 Lines • ▼ Show 20 Lines
	; AVX512F-LABEL: test_unaligned_v32i16:			; AVX512F-LABEL: test_unaligned_v32i16:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovups (%rdi), %ymm0			; AVX512F-NEXT: vmovups (%rdi), %ymm0
	; AVX512F-NEXT: vmovups 32(%rdi), %ymm1			; AVX512F-NEXT: vmovups 32(%rdi), %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_unaligned_v32i16:			; AVX512BW-LABEL: test_unaligned_v32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm0			; AVX512BW-NEXT: vmovups (%rdi), %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_unaligned_v32i16:			; AVX512VL-LABEL: test_unaligned_v32i16:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovups (%rdi), %ymm0			; AVX512VL-NEXT: vmovups (%rdi), %ymm0
	; AVX512VL-NEXT: vmovups 32(%rdi), %ymm1			; AVX512VL-NEXT: vmovups 32(%rdi), %ymm1
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%1 = load <32 x i16>, <32 x i16>* %src, align 1, !nontemporal !1			%1 = load <32 x i16>, <32 x i16>* %src, align 1, !nontemporal !1
	Show All 18 Lines
	; AVX512F-LABEL: test_unaligned_v64i8:			; AVX512F-LABEL: test_unaligned_v64i8:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovups (%rdi), %ymm0			; AVX512F-NEXT: vmovups (%rdi), %ymm0
	; AVX512F-NEXT: vmovups 32(%rdi), %ymm1			; AVX512F-NEXT: vmovups 32(%rdi), %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_unaligned_v64i8:			; AVX512BW-LABEL: test_unaligned_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 (%rdi), %zmm0			; AVX512BW-NEXT: vmovups (%rdi), %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_unaligned_v64i8:			; AVX512VL-LABEL: test_unaligned_v64i8:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovups (%rdi), %ymm0			; AVX512VL-NEXT: vmovups (%rdi), %ymm0
	; AVX512VL-NEXT: vmovups 32(%rdi), %ymm1			; AVX512VL-NEXT: vmovups 32(%rdi), %ymm1
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%1 = load <64 x i8>, <64 x i8>* %src, align 1, !nontemporal !1			%1 = load <64 x i8>, <64 x i8>* %src, align 1, !nontemporal !1
	▲ Show 20 Lines • Show All 119 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/pmul.ll

	Show First 20 Lines • Show All 915 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpmovsxwd %ymm1, %zmm1			; AVX512F-NEXT: vpmovsxwd %ymm1, %zmm1
	; AVX512F-NEXT: vpmovdb %zmm1, %xmm1			; AVX512F-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1			; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: mul_v64i8c:			; AVX512BW-LABEL: mul_v64i8c:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vmovdqu16 {{.*#+}} zmm2 = [117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm0			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm0
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm0			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm0
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	▲ Show 20 Lines • Show All 580 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 808 Lines • ▼ Show 20 Lines
	; AVX512BW-LABEL: sad_avx64i8:			; AVX512BW-LABEL: sad_avx64i8:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vpxord %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpxord %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: .p2align 4, 0x90			; AVX512BW-NEXT: .p2align 4, 0x90
	; AVX512BW-NEXT: .LBB2_1: # %vector.body			; AVX512BW-NEXT: .LBB2_1: # %vector.body
	; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1			; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX512BW-NEXT: vmovdqu8 a+1024(%rax), %zmm2			; AVX512BW-NEXT: vmovdqa64 a+1024(%rax), %zmm2
	; AVX512BW-NEXT: vpsadbw b+1024(%rax), %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw b+1024(%rax), %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm2, %zmm1			; AVX512BW-NEXT: vpaddd %zmm1, %zmm2, %zmm1
	; AVX512BW-NEXT: addq $4, %rax			; AVX512BW-NEXT: addq $4, %rax
	; AVX512BW-NEXT: jne .LBB2_1			; AVX512BW-NEXT: jne .LBB2_1
	; AVX512BW-NEXT: # BB#2: # %middle.block			; AVX512BW-NEXT: # BB#2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	▲ Show 20 Lines • Show All 481 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-128.ll

	Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0			; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]			; AVX512BW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; AVX512BW-NEXT: vmovq %xmm0, (%rsi)			; AVX512BW-NEXT: vmovq %xmm0, (%rsi)
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: shuffle_v16i8_to_v8i8:			; AVX512BWVL-LABEL: shuffle_v16i8_to_v8i8:
	; AVX512BWVL: # BB#0:			; AVX512BWVL: # BB#0:
	; AVX512BWVL-NEXT: vmovdqu (%rdi), %xmm0			; AVX512BWVL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BWVL-NEXT: vpmovwb %xmm0, (%rsi)			; AVX512BWVL-NEXT: vpmovwb %xmm0, (%rsi)
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	%vec = load <16 x i8>, <16 x i8>* %L			%vec = load <16 x i8>, <16 x i8>* %L
	%strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	store <8 x i8> %strided.vec, <8 x i8>* %S			store <8 x i8> %strided.vec, <8 x i8>* %S
	ret void			ret void
	}			}

	Show All 38 Lines
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0			; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]			; AVX512BW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; AVX512BW-NEXT: vmovq %xmm0, (%rsi)			; AVX512BW-NEXT: vmovq %xmm0, (%rsi)
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: trunc_v8i16_to_v8i8:			; AVX512BWVL-LABEL: trunc_v8i16_to_v8i8:
	; AVX512BWVL: # BB#0:			; AVX512BWVL: # BB#0:
	; AVX512BWVL-NEXT: vmovdqu (%rdi), %xmm0			; AVX512BWVL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BWVL-NEXT: vpmovwb %xmm0, (%rsi)			; AVX512BWVL-NEXT: vpmovwb %xmm0, (%rsi)
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	%vec = load <16 x i8>, <16 x i8>* %L			%vec = load <16 x i8>, <16 x i8>* %L
	%bc = bitcast <16 x i8> %vec to <8 x i16>			%bc = bitcast <16 x i8> %vec to <8 x i16>
	%strided.vec = trunc <8 x i16> %bc to <8 x i8>			%strided.vec = trunc <8 x i16> %bc to <8 x i8>
	store <8 x i8> %strided.vec, <8 x i8>* %S			store <8 x i8> %strided.vec, <8 x i8>* %S
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 513 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-256.ll

	Show First 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0			; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)			; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: shuffle_v32i8_to_v16i8:			; AVX512BWVL-LABEL: shuffle_v32i8_to_v16i8:
	; AVX512BWVL: # BB#0:			; AVX512BWVL: # BB#0:
	; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0			; AVX512BWVL-NEXT: vmovdqa (%rdi), %ymm0
	; AVX512BWVL-NEXT: vpmovwb %ymm0, (%rsi)			; AVX512BWVL-NEXT: vpmovwb %ymm0, (%rsi)
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	%vec = load <32 x i8>, <32 x i8>* %L			%vec = load <32 x i8>, <32 x i8>* %L
	%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>			%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>
	store <16 x i8> %strided.vec, <16 x i8>* %S			store <16 x i8> %strided.vec, <16 x i8>* %S
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0			; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)			; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: trunc_v16i16_to_v16i8:			; AVX512BWVL-LABEL: trunc_v16i16_to_v16i8:
	; AVX512BWVL: # BB#0:			; AVX512BWVL: # BB#0:
	; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0			; AVX512BWVL-NEXT: vmovdqa (%rdi), %ymm0
	; AVX512BWVL-NEXT: vpmovwb %ymm0, (%rsi)			; AVX512BWVL-NEXT: vpmovwb %ymm0, (%rsi)
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	%vec = load <32 x i8>, <32 x i8>* %L			%vec = load <32 x i8>, <32 x i8>* %L
	%bc = bitcast <32 x i8> %vec to <16 x i16>			%bc = bitcast <32 x i8> %vec to <16 x i16>
	%strided.vec = trunc <16 x i16> %bc to <16 x i8>			%strided.vec = trunc <16 x i16> %bc to <16 x i8>
	store <16 x i8> %strided.vec, <16 x i8>* %S			store <16 x i8> %strided.vec, <16 x i8>* %S
	ret void			ret void
	▲ Show 20 Lines • Show All 644 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-512.ll

	Show All 27 Lines
	; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1			; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)			; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: shuffle_v64i8_to_v32i8:			; AVX512BW-LABEL: shuffle_v64i8_to_v32i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)			; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: shuffle_v64i8_to_v32i8:			; AVX512BWVL-LABEL: shuffle_v64i8_to_v32i8:
	; AVX512BWVL: # BB#0:			; AVX512BWVL: # BB#0:
	; AVX512BWVL-NEXT: vmovdqu16 (%rdi), %zmm0			; AVX512BWVL-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BWVL-NEXT: vpmovwb %zmm0, (%rsi)			; AVX512BWVL-NEXT: vpmovwb %zmm0, (%rsi)
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	%vec = load <64 x i8>, <64 x i8>* %L			%vec = load <64 x i8>, <64 x i8>* %L
	%strided.vec = shufflevector <64 x i8> %vec, <64 x i8> undef, <32 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30, i32 32, i32 34, i32 36, i32 38, i32 40, i32 42, i32 44, i32 46, i32 48, i32 50, i32 52, i32 54, i32 56, i32 58, i32 60, i32 62>			%strided.vec = shufflevector <64 x i8> %vec, <64 x i8> undef, <32 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30, i32 32, i32 34, i32 36, i32 38, i32 40, i32 42, i32 44, i32 46, i32 48, i32 50, i32 52, i32 54, i32 56, i32 58, i32 60, i32 62>
	store <32 x i8> %strided.vec, <32 x i8>* %S			store <32 x i8> %strided.vec, <32 x i8>* %S
	ret void			ret void
	}			}
	Show All 18 Lines
	; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1			; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)			; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc_v32i16_to_v32i8:			; AVX512BW-LABEL: trunc_v32i16_to_v32i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm0			; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)			; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: trunc_v32i16_to_v32i8:			; AVX512BWVL-LABEL: trunc_v32i16_to_v32i8:
	; AVX512BWVL: # BB#0:			; AVX512BWVL: # BB#0:
	; AVX512BWVL-NEXT: vmovdqu16 (%rdi), %zmm0			; AVX512BWVL-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BWVL-NEXT: vpmovwb %zmm0, (%rsi)			; AVX512BWVL-NEXT: vpmovwb %zmm0, (%rsi)
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	%vec = load <64 x i8>, <64 x i8>* %L			%vec = load <64 x i8>, <64 x i8>* %L
	%bc = bitcast <64 x i8> %vec to <32 x i16>			%bc = bitcast <64 x i8> %vec to <32 x i16>
	%strided.vec = trunc <32 x i16> %bc to <32 x i8>			%strided.vec = trunc <32 x i16> %bc to <32 x i8>
	store <32 x i8> %strided.vec, <32 x i8>* %S			store <32 x i8> %strided.vec, <32 x i8>* %S
	ret void			ret void
	▲ Show 20 Lines • Show All 136 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sse42-intrinsics-x86.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpcmpestri $7, (%ecx), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x61,0x01,0x07]			; AVX2-NEXT: vpcmpestri $7, (%ecx), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x61,0x01,0x07]
	; AVX2-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]			; AVX2-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]
	; AVX2-NEXT: retl ## encoding: [0xc3]			; AVX2-NEXT: retl ## encoding: [0xc3]
	;			;
	; SKX-LABEL: test_x86_sse42_pcmpestri128_load:			; SKX-LABEL: test_x86_sse42_pcmpestri128_load:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: movl {{[0-9]+}}(%esp), %ecx ## encoding: [0x8b,0x4c,0x24,0x08]			; SKX-NEXT: movl {{[0-9]+}}(%esp), %ecx ## encoding: [0x8b,0x4c,0x24,0x08]
	; SKX-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]			; SKX-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]
	; SKX-NEXT: vmovdqu (%eax), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfa,0x6f,0x00]			; SKX-NEXT: vmovdqa (%eax), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0x00]
	; SKX-NEXT: movl $7, %eax ## encoding: [0xb8,0x07,0x00,0x00,0x00]			; SKX-NEXT: movl $7, %eax ## encoding: [0xb8,0x07,0x00,0x00,0x00]
	; SKX-NEXT: movl $7, %edx ## encoding: [0xba,0x07,0x00,0x00,0x00]			; SKX-NEXT: movl $7, %edx ## encoding: [0xba,0x07,0x00,0x00,0x00]
	; SKX-NEXT: vpcmpestri $7, (%ecx), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x61,0x01,0x07]			; SKX-NEXT: vpcmpestri $7, (%ecx), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x61,0x01,0x07]
	; SKX-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]			; SKX-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]
	; SKX-NEXT: retl ## encoding: [0xc3]			; SKX-NEXT: retl ## encoding: [0xc3]
	%1 = load <16 x i8>, <16 x i8>* %a0			%1 = load <16 x i8>, <16 x i8>* %a0
	%2 = load <16 x i8>, <16 x i8>* %a2			%2 = load <16 x i8>, <16 x i8>* %a2
	%res = call i32 @llvm.x86.sse42.pcmpestri128(<16 x i8> %1, i32 7, <16 x i8> %2, i32 7, i8 7) ; <i32> [#uses=1]			%res = call i32 @llvm.x86.sse42.pcmpestri128(<16 x i8> %1, i32 7, <16 x i8> %2, i32 7, i8 7) ; <i32> [#uses=1]
	▲ Show 20 Lines • Show All 229 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpcmpistri $7, (%eax), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x63,0x00,0x07]			; AVX2-NEXT: vpcmpistri $7, (%eax), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x63,0x00,0x07]
	; AVX2-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]			; AVX2-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]
	; AVX2-NEXT: retl ## encoding: [0xc3]			; AVX2-NEXT: retl ## encoding: [0xc3]
	;			;
	; SKX-LABEL: test_x86_sse42_pcmpistri128_load:			; SKX-LABEL: test_x86_sse42_pcmpistri128_load:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x08]			; SKX-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x08]
	; SKX-NEXT: movl {{[0-9]+}}(%esp), %ecx ## encoding: [0x8b,0x4c,0x24,0x04]			; SKX-NEXT: movl {{[0-9]+}}(%esp), %ecx ## encoding: [0x8b,0x4c,0x24,0x04]
	; SKX-NEXT: vmovdqu (%ecx), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfa,0x6f,0x01]			; SKX-NEXT: vmovdqa (%ecx), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0x01]
	; SKX-NEXT: vpcmpistri $7, (%eax), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x63,0x00,0x07]			; SKX-NEXT: vpcmpistri $7, (%eax), %xmm0 ## encoding: [0xc4,0xe3,0x79,0x63,0x00,0x07]
	; SKX-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]			; SKX-NEXT: movl %ecx, %eax ## encoding: [0x89,0xc8]
	; SKX-NEXT: retl ## encoding: [0xc3]			; SKX-NEXT: retl ## encoding: [0xc3]
	%1 = load <16 x i8>, <16 x i8>* %a0			%1 = load <16 x i8>, <16 x i8>* %a0
	%2 = load <16 x i8>, <16 x i8>* %a1			%2 = load <16 x i8>, <16 x i8>* %a1
	%res = call i32 @llvm.x86.sse42.pcmpistri128(<16 x i8> %1, <16 x i8> %2, i8 7) ; <i32> [#uses=1]			%res = call i32 @llvm.x86.sse42.pcmpistri128(<16 x i8> %1, <16 x i8> %2, i8 7) ; <i32> [#uses=1]
	ret i32 %res			ret i32 %res
	}			}
	▲ Show 20 Lines • Show All 167 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/ssse3-intrinsics-x86.ll

	Show First 20 Lines • Show All 197 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]			; AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]
	; AVX2-NEXT: vmovdqa (%eax), %xmm1 ## encoding: [0xc5,0xf9,0x6f,0x08]			; AVX2-NEXT: vmovdqa (%eax), %xmm1 ## encoding: [0xc5,0xf9,0x6f,0x08]
	; AVX2-NEXT: vpmaddubsw %xmm0, %xmm1, %xmm0 ## encoding: [0xc4,0xe2,0x71,0x04,0xc0]			; AVX2-NEXT: vpmaddubsw %xmm0, %xmm1, %xmm0 ## encoding: [0xc4,0xe2,0x71,0x04,0xc0]
	; AVX2-NEXT: retl ## encoding: [0xc3]			; AVX2-NEXT: retl ## encoding: [0xc3]
	;			;
	; SKX-LABEL: test_x86_ssse3_pmadd_ub_sw_128_load_op0:			; SKX-LABEL: test_x86_ssse3_pmadd_ub_sw_128_load_op0:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]			; SKX-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]
	; SKX-NEXT: vmovdqu (%eax), %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xfa,0x6f,0x08]			; SKX-NEXT: vmovdqa (%eax), %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0x08]
	; SKX-NEXT: vpmaddubsw %xmm0, %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0x04,0xc0]			; SKX-NEXT: vpmaddubsw %xmm0, %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0x04,0xc0]
	; SKX-NEXT: retl ## encoding: [0xc3]			; SKX-NEXT: retl ## encoding: [0xc3]
	%a0 = load <16 x i8>, <16 x i8>* %ptr			%a0 = load <16 x i8>, <16 x i8>* %ptr
	%res = call <8 x i16> @llvm.x86.ssse3.pmadd.ub.sw.128(<16 x i8> %a0, <16 x i8> %a1) ; <<8 x i16>> [#uses=1]			%res = call <8 x i16> @llvm.x86.ssse3.pmadd.ub.sw.128(<16 x i8> %a0, <16 x i8> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}


	▲ Show 20 Lines • Show All 88 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/subvector-broadcast.ll

	Show First 20 Lines • Show All 990 Lines • ▼ Show 20 Lines
	; X32-AVX512F-NEXT: vmovdqa %xmm0, (%eax)			; X32-AVX512F-NEXT: vmovdqa %xmm0, (%eax)
	; X32-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X32-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_8i16_16i16_reuse:			; X32-AVX512BW-LABEL: test_broadcast_8i16_16i16_reuse:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-AVX512BW-NEXT: vmovdqu (%ecx), %xmm0			; X32-AVX512BW-NEXT: vmovdqa (%ecx), %xmm0
	; X32-AVX512BW-NEXT: vmovdqu %xmm0, (%eax)			; X32-AVX512BW-NEXT: vmovdqu %xmm0, (%eax)
	; X32-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X32-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_8i16_16i16_reuse:			; X32-AVX512DQ-LABEL: test_broadcast_8i16_16i16_reuse:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %ecx
	Show All 13 Lines
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vmovdqa (%rdi), %xmm0			; X64-AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; X64-AVX512F-NEXT: vmovdqa %xmm0, (%rsi)			; X64-AVX512F-NEXT: vmovdqa %xmm0, (%rsi)
	; X64-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X64-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_8i16_16i16_reuse:			; X64-AVX512BW-LABEL: test_broadcast_8i16_16i16_reuse:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vmovdqu (%rdi), %xmm0			; X64-AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
	; X64-AVX512BW-NEXT: vmovdqu %xmm0, (%rsi)			; X64-AVX512BW-NEXT: vmovdqu %xmm0, (%rsi)
	; X64-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X64-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_8i16_16i16_reuse:			; X64-AVX512DQ-LABEL: test_broadcast_8i16_16i16_reuse:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vmovdqa (%rdi), %xmm0			; X64-AVX512DQ-NEXT: vmovdqa (%rdi), %xmm0
	; X64-AVX512DQ-NEXT: vmovdqa %xmm0, (%rsi)			; X64-AVX512DQ-NEXT: vmovdqa %xmm0, (%rsi)
	Show All 23 Lines
	; X32-AVX512F-NEXT: vmovdqa %xmm0, (%eax)			; X32-AVX512F-NEXT: vmovdqa %xmm0, (%eax)
	; X32-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X32-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_16i8_32i8_reuse:			; X32-AVX512BW-LABEL: test_broadcast_16i8_32i8_reuse:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-AVX512BW-NEXT: vmovdqu (%ecx), %xmm0			; X32-AVX512BW-NEXT: vmovdqa (%ecx), %xmm0
	; X32-AVX512BW-NEXT: vmovdqu %xmm0, (%eax)			; X32-AVX512BW-NEXT: vmovdqu %xmm0, (%eax)
	; X32-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X32-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_16i8_32i8_reuse:			; X32-AVX512DQ-LABEL: test_broadcast_16i8_32i8_reuse:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %ecx
	Show All 13 Lines
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vmovdqa (%rdi), %xmm0			; X64-AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; X64-AVX512F-NEXT: vmovdqa %xmm0, (%rsi)			; X64-AVX512F-NEXT: vmovdqa %xmm0, (%rsi)
	; X64-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X64-AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_16i8_32i8_reuse:			; X64-AVX512BW-LABEL: test_broadcast_16i8_32i8_reuse:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vmovdqu (%rdi), %xmm0			; X64-AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
	; X64-AVX512BW-NEXT: vmovdqu %xmm0, (%rsi)			; X64-AVX512BW-NEXT: vmovdqu %xmm0, (%rsi)
	; X64-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; X64-AVX512BW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_16i8_32i8_reuse:			; X64-AVX512DQ-LABEL: test_broadcast_16i8_32i8_reuse:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vmovdqa (%rdi), %xmm0			; X64-AVX512DQ-NEXT: vmovdqa (%rdi), %xmm0
	; X64-AVX512DQ-NEXT: vmovdqa %xmm0, (%rsi)			; X64-AVX512DQ-NEXT: vmovdqa %xmm0, (%rsi)
	▲ Show 20 Lines • Show All 351 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-bitreverse.ll

	Show First 20 Lines • Show All 1,429 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpshufb %ymm1, %ymm5, %ymm1			; AVX512F-NEXT: vpshufb %ymm1, %ymm5, %ymm1
	; AVX512F-NEXT: vpor %ymm1, %ymm3, %ymm1			; AVX512F-NEXT: vpor %ymm1, %ymm3, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_bitreverse_v64i8:			; AVX512BW-LABEL: test_bitreverse_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; XOPAVX1-LABEL: test_bitreverse_v64i8:			; XOPAVX1-LABEL: test_bitreverse_v64i8:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95]
	▲ Show 20 Lines • Show All 293 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX512F-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_bitreverse_v32i16:			; AVX512BW-LABEL: test_bitreverse_v32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14,17,16,19,18,21,20,23,22,25,24,27,26,29,28,31,30,33,32,35,34,37,36,39,38,41,40,43,42,45,44,47,46,49,48,51,50,53,52,55,54,57,56,59,58,61,60,63,62]			; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14,17,16,19,18,21,20,23,22,25,24,27,26,29,28,31,30,33,32,35,34,37,36,39,38,41,40,43,42,45,44,47,46,49,48,51,50,53,52,55,54,57,56,59,58,61,60,63,62]
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; XOPAVX1-LABEL: test_bitreverse_v32i16:			; XOPAVX1-LABEL: test_bitreverse_v32i16:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [81,80,83,82,85,84,87,86,89,88,91,90,93,92,95,94]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [81,80,83,82,85,84,87,86,89,88,91,90,93,92,95,94]
	▲ Show 20 Lines • Show All 299 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_bitreverse_v16i32:			; AVX512BW-LABEL: test_bitreverse_v16i32:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,19,18,17,16,23,22,21,20,27,26,25,24,31,30,29,28,35,34,33,32,39,38,37,36,43,42,41,40,47,46,45,44,51,50,49,48,55,54,53,52,59,58,57,56,63,62,61,60]			; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,19,18,17,16,23,22,21,20,27,26,25,24,31,30,29,28,35,34,33,32,39,38,37,36,43,42,41,40,47,46,45,44,51,50,49,48,55,54,53,52,59,58,57,56,63,62,61,60]
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; XOPAVX1-LABEL: test_bitreverse_v16i32:			; XOPAVX1-LABEL: test_bitreverse_v16i32:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [83,82,81,80,87,86,85,84,91,90,89,88,95,94,93,92]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [83,82,81,80,87,86,85,84,91,90,89,88,95,94,93,92]
	▲ Show 20 Lines • Show All 319 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_bitreverse_v8i64:			; AVX512BW-LABEL: test_bitreverse_v8i64:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,23,22,21,20,19,18,17,16,31,30,29,28,27,26,25,24,39,38,37,36,35,34,33,32,47,46,45,44,43,42,41,40,55,54,53,52,51,50,49,48,63,62,61,60,59,58,57,56]			; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,23,22,21,20,19,18,17,16,31,30,29,28,27,26,25,24,39,38,37,36,35,34,33,32,47,46,45,44,43,42,41,40,55,54,53,52,51,50,49,48,63,62,61,60,59,58,57,56]
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15,0,8,4,12,2,10,6,14,1,9,5,13,3,11,7,15]
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; XOPAVX1-LABEL: test_bitreverse_v8i64:			; XOPAVX1-LABEL: test_bitreverse_v8i64:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [87,86,85,84,83,82,81,80,95,94,93,92,91,90,89,88]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [87,86,85,84,83,82,81,80,95,94,93,92,91,90,89,88]
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-lzcnt-128.ll

	Show First 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpsrlq $32, %xmm1, %xmm1			; AVX-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX-NEXT: vpaddq %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddq %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv2i64:			; AVX512VLBWDQ-LABEL: testv2i64:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1
	; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5
	; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1			; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1
	; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	▲ Show 20 Lines • Show All 248 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpsrlq $32, %xmm1, %xmm1			; AVX-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX-NEXT: vpaddq %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddq %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv2i64u:			; AVX512VLBWDQ-LABEL: testv2i64u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1
	; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5
	; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1			; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1
	; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	▲ Show 20 Lines • Show All 235 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpsrld $16, %xmm1, %xmm1			; AVX-NEXT: vpsrld $16, %xmm1, %xmm1
	; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv4i32:			; AVX512VLBWDQ-LABEL: testv4i32:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1
	; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5
	; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1			; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1
	; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	▲ Show 20 Lines • Show All 224 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpsrld $16, %xmm1, %xmm1			; AVX-NEXT: vpsrld $16, %xmm1, %xmm1
	; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv4i32u:			; AVX512VLBWDQ-LABEL: testv4i32u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1
	; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5
	; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1			; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1
	; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	▲ Show 20 Lines • Show All 195 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv8i16:			; AVX512VLBWDQ-LABEL: testv8i16:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1
	; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5
	; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1			; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1
	; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	▲ Show 20 Lines • Show All 187 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv8i16u:			; AVX512VLBWDQ-LABEL: testv8i16u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm4
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm4, %xmm1
	; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX512VLBWDQ-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm4, %xmm1, %xmm5
	; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1			; AVX512VLBWDQ-NEXT: vpshufb %xmm1, %xmm3, %xmm1
	; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	▲ Show 20 Lines • Show All 164 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0			; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv16i8:			; AVX512VLBWDQ-LABEL: testv16i8:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512VLBWDQ-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512VLBWDQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm1			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm1
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm2, %xmm1
	; AVX512VLBWDQ-NEXT: vpshufb %xmm0, %xmm3, %xmm0			; AVX512VLBWDQ-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0			; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv16i8u:			; AVX512VLBWDQ-LABEL: testv16i8u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} xmm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512VLBWDQ-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512VLBWDQ-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512VLBWDQ-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512VLBWDQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm1			; AVX512VLBWDQ-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm1
	; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm2, %xmm1			; AVX512VLBWDQ-NEXT: vpand %xmm1, %xmm2, %xmm1
	; AVX512VLBWDQ-NEXT: vpshufb %xmm0, %xmm3, %xmm0			; AVX512VLBWDQ-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
	;			;
	; NOBW-LABEL: foldv8i16:			; NOBW-LABEL: foldv8i16:
	; NOBW: # BB#0:			; NOBW: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]			; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]
	; NOBW-NEXT: retq			; NOBW-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: foldv8i16:			; AVX512VLBWDQ-LABEL: foldv8i16:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]			; AVX512VLBWDQ-NEXT: vmovaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv8i16:			; X32-SSE-LABEL: foldv8i16:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <8 x i16> @llvm.ctlz.v8i16(<8 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88>, i1 0)			%out = call <8 x i16> @llvm.ctlz.v8i16(<8 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88>, i1 0)
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define <8 x i16> @foldv8i16u() nounwind {			define <8 x i16> @foldv8i16u() nounwind {
	; SSE-LABEL: foldv8i16u:			; SSE-LABEL: foldv8i16u:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]			; SSE-NEXT: movaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; NOBW-LABEL: foldv8i16u:			; NOBW-LABEL: foldv8i16u:
	; NOBW: # BB#0:			; NOBW: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]			; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]
	; NOBW-NEXT: retq			; NOBW-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: foldv8i16u:			; AVX512VLBWDQ-LABEL: foldv8i16u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]			; AVX512VLBWDQ-NEXT: vmovaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv8i16u:			; X32-SSE-LABEL: foldv8i16u:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [7,0,16,8,16,13,11,9]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <8 x i16> @llvm.ctlz.v8i16(<8 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88>, i1 -1)			%out = call <8 x i16> @llvm.ctlz.v8i16(<8 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88>, i1 -1)
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define <16 x i8> @foldv16i8() nounwind {			define <16 x i8> @foldv16i8() nounwind {
	; SSE-LABEL: foldv16i8:			; SSE-LABEL: foldv16i8:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; NOBW-LABEL: foldv16i8:			; NOBW-LABEL: foldv16i8:
	; NOBW: # BB#0:			; NOBW: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; NOBW-NEXT: retq			; NOBW-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: foldv16i8:			; AVX512VLBWDQ-LABEL: foldv16i8:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; AVX512VLBWDQ-NEXT: vmovaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv16i8:			; X32-SSE-LABEL: foldv16i8:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32>, i1 0)			%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32>, i1 0)
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	define <16 x i8> @foldv16i8u() nounwind {			define <16 x i8> @foldv16i8u() nounwind {
	; SSE-LABEL: foldv16i8u:			; SSE-LABEL: foldv16i8u:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; NOBW-LABEL: foldv16i8u:			; NOBW-LABEL: foldv16i8u:
	; NOBW: # BB#0:			; NOBW: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; NOBW-NEXT: vmovaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; NOBW-NEXT: retq			; NOBW-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: foldv16i8u:			; AVX512VLBWDQ-LABEL: foldv16i8u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; AVX512VLBWDQ-NEXT: vmovaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-SSE-LABEL: foldv16i8u:			; X32-SSE-LABEL: foldv16i8u:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]			; X32-SSE-NEXT: movaps {{.*#+}} xmm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32>, i1 -1)			%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32>, i1 -1)
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	declare <2 x i64> @llvm.ctlz.v2i64(<2 x i64>, i1)			declare <2 x i64> @llvm.ctlz.v2i64(<2 x i64>, i1)
	declare <4 x i32> @llvm.ctlz.v4i32(<4 x i32>, i1)			declare <4 x i32> @llvm.ctlz.v4i32(<4 x i32>, i1)
	declare <8 x i16> @llvm.ctlz.v8i16(<8 x i16>, i1)			declare <8 x i16> @llvm.ctlz.v8i16(<8 x i16>, i1)
	declare <16 x i8> @llvm.ctlz.v16i8(<16 x i8>, i1)			declare <16 x i8> @llvm.ctlz.v16i8(<16 x i8>, i1)

llvm/trunk/test/CodeGen/X86/vector-lzcnt-256.ll

	Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv4i64:			; AVX512VLBWDQ-LABEL: testv4i64:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1
	; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4			; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5
	; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2
	; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1			; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1
	; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 175 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv4i64u:			; AVX512VLBWDQ-LABEL: testv4i64u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1
	; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4			; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5
	; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2
	; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1			; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1
	; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrld $16, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrld $16, %ymm1, %ymm1
	; AVX512VL-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv8i32:			; AVX512VLBWDQ-LABEL: testv8i32:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1
	; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4			; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5
	; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2
	; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1			; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1
	; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrld $16, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrld $16, %ymm1, %ymm1
	; AVX512VL-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv8i32u:			; AVX512VLBWDQ-LABEL: testv8i32u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1
	; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4			; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5
	; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2
	; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1			; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1
	; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512VL-NEXT: vpaddw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv16i16:			; AVX512VLBWDQ-LABEL: testv16i16:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1
	; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4			; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5
	; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2
	; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1			; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1
	; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512VL-NEXT: vpaddw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv16i16u:			; AVX512VLBWDQ-LABEL: testv16i16u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm4
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm4, %ymm1
	; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4			; AVX512VLBWDQ-NEXT: vpxor %ymm4, %ymm4, %ymm4
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm5
	; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm5, %ymm2, %ymm2
	; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1			; AVX512VLBWDQ-NEXT: vpshufb %ymm1, %ymm3, %ymm1
	; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpshufb %ymm0, %ymm3, %ymm0			; AVX512VL-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX512VL-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv32i8:			; AVX512VLBWDQ-LABEL: testv32i8:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512VLBWDQ-NEXT: vpxor %ymm1, %ymm1, %ymm1			; AVX512VLBWDQ-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm1			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm1
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX512VLBWDQ-NEXT: vpshufb %ymm0, %ymm3, %ymm0			; AVX512VLBWDQ-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX512VLBWDQ-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512VLBWDQ-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpshufb %ymm0, %ymm3, %ymm0			; AVX512VL-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX512VL-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512VLBWDQ-LABEL: testv32i8u:			; AVX512VLBWDQ-LABEL: testv32i8u:
	; AVX512VLBWDQ: # BB#0:			; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512VLBWDQ-NEXT: vmovdqa {{.*#+}} ymm3 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2			; AVX512VLBWDQ-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VLBWDQ-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512VLBWDQ-NEXT: vpxor %ymm1, %ymm1, %ymm1			; AVX512VLBWDQ-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm1			; AVX512VLBWDQ-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm1
	; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX512VLBWDQ-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX512VLBWDQ-NEXT: vpshufb %ymm0, %ymm3, %ymm0			; AVX512VLBWDQ-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX512VLBWDQ-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512VLBWDQ-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; X32-AVX: # BB#0:			; X32-AVX: # BB#0:
	; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [23,0,32,24,0,29,27,25]			; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [23,0,32,24,0,29,27,25]
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	%out = call <8 x i32> @llvm.ctlz.v8i32(<8 x i32> <i32 256, i32 -1, i32 0, i32 255, i32 -65536, i32 7, i32 24, i32 88>, i1 -1)			%out = call <8 x i32> @llvm.ctlz.v8i32(<8 x i32> <i32 256, i32 -1, i32 0, i32 255, i32 -65536, i32 7, i32 24, i32 88>, i1 -1)
	ret <8 x i32> %out			ret <8 x i32> %out
	}			}

	define <16 x i16> @foldv16i16() nounwind {			define <16 x i16> @foldv16i16() nounwind {
	; NOBW-LABEL: foldv16i16:			; X64-LABEL: foldv16i16:
	; NOBW: # BB#0:			; X64: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]			; X64-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]
	; NOBW-NEXT: retq			; X64-NEXT: retq
	;
	; AVX512VLBWDQ-LABEL: foldv16i16:
	; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]
	; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-AVX-LABEL: foldv16i16:			; X32-AVX-LABEL: foldv16i16:
	; X32-AVX: # BB#0:			; X32-AVX: # BB#0:
	; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]			; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88, i16 -2, i16 254, i16 1, i16 2, i16 4, i16 8, i16 16, i16 32>, i1 0)			%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88, i16 -2, i16 254, i16 1, i16 2, i16 4, i16 8, i16 16, i16 32>, i1 0)
	ret <16 x i16> %out			ret <16 x i16> %out
	}			}

	define <16 x i16> @foldv16i16u() nounwind {			define <16 x i16> @foldv16i16u() nounwind {
	; NOBW-LABEL: foldv16i16u:			; X64-LABEL: foldv16i16u:
	; NOBW: # BB#0:			; X64: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]			; X64-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]
	; NOBW-NEXT: retq			; X64-NEXT: retq
	;
	; AVX512VLBWDQ-LABEL: foldv16i16u:
	; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]
	; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-AVX-LABEL: foldv16i16u:			; X32-AVX-LABEL: foldv16i16u:
	; X32-AVX: # BB#0:			; X32-AVX: # BB#0:
	; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]			; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [7,0,16,8,16,13,11,9,0,8,15,14,13,12,11,10]
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88, i16 -2, i16 254, i16 1, i16 2, i16 4, i16 8, i16 16, i16 32>, i1 -1)			%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88, i16 -2, i16 254, i16 1, i16 2, i16 4, i16 8, i16 16, i16 32>, i1 -1)
	ret <16 x i16> %out			ret <16 x i16> %out
	}			}

	define <32 x i8> @foldv32i8() nounwind {			define <32 x i8> @foldv32i8() nounwind {
	; NOBW-LABEL: foldv32i8:			; X64-LABEL: foldv32i8:
	; NOBW: # BB#0:			; X64: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]			; X64-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]
	; NOBW-NEXT: retq			; X64-NEXT: retq
	;
	; AVX512VLBWDQ-LABEL: foldv32i8:
	; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]
	; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-AVX-LABEL: foldv32i8:			; X32-AVX-LABEL: foldv32i8:
	; X32-AVX: # BB#0:			; X32-AVX: # BB#0:
	; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]			; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	%out = call <32 x i8> @llvm.ctlz.v32i8(<32 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 256, i8 -256, i8 -128, i8 -64, i8 -32, i8 -16, i8 -8, i8 -4, i8 -2, i8 -1, i8 3, i8 5, i8 7, i8 127>, i1 0)			%out = call <32 x i8> @llvm.ctlz.v32i8(<32 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 256, i8 -256, i8 -128, i8 -64, i8 -32, i8 -16, i8 -8, i8 -4, i8 -2, i8 -1, i8 3, i8 5, i8 7, i8 127>, i1 0)
	ret <32 x i8> %out			ret <32 x i8> %out
	}			}

	define <32 x i8> @foldv32i8u() nounwind {			define <32 x i8> @foldv32i8u() nounwind {
	; NOBW-LABEL: foldv32i8u:			; X64-LABEL: foldv32i8u:
	; NOBW: # BB#0:			; X64: # BB#0:
	; NOBW-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]			; X64-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]
	; NOBW-NEXT: retq			; X64-NEXT: retq
	;
	; AVX512VLBWDQ-LABEL: foldv32i8u:
	; AVX512VLBWDQ: # BB#0:
	; AVX512VLBWDQ-NEXT: vmovdqu {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]
	; AVX512VLBWDQ-NEXT: retq
	;			;
	; X32-AVX-LABEL: foldv32i8u:			; X32-AVX-LABEL: foldv32i8u:
	; X32-AVX: # BB#0:			; X32-AVX: # BB#0:
	; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]			; X32-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,8,0,8,5,3,1,0,0,7,6,5,4,3,2,1,0,8,8,0,0,0,0,0,0,0,0,6,5,5,1]
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	%out = call <32 x i8> @llvm.ctlz.v32i8(<32 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 256, i8 -256, i8 -128, i8 -64, i8 -32, i8 -16, i8 -8, i8 -4, i8 -2, i8 -1, i8 3, i8 5, i8 7, i8 127>, i1 -1)			%out = call <32 x i8> @llvm.ctlz.v32i8(<32 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 256, i8 -256, i8 -128, i8 -64, i8 -32, i8 -16, i8 -8, i8 -4, i8 -2, i8 -1, i8 3, i8 5, i8 7, i8 127>, i1 -1)
	ret <32 x i8> %out			ret <32 x i8> %out
	}			}

	declare <4 x i64> @llvm.ctlz.v4i64(<4 x i64>, i1)			declare <4 x i64> @llvm.ctlz.v4i64(<4 x i64>, i1)
	declare <8 x i32> @llvm.ctlz.v8i32(<8 x i32>, i1)			declare <8 x i32> @llvm.ctlz.v8i32(<8 x i32>, i1)
	declare <16 x i16> @llvm.ctlz.v16i16(<16 x i16>, i1)			declare <16 x i16> @llvm.ctlz.v16i16(<16 x i16>, i1)
	declare <32 x i8> @llvm.ctlz.v32i8(<32 x i8>, i1)			declare <32 x i8> @llvm.ctlz.v32i8(<32 x i8>, i1)

llvm/trunk/test/CodeGen/X86/vector-lzcnt-512.ll

	Show All 25 Lines
	; AVX512BW-NEXT: vpsrlq $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlq $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlq $16, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlq $16, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsrlq $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlq $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlq $16, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlq $16, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpandq %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandnq %zmm2, %zmm0, %zmm1			; AVX512BW-NEXT: vpandnq %zmm2, %zmm0, %zmm1
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm1, %zmm3, %zmm1			; AVX512BW-NEXT: vpshufb %zmm1, %zmm3, %zmm1
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpandq %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandnq %zmm2, %zmm0, %zmm1			; AVX512BW-NEXT: vpandnq %zmm2, %zmm0, %zmm1
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm1, %zmm3, %zmm1			; AVX512BW-NEXT: vpshufb %zmm1, %zmm3, %zmm1
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0			; AVX512BW-NEXT: vpxorq %zmm4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	Show All 31 Lines

llvm/trunk/test/CodeGen/X86/vector-popcnt-512.ll

	Show All 26 Lines
	; AVX512F-NEXT: vpsadbw %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpsadbw %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv8i64:			; AVX512BW-LABEL: testv8i64:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	Show All 37 Lines
	; AVX512F-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512F-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv16i32:			; AVX512BW-LABEL: testv16i32:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]			; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
	Show All 34 Lines
	; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX512F-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512F-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv32i16:			; AVX512BW-LABEL: testv32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-NOBW-LABEL: testv32i16:			; AVX512VPOPCNTDQ-NOBW-LABEL: testv32i16:
	; AVX512VPOPCNTDQ-NOBW: # BB#0:			; AVX512VPOPCNTDQ-NOBW: # BB#0:
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpopcntd %zmm0, %zmm0			; AVX512VPOPCNTDQ-NOBW-NEXT: vpopcntd %zmm0, %zmm0
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovdw %zmm0, %ymm0			; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpopcntd %zmm1, %zmm1			; AVX512VPOPCNTDQ-NOBW-NEXT: vpopcntd %zmm1, %zmm1
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovdw %zmm1, %ymm1			; AVX512VPOPCNTDQ-NOBW-NEXT: vpmovdw %zmm1, %ymm1
	; AVX512VPOPCNTDQ-NOBW-NEXT: retq			; AVX512VPOPCNTDQ-NOBW-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-BW-LABEL: testv32i16:			; AVX512VPOPCNTDQ-BW-LABEL: testv32i16:
	; AVX512VPOPCNTDQ-BW: # BB#0:			; AVX512VPOPCNTDQ-BW: # BB#0:
	; AVX512VPOPCNTDQ-BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VPOPCNTDQ-BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512VPOPCNTDQ-BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512VPOPCNTDQ-BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512VPOPCNTDQ-BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512VPOPCNTDQ-BW-NEXT: vpsllw $8, %zmm0, %zmm1
	; AVX512VPOPCNTDQ-BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpsrlw $8, %zmm0, %zmm0
	Show All 20 Lines
	; AVX512F-NEXT: vpshufb %ymm1, %ymm4, %ymm1			; AVX512F-NEXT: vpshufb %ymm1, %ymm4, %ymm1
	; AVX512F-NEXT: vpaddb %ymm3, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm3, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv64i8:			; AVX512BW-LABEL: testv64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-NOBW-LABEL: testv64i8:			; AVX512VPOPCNTDQ-NOBW-LABEL: testv64i8:
	Show All 13 Lines
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpshufb %ymm1, %ymm4, %ymm1			; AVX512VPOPCNTDQ-NOBW-NEXT: vpshufb %ymm1, %ymm4, %ymm1
	; AVX512VPOPCNTDQ-NOBW-NEXT: vpaddb %ymm3, %ymm1, %ymm1			; AVX512VPOPCNTDQ-NOBW-NEXT: vpaddb %ymm3, %ymm1, %ymm1
	; AVX512VPOPCNTDQ-NOBW-NEXT: retq			; AVX512VPOPCNTDQ-NOBW-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-BW-LABEL: testv64i8:			; AVX512VPOPCNTDQ-BW-LABEL: testv64i8:
	; AVX512VPOPCNTDQ-BW: # BB#0:			; AVX512VPOPCNTDQ-BW: # BB#0:
	; AVX512VPOPCNTDQ-BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512VPOPCNTDQ-BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512VPOPCNTDQ-BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512VPOPCNTDQ-BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512VPOPCNTDQ-BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512VPOPCNTDQ-BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512VPOPCNTDQ-BW-NEXT: retq			; AVX512VPOPCNTDQ-BW-NEXT: retq
	%out = call <64 x i8> @llvm.ctpop.v64i8(<64 x i8> %in)			%out = call <64 x i8> @llvm.ctpop.v64i8(<64 x i8> %in)
	ret <64 x i8> %out			ret <64 x i8> %out
	}			}

	declare <8 x i64> @llvm.ctpop.v8i64(<8 x i64>)			declare <8 x i64> @llvm.ctpop.v8i64(<8 x i64>)
	declare <16 x i32> @llvm.ctpop.v16i32(<16 x i32>)			declare <16 x i32> @llvm.ctpop.v16i32(<16 x i32>)
	declare <32 x i16> @llvm.ctpop.v32i16(<32 x i16>)			declare <32 x i16> @llvm.ctpop.v32i16(<32 x i16>)
	declare <64 x i8> @llvm.ctpop.v64i8(<64 x i8>)			declare <64 x i8> @llvm.ctpop.v64i8(<64 x i8>)

llvm/trunk/test/CodeGen/X86/vector-rotate-128.ll

	Show First 20 Lines • Show All 470 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: var_rotate_v8i16:			; AVX512VL-LABEL: var_rotate_v8i16:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [16,16,16,16,16,16,16,16]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [16,16,16,16,16,16,16,16]
	; AVX512VL-NEXT: vpsubw %xmm1, %xmm2, %xmm2			; AVX512VL-NEXT: vpsubw %xmm1, %xmm2, %xmm2
	; AVX512VL-NEXT: vpsllvw %xmm1, %xmm0, %xmm1			; AVX512VL-NEXT: vpsllvw %xmm1, %xmm0, %xmm1
	; AVX512VL-NEXT: vpsrlvw %xmm2, %xmm0, %xmm0			; AVX512VL-NEXT: vpsrlvw %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512VL-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOP-LABEL: var_rotate_v8i16:			; XOP-LABEL: var_rotate_v8i16:
	; XOP: # BB#0:			; XOP: # BB#0:
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpblendvb %xmm3, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpblendvb %xmm3, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpsrlw $1, %xmm0, %xmm2			; AVX-NEXT: vpsrlw $1, %xmm0, %xmm2
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX-NEXT: vpaddb %xmm3, %xmm3, %xmm3			; AVX-NEXT: vpaddb %xmm3, %xmm3, %xmm3
	; AVX-NEXT: vpblendvb %xmm3, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpblendvb %xmm3, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: var_rotate_v16i8:			; AVX512-LABEL: var_rotate_v16i8:
	; AVX512BW: # BB#0:			; AVX512: # BB#0:
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512BW-NEXT: vpsubb %xmm1, %xmm2, %xmm2			; AVX512-NEXT: vpsubb %xmm1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512BW-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512BW-NEXT: vpsllvd %zmm1, %zmm0, %zmm1			; AVX512-NEXT: vpsllvd %zmm1, %zmm0, %zmm1
	; AVX512BW-NEXT: vpmovdb %zmm1, %xmm1			; AVX512-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512BW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512BW-NEXT: vpsrlvd %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpsrlvd %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512BW-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512-NEXT: retq
	;
	; AVX512VL-LABEL: var_rotate_v16i8:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512VL-NEXT: vpsubb %xmm1, %xmm2, %xmm2
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512VL-NEXT: vpsllvd %zmm1, %zmm0, %zmm1
	; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512VL-NEXT: vpsrlvd %zmm2, %zmm0, %zmm0
	; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512VL-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq
	;			;
	; XOP-LABEL: var_rotate_v16i8:			; XOP-LABEL: var_rotate_v16i8:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vprotb %xmm1, %xmm0, %xmm0			; XOP-NEXT: vprotb %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_rotate_v16i8:			; X32-SSE-LABEL: var_rotate_v16i8:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	▲ Show 20 Lines • Show All 1,026 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-rotate-256.ll

	Show First 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpsubw %ymm1, %ymm2, %ymm2			; AVX512BW-NEXT: vpsubw %ymm1, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: var_rotate_v16i16:			; AVX512VL-LABEL: var_rotate_v16i16:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VL-NEXT: vpsubw %ymm1, %ymm2, %ymm2			; AVX512VL-NEXT: vpsubw %ymm1, %ymm2, %ymm2
	; AVX512VL-NEXT: vpsllvw %ymm1, %ymm0, %ymm1			; AVX512VL-NEXT: vpsllvw %ymm1, %ymm0, %ymm1
	; AVX512VL-NEXT: vpsrlvw %ymm2, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlvw %ymm2, %ymm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v16i16:			; XOPAVX1-LABEL: var_rotate_v16i16:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendvb %ymm3, %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpblendvb %ymm3, %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $1, %ymm0, %ymm2			; AVX2-NEXT: vpsrlw $1, %ymm0, %ymm2
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2-NEXT: vpaddb %ymm3, %ymm3, %ymm3			; AVX2-NEXT: vpaddb %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpblendvb %ymm3, %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpblendvb %ymm3, %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: var_rotate_v32i8:			; AVX512-LABEL: var_rotate_v32i8:
	; AVX512BW: # BB#0:			; AVX512: # BB#0:
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; AVX512-NEXT: vmovdqa {{.*#+}} ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512BW-NEXT: vpsubb %ymm1, %ymm2, %ymm2			; AVX512-NEXT: vpsubb %ymm1, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero,ymm1[16],zero,ymm1[17],zero,ymm1[18],zero,ymm1[19],zero,ymm1[20],zero,ymm1[21],zero,ymm1[22],zero,ymm1[23],zero,ymm1[24],zero,ymm1[25],zero,ymm1[26],zero,ymm1[27],zero,ymm1[28],zero,ymm1[29],zero,ymm1[30],zero,ymm1[31],zero			; AVX512-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero,ymm1[16],zero,ymm1[17],zero,ymm1[18],zero,ymm1[19],zero,ymm1[20],zero,ymm1[21],zero,ymm1[22],zero,ymm1[23],zero,ymm1[24],zero,ymm1[25],zero,ymm1[26],zero,ymm1[27],zero,ymm1[28],zero,ymm1[29],zero,ymm1[30],zero,ymm1[31],zero
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1			; AVX512-NEXT: vpsllvw %zmm1, %zmm0, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm2 = ymm2[0],zero,ymm2[1],zero,ymm2[2],zero,ymm2[3],zero,ymm2[4],zero,ymm2[5],zero,ymm2[6],zero,ymm2[7],zero,ymm2[8],zero,ymm2[9],zero,ymm2[10],zero,ymm2[11],zero,ymm2[12],zero,ymm2[13],zero,ymm2[14],zero,ymm2[15],zero,ymm2[16],zero,ymm2[17],zero,ymm2[18],zero,ymm2[19],zero,ymm2[20],zero,ymm2[21],zero,ymm2[22],zero,ymm2[23],zero,ymm2[24],zero,ymm2[25],zero,ymm2[26],zero,ymm2[27],zero,ymm2[28],zero,ymm2[29],zero,ymm2[30],zero,ymm2[31],zero			; AVX512-NEXT: vpmovzxbw {{.*#+}} zmm2 = ymm2[0],zero,ymm2[1],zero,ymm2[2],zero,ymm2[3],zero,ymm2[4],zero,ymm2[5],zero,ymm2[6],zero,ymm2[7],zero,ymm2[8],zero,ymm2[9],zero,ymm2[10],zero,ymm2[11],zero,ymm2[12],zero,ymm2[13],zero,ymm2[14],zero,ymm2[15],zero,ymm2[16],zero,ymm2[17],zero,ymm2[18],zero,ymm2[19],zero,ymm2[20],zero,ymm2[21],zero,ymm2[22],zero,ymm2[23],zero,ymm2[24],zero,ymm2[25],zero,ymm2[26],zero,ymm2[27],zero,ymm2[28],zero,ymm2[29],zero,ymm2[30],zero,ymm2[31],zero
	; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX512BW-NEXT: retq			; AVX512-NEXT: retq
	;
	; AVX512VL-LABEL: var_rotate_v32i8:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512VL-NEXT: vpsubb %ymm1, %ymm2, %ymm2
	; AVX512VL-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero,ymm1[16],zero,ymm1[17],zero,ymm1[18],zero,ymm1[19],zero,ymm1[20],zero,ymm1[21],zero,ymm1[22],zero,ymm1[23],zero,ymm1[24],zero,ymm1[25],zero,ymm1[26],zero,ymm1[27],zero,ymm1[28],zero,ymm1[29],zero,ymm1[30],zero,ymm1[31],zero
	; AVX512VL-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512VL-NEXT: vpsllvw %zmm1, %zmm0, %zmm1
	; AVX512VL-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512VL-NEXT: vpmovzxbw {{.*#+}} zmm2 = ymm2[0],zero,ymm2[1],zero,ymm2[2],zero,ymm2[3],zero,ymm2[4],zero,ymm2[5],zero,ymm2[6],zero,ymm2[7],zero,ymm2[8],zero,ymm2[9],zero,ymm2[10],zero,ymm2[11],zero,ymm2[12],zero,ymm2[13],zero,ymm2[14],zero,ymm2[15],zero,ymm2[16],zero,ymm2[17],zero,ymm2[18],zero,ymm2[19],zero,ymm2[20],zero,ymm2[21],zero,ymm2[22],zero,ymm2[23],zero,ymm2[24],zero,ymm2[25],zero,ymm2[26],zero,ymm2[27],zero,ymm2[28],zero,ymm2[29],zero,ymm2[30],zero,ymm2[31],zero
	; AVX512VL-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0
	; AVX512VL-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v32i8:			; XOPAVX1-LABEL: var_rotate_v32i8:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vprotb %xmm2, %xmm3, %xmm2			; XOPAVX1-NEXT: vprotb %xmm2, %xmm3, %xmm2
	; XOPAVX1-NEXT: vprotb %xmm1, %xmm0, %xmm0			; XOPAVX1-NEXT: vprotb %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 807 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-rotate-512.ll

	Show First 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm3 = ymm5[0],zero,ymm5[1],zero,ymm5[2],zero,ymm5[3],zero,ymm5[4],zero,ymm5[5],zero,ymm5[6],zero,ymm5[7],zero,ymm5[8],zero,ymm5[9],zero,ymm5[10],zero,ymm5[11],zero,ymm5[12],zero,ymm5[13],zero,ymm5[14],zero,ymm5[15],zero			; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm3 = ymm5[0],zero,ymm5[1],zero,ymm5[2],zero,ymm5[3],zero,ymm5[4],zero,ymm5[5],zero,ymm5[6],zero,ymm5[7],zero,ymm5[8],zero,ymm5[9],zero,ymm5[10],zero,ymm5[11],zero,ymm5[12],zero,ymm5[13],zero,ymm5[14],zero,ymm5[15],zero
	; AVX512VL-NEXT: vpsrlvd %zmm3, %zmm0, %zmm0			; AVX512VL-NEXT: vpsrlvd %zmm3, %zmm0, %zmm0
	; AVX512VL-NEXT: vpmovdw %zmm0, %ymm0			; AVX512VL-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm2, %ymm0			; AVX512VL-NEXT: vpor %ymm0, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: var_rotate_v32i16:			; AVX512BW-LABEL: var_rotate_v32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu16 {{.*#+}} zmm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512BW-NEXT: vpsubw %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsubw %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: var_rotate_v32i16:			; AVX512VLBW-LABEL: var_rotate_v32i16:
	; AVX512VLBW: # BB#0:			; AVX512VLBW: # BB#0:
	; AVX512VLBW-NEXT: vmovdqu16 {{.*#+}} zmm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-NEXT: vpsubw %zmm1, %zmm2, %zmm2			; AVX512VLBW-NEXT: vpsubw %zmm1, %zmm2, %zmm2
	; AVX512VLBW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1			; AVX512VLBW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1
	; AVX512VLBW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0			; AVX512VLBW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	%b16 = sub <32 x i16> <i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16>, %b			%b16 = sub <32 x i16> <i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16>, %b
	%shl = shl <32 x i16> %a, %b			%shl = shl <32 x i16> %a, %b
	%lshr = lshr <32 x i16> %a, %b16			%lshr = lshr <32 x i16> %a, %b16
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpaddb %ymm4, %ymm4, %ymm4			; AVX512VL-NEXT: vpaddb %ymm4, %ymm4, %ymm4
	; AVX512VL-NEXT: vpblendvb %ymm4, %ymm5, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm4, %ymm5, %ymm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm2, %ymm0			; AVX512VL-NEXT: vpor %ymm0, %ymm2, %ymm0
	; AVX512VL-NEXT: vpor %ymm1, %ymm3, %ymm1			; AVX512VL-NEXT: vpor %ymm1, %ymm3, %ymm1
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: var_rotate_v64i8:			; AVX512BW-LABEL: var_rotate_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512BW-NEXT: vpsubb %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsubb %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm3			; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm3
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512BW-NEXT: vpsllw $5, %zmm1, %zmm1			; AVX512BW-NEXT: vpsllw $5, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vpblendmb %zmm3, %zmm0, %zmm3 {%k1}			; AVX512BW-NEXT: vpblendmb %zmm3, %zmm0, %zmm3 {%k1}
	; AVX512BW-NEXT: vpsllw $2, %zmm3, %zmm4			; AVX512BW-NEXT: vpsllw $2, %zmm3, %zmm4
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm4, %zmm4			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm4, %zmm4
	Show All 18 Lines
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm2, %zmm2			; AVX512BW-NEXT: vpaddb %zmm2, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmovb2m %zmm2, %k1			; AVX512BW-NEXT: vpmovb2m %zmm2, %k1
	; AVX512BW-NEXT: vmovdqu8 %zmm1, %zmm0 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm1, %zmm0 {%k1}
	; AVX512BW-NEXT: vporq %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: var_rotate_v64i8:			; AVX512VLBW-LABEL: var_rotate_v64i8:
	; AVX512VLBW: # BB#0:			; AVX512VLBW: # BB#0:
	; AVX512VLBW-NEXT: vmovdqu8 {{.*#+}} zmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; AVX512VLBW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512VLBW-NEXT: vpsubb %zmm1, %zmm2, %zmm2			; AVX512VLBW-NEXT: vpsubb %zmm1, %zmm2, %zmm2
	; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm3			; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm3
	; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512VLBW-NEXT: vpsllw $5, %zmm1, %zmm1			; AVX512VLBW-NEXT: vpsllw $5, %zmm1, %zmm1
	; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VLBW-NEXT: vpblendmb %zmm3, %zmm0, %zmm3 {%k1}			; AVX512VLBW-NEXT: vpblendmb %zmm3, %zmm0, %zmm3 {%k1}
	; AVX512VLBW-NEXT: vpsllw $2, %zmm3, %zmm4			; AVX512VLBW-NEXT: vpsllw $2, %zmm3, %zmm4
	; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm4, %zmm4			; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm4, %zmm4
	▲ Show 20 Lines • Show All 205 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpand %ymm9, %ymm4, %ymm4			; AVX512VL-NEXT: vpand %ymm9, %ymm4, %ymm4
	; AVX512VL-NEXT: vpblendvb %ymm10, %ymm4, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm10, %ymm4, %ymm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm3, %ymm0			; AVX512VL-NEXT: vpor %ymm0, %ymm3, %ymm0
	; AVX512VL-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX512VL-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_rotate_v64i8:			; AVX512BW-LABEL: constant_rotate_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm2			; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}			; AVX512BW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vpsllw $2, %zmm2, %zmm3			; AVX512BW-NEXT: vpsllw $2, %zmm2, %zmm3
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm2 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm2 {%k1}
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm2, %zmm2 {%k1}			; AVX512BW-NEXT: vpaddb %zmm2, %zmm2, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536]
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm3			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm3
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm3			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm3
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}
	; AVX512BW-NEXT: vpsrlw $1, %zmm0, %zmm3			; AVX512BW-NEXT: vpsrlw $1, %zmm0, %zmm3
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}
	; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: constant_rotate_v64i8:			; AVX512VLBW-LABEL: constant_rotate_v64i8:
	; AVX512VLBW: # BB#0:			; AVX512VLBW: # BB#0:
	; AVX512VLBW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512VLBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]
	; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm2			; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm2
	; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512VLBW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}			; AVX512VLBW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}
	; AVX512VLBW-NEXT: vpsllw $2, %zmm2, %zmm3			; AVX512VLBW-NEXT: vpsllw $2, %zmm2, %zmm3
	; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VLBW-NEXT: vmovdqu8 %zmm3, %zmm2 {%k1}			; AVX512VLBW-NEXT: vmovdqu8 %zmm3, %zmm2 {%k1}
	; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VLBW-NEXT: vpaddb %zmm2, %zmm2, %zmm2 {%k1}			; AVX512VLBW-NEXT: vpaddb %zmm2, %zmm2, %zmm2 {%k1}
	; AVX512VLBW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536]			; AVX512VLBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536]
	; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VLBW-NEXT: vpsrlw $4, %zmm0, %zmm3			; AVX512VLBW-NEXT: vpsrlw $4, %zmm0, %zmm3
	; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512VLBW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}			; AVX512VLBW-NEXT: vmovdqu8 %zmm3, %zmm0 {%k1}
	; AVX512VLBW-NEXT: vpsrlw $2, %zmm0, %zmm3			; AVX512VLBW-NEXT: vpsrlw $2, %zmm0, %zmm3
	; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3			; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm3, %zmm3
	; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1
	▲ Show 20 Lines • Show All 291 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-512.ll

	Show First 20 Lines • Show All 350 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512DQ-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm1, %ymm1			; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm1, %ymm1
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_shift_v64i8:			; AVX512BW-LABEL: constant_shift_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm1 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm1 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpsraw $4, %zmm1, %zmm2			; AVX512BW-NEXT: vpsraw $4, %zmm1, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm0[8],zmm3[8],zmm0[9],zmm3[9],zmm0[10],zmm3[10],zmm0[11],zmm3[11],zmm0[12],zmm3[12],zmm0[13],zmm3[13],zmm0[14],zmm3[14],zmm0[15],zmm3[15],zmm0[24],zmm3[24],zmm0[25],zmm3[25],zmm0[26],zmm3[26],zmm0[27],zmm3[27],zmm0[28],zmm3[28],zmm0[29],zmm3[29],zmm0[30],zmm3[30],zmm0[31],zmm3[31],zmm0[40],zmm3[40],zmm0[41],zmm3[41],zmm0[42],zmm3[42],zmm0[43],zmm3[43],zmm0[44],zmm3[44],zmm0[45],zmm3[45],zmm0[46],zmm3[46],zmm0[47],zmm3[47],zmm0[56],zmm3[56],zmm0[57],zmm3[57],zmm0[58],zmm3[58],zmm0[59],zmm3[59],zmm0[60],zmm3[60],zmm0[61],zmm3[61],zmm0[62],zmm3[62],zmm0[63],zmm3[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm0[8],zmm3[8],zmm0[9],zmm3[9],zmm0[10],zmm3[10],zmm0[11],zmm3[11],zmm0[12],zmm3[12],zmm0[13],zmm3[13],zmm0[14],zmm3[14],zmm0[15],zmm3[15],zmm0[24],zmm3[24],zmm0[25],zmm3[25],zmm0[26],zmm3[26],zmm0[27],zmm3[27],zmm0[28],zmm3[28],zmm0[29],zmm3[29],zmm0[30],zmm3[30],zmm0[31],zmm3[31],zmm0[40],zmm3[40],zmm0[41],zmm3[41],zmm0[42],zmm3[42],zmm0[43],zmm3[43],zmm0[44],zmm3[44],zmm0[45],zmm3[45],zmm0[46],zmm3[46],zmm0[47],zmm3[47],zmm0[56],zmm3[56],zmm0[57],zmm3[57],zmm0[58],zmm3[58],zmm0[59],zmm3[59],zmm0[60],zmm3[60],zmm0[61],zmm3[61],zmm0[62],zmm3[62],zmm0[63],zmm3[63]
	; AVX512BW-NEXT: vpmovb2m %zmm4, %k1			; AVX512BW-NEXT: vpmovb2m %zmm4, %k1
	; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm1 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm1 {%k1}
	; AVX512BW-NEXT: vpsraw $2, %zmm1, %zmm2			; AVX512BW-NEXT: vpsraw $2, %zmm1, %zmm2
	; AVX512BW-NEXT: vpaddw %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpaddw %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpmovb2m %zmm4, %k1			; AVX512BW-NEXT: vpmovb2m %zmm4, %k1
	; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm1 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm1 {%k1}
	; AVX512BW-NEXT: vpsraw $1, %zmm1, %zmm2			; AVX512BW-NEXT: vpsraw $1, %zmm1, %zmm2
	▲ Show 20 Lines • Show All 105 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-lshr-512.ll

	Show First 20 Lines • Show All 263 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vpblendvb %ymm6, %ymm2, %ymm1, %ymm1			; AVX512DQ-NEXT: vpblendvb %ymm6, %ymm2, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpsrlw $1, %ymm1, %ymm2			; AVX512DQ-NEXT: vpsrlw $1, %ymm1, %ymm2
	; AVX512DQ-NEXT: vpand %ymm7, %ymm2, %ymm2			; AVX512DQ-NEXT: vpand %ymm7, %ymm2, %ymm2
	; AVX512DQ-NEXT: vpblendvb %ymm8, %ymm2, %ymm1, %ymm1			; AVX512DQ-NEXT: vpblendvb %ymm8, %ymm2, %ymm1, %ymm1
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_shift_v64i8:			; AVX512BW-LABEL: constant_shift_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32]
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm0 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm0 {%k1}
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	▲ Show 20 Lines • Show All 66 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-shl-512.ll

	Show First 20 Lines • Show All 246 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512DQ-NEXT: vpand %ymm5, %ymm2, %ymm2
	; AVX512DQ-NEXT: vpblendvb %ymm6, %ymm2, %ymm1, %ymm1			; AVX512DQ-NEXT: vpblendvb %ymm6, %ymm2, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpaddb %ymm1, %ymm1, %ymm2			; AVX512DQ-NEXT: vpaddb %ymm1, %ymm1, %ymm2
	; AVX512DQ-NEXT: vpblendvb %ymm7, %ymm2, %ymm1, %ymm1			; AVX512DQ-NEXT: vpblendvb %ymm7, %ymm2, %ymm1, %ymm1
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_shift_v64i8:			; AVX512BW-LABEL: constant_shift_v64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm1 = [8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32,8192,24640,41088,57536,49376,32928,16480,32]
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm2			; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm0 {%k1}			; AVX512BW-NEXT: vmovdqu8 %zmm2, %zmm0 {%k1}
	; AVX512BW-NEXT: vpsllw $2, %zmm0, %zmm2			; AVX512BW-NEXT: vpsllw $2, %zmm0, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v16.ll

	Show First 20 Lines • Show All 1,378 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: PR12412:			; SSE41-LABEL: PR12412:
	; SSE41: # BB#0: # %entry			; SSE41: # BB#0: # %entry
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; SSE41-NEXT: pshufb %xmm2, %xmm1			; SSE41-NEXT: pshufb %xmm2, %xmm1
	; SSE41-NEXT: pshufb %xmm2, %xmm0			; SSE41-NEXT: pshufb %xmm2, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1OR2-LABEL: PR12412:			; AVX-LABEL: PR12412:
	; AVX1OR2: # BB#0: # %entry			; AVX: # BB#0: # %entry
	; AVX1OR2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX1OR2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1OR2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1OR2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1OR2-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX512VL-LABEL: PR12412:
	; AVX512VL: # BB#0: # %entry
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512VL-NEXT: retq
	entry:			entry:
	%0 = shufflevector <16 x i8> %inval1, <16 x i8> %inval2, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>			%0 = shufflevector <16 x i8> %inval1, <16 x i8> %inval2, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>
	ret <16 x i8> %0			ret <16 x i8> %0
	}			}

	define <16 x i8> @shuffle_v16i8_uu_02_03_zz_uu_06_07_zz_uu_10_11_zz_uu_14_15_zz(<16 x i8> %a) {			define <16 x i8> @shuffle_v16i8_uu_02_03_zz_uu_06_07_zz_uu_10_11_zz_uu_14_15_zz(<16 x i8> %a) {
	; SSE-LABEL: shuffle_v16i8_uu_02_03_zz_uu_06_07_zz_uu_10_11_zz_uu_14_15_zz:			; SSE-LABEL: shuffle_v16i8_uu_02_03_zz_uu_06_07_zz_uu_10_11_zz_uu_14_15_zz:
	; SSE: # BB#0:			; SSE: # BB#0:
	▲ Show 20 Lines • Show All 421 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v16.ll

	Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,0,1,1,4,4,5,5]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,0,1,1,4,4,5,5]
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_00_00_00_00_00_00_00_00:			; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_00_00_00_00_00_00_00_00:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0]
	; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 8, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 8, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_09_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_09_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_09_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_09_00_00_00_00_00_00_00_00_00:
	Show All 11 Lines
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <0,0,255,255,u,u,u,u,u,u,u,u,u,u,u,u,255,255,u,u,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <0,0,255,255,u,u,u,u,u,u,u,u,u,u,u,u,255,255,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,0,1,0,1,0,1,2,3,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,0,1,0,1,0,1,2,3,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_00_09_00_00_00_00_00_00_00_00_00:			; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_00_09_00_00_00_00_00_00_00_00_00:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0]
	; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 9, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 9, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_00_10_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_00_10_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_10_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_10_00_00_00_00_00_00_00_00_00_00:
	Show All 10 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,0,1,0,1,4,5,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,0,1,0,1,4,5,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_10_00_00_00_00_00_00_00_00_00_00:			; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_10_00_00_00_00_00_00_00_00_00_00:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0]
	; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 10, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 10, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_11_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_11_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_00_11_00_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v16i16_00_00_00_00_11_00_00_00_00_00_00_00_00_00_00_00:
	Show All 10 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,0,1,6,7,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,0,1,6,7,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_11_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_11_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 11, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 11, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00:
	Show All 9 Lines
	; AVX2-LABEL: shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,8,9,0,1,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,8,9,0,1,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VL-LABEL: shuffle_v16i16_00_00_00_12_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 12, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 12, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00:
	Show All 9 Lines
	; AVX2-LABEL: shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,10,11,0,1,0,1,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,10,11,0,1,0,1,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VL-LABEL: shuffle_v16i16_00_00_13_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 13, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 13, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	Show All 9 Lines
	; AVX2-LABEL: shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,12,13,0,1,0,1,0,1,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,12,13,0,1,0,1,0,1,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VL-LABEL: shuffle_v16i16_00_14_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 14, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX1-LABEL: shuffle_v16i16_15_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	▲ Show 20 Lines • Show All 506 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,0,1,1,4,4,5,5]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,0,1,1,4,4,5,5]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_16_00_16_00_16_00_16_08_24_08_24_08_24_08_24:			; AVX512VL-LABEL: shuffle_v16i16_00_16_00_16_00_16_00_16_08_24_08_24_08_24_08_24:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,16,0,16,0,16,0,16,8,24,8,24,8,24,8,24]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,16,0,16,0,16,0,16,8,24,8,24,8,24,8,24]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 8, i32 24, i32 8, i32 24, i32 8, i32 24, i32 8, i32 24>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 8, i32 24, i32 8, i32 24, i32 8, i32 24, i32 8, i32 24>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:			; AVX1-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:
	Show All 10 Lines
	; AVX2-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:			; AVX2-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:			; AVX512VL-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,0,0,0,20,21,22,23,8,8,8,8,28,29,30,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,0,0,0,20,21,22,23,8,8,8,8,28,29,30,31]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 4, i32 5, i32 6, i32 7, i32 24, i32 24, i32 24, i32 24, i32 12, i32 13, i32 14, i32 15>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 4, i32 5, i32 6, i32 7, i32 24, i32 24, i32 24, i32 24, i32 12, i32 13, i32 14, i32 15>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12(<16 x i16> %a, <16 x i16> %b) {
	Show All 16 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[3,2,1,0,4,5,6,7,11,10,9,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[3,2,1,0,4,5,6,7,11,10,9,8,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12:			; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [3,2,1,0,23,22,21,20,11,10,9,8,31,30,29,28]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [3,2,1,0,23,22,21,20,11,10,9,8,31,30,29,28]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 7, i32 6, i32 5, i32 4, i32 27, i32 26, i32 25, i32 24, i32 15, i32 14, i32 13, i32 12>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 7, i32 6, i32 5, i32 4, i32 27, i32 26, i32 25, i32 24, i32 15, i32 14, i32 13, i32 12>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08(<16 x i16> %a, <16 x i16> %b) {
	Show All 14 Lines
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[3,2,1,0,4,5,6,7,11,10,9,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[3,2,1,0,4,5,6,7,11,10,9,8,12,13,14,15]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08:			; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [3,2,1,0,19,18,17,16,11,10,9,8,27,26,25,24]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [3,2,1,0,19,18,17,16,11,10,9,8,27,26,25,24]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 3, i32 2, i32 1, i32 0, i32 27, i32 26, i32 25, i32 24, i32 11, i32 10, i32 9, i32 8>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 3, i32 2, i32 1, i32 0, i32 27, i32 26, i32 25, i32 24, i32 11, i32 10, i32 9, i32 8>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_01_00_08_08_08_08_08_08_09_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_01_00_08_08_08_08_08_08_09_08(<16 x i16> %a, <16 x i16> %b) {
	▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,0,1,u,u,2,3,u,u,4,5,u,u,6,7,u,u,24,25,u,u,26,27,u,u,28,29,u,u,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,0,1,u,u,2,3,u,u,4,5,u,u,6,7,u,u,24,25,u,u,26,27,u,u,28,29,u,u,30,31]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,u,u,2,3,u,u,4,5,u,u,6,7,u,u,24,25,u,u,26,27,u,u,28,29,u,u,30,31,u,u]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,u,u,2,3,u,u,4,5,u,u,6,7,u,u,24,25,u,u,26,27,u,u,28,29,u,u,30,31,u,u]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_12_28_13_29_14_30_15_31:			; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_12_28_13_29_14_30_15_31:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,16,1,17,2,18,3,19,12,28,13,29,14,30,15,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,16,1,17,2,18,3,19,12,28,13,29,14,30,15,31]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_04_20_05_21_06_22_07_23_08_24_09_25_10_26_11_27(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_04_20_05_21_06_22_07_23_08_24_09_25_10_26_11_27(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_23_08_24_09_25_10_26_11_27:			; AVX1-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_23_08_24_09_25_10_26_11_27:
	Show All 9 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,8,9,u,u,10,11,u,u,12,13,u,u,14,15,u,u,16,17,u,u,18,19,u,u,20,21,u,u,22,23]			; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,8,9,u,u,10,11,u,u,12,13,u,u,14,15,u,u,16,17,u,u,18,19,u,u,20,21,u,u,22,23]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,u,u,10,11,u,u,12,13,u,u,14,15,u,u,16,17,u,u,18,19,u,u,20,21,u,u,22,23,u,u]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,u,u,10,11,u,u,12,13,u,u,14,15,u,u,16,17,u,u,18,19,u,u,20,21,u,u,22,23,u,u]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_23_08_24_09_25_10_26_11_27:			; AVX512VL-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_23_08_24_09_25_10_26_11_27:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [4,20,5,21,6,22,7,23,8,24,9,25,10,26,11,27]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,20,5,21,6,22,7,23,8,24,9,25,10,26,11,27]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23, i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23, i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_01_00_08_09_08_08_08_08_08_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_01_00_08_09_08_08_08_08_08_08(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_01_00_08_09_08_08_08_08_08_08:			; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_01_00_08_09_08_08_08_08_08_08:
	▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_04_04_04_04_16_16_16_16_20_20_20_20:			; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_04_04_04_04_16_16_16_16_20_20_20_20:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,0,0,0,4,4,4,4,16,16,16,16,20,20,20,20]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,0,0,0,4,4,4,4,16,16,16,16,20,20,20,20]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 4, i32 4, i32 4, i32 4, i32 16, i32 16, i32 16, i32 16, i32 20, i32 20, i32 20, i32 20>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 4, i32 4, i32 4, i32 4, i32 16, i32 16, i32 16, i32 16, i32 20, i32 20, i32 20, i32 20>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_08_08_08_08_12_12_12_12_16_16_16_16_20_20_20_20(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_08_08_08_08_12_12_12_12_16_16_16_16_20_20_20_20(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_16_16_16_16_20_20_20_20:			; AVX1-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_16_16_16_16_20_20_20_20:
	Show All 10 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_16_16_16_16_20_20_20_20:			; AVX512VL-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_16_16_16_16_20_20_20_20:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [8,8,8,8,12,12,12,12,16,16,16,16,20,20,20,20]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [8,8,8,8,12,12,12,12,16,16,16,16,20,20,20,20]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 8, i32 8, i32 8, i32 8, i32 12, i32 12, i32 12, i32 12, i32 16, i32 16, i32 16, i32 16, i32 20, i32 20, i32 20, i32 20>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 8, i32 8, i32 8, i32 8, i32 12, i32 12, i32 12, i32 12, i32 16, i32 16, i32 16, i32 16, i32 20, i32 20, i32 20, i32 20>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_08_08_08_08_12_12_12_12_24_24_24_24_28_28_28_28(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_08_08_08_08_12_12_12_12_24_24_24_24_28_28_28_28(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_24_24_24_24_28_28_28_28:			; AVX1-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_24_24_24_24_28_28_28_28:
	Show All 11 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_24_24_24_24_28_28_28_28:			; AVX512VL-LABEL: shuffle_v16i16_08_08_08_08_12_12_12_12_24_24_24_24_28_28_28_28:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [8,8,8,8,12,12,12,12,24,24,24,24,28,28,28,28]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [8,8,8,8,12,12,12,12,24,24,24,24,28,28,28,28]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 8, i32 8, i32 8, i32 8, i32 12, i32 12, i32 12, i32 12, i32 24, i32 24, i32 24, i32 24, i32 28, i32 28, i32 28, i32 28>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 8, i32 8, i32 8, i32 8, i32 12, i32 12, i32 12, i32 12, i32 24, i32 24, i32 24, i32 24, i32 28, i32 28, i32 28, i32 28>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_04_04_04_04_24_24_24_24_28_28_28_28(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_04_04_04_04_24_24_24_24_28_28_28_28(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_00_04_04_04_04_24_24_24_24_28_28_28_28:			; AVX1-LABEL: shuffle_v16i16_00_00_00_00_04_04_04_04_24_24_24_24_28_28_28_28:
	Show All 10 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,4,4,4,8,9,10,11,12,12,12,12]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_04_04_04_04_24_24_24_24_28_28_28_28:			; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_04_04_04_04_24_24_24_24_28_28_28_28:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,0,0,0,4,4,4,4,24,24,24,24,28,28,28,28]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,0,0,0,4,4,4,4,24,24,24,24,28,28,28,28]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 4, i32 4, i32 4, i32 4, i32 24, i32 24, i32 24, i32 24, i32 28, i32 28, i32 28, i32 28>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 4, i32 4, i32 4, i32 4, i32 24, i32 24, i32 24, i32 24, i32 28, i32 28, i32 28, i32 28>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23:			; AVX1-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm2 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm2 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23:			; AVX2-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpunpckhwd {{.*#+}} xmm2 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; AVX2-NEXT: vpunpckhwd {{.*#+}} xmm2 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23:			; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_19_04_20_05_21_06_22_07_23:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,16,1,17,2,18,3,19,4,20,5,21,6,22,7,23]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,16,1,17,2,18,3,19,4,20,5,21,6,22,7,23]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_zz_zz_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_24(<16 x i16> %a) {			define <16 x i16> @shuffle_v16i16_zz_zz_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_24(<16 x i16> %a) {
	; AVX1-LABEL: shuffle_v16i16_zz_zz_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_24:			; AVX1-LABEL: shuffle_v16i16_zz_zz_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_24:
	▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero			; AVX2-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7],ymm0[8],ymm1[9,10,11],ymm0[12],ymm1[13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7],ymm0[8],ymm1[9,10,11],ymm0[12],ymm1[13,14,15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_28_zz_zz_zz_29_zz_zz_zz_30_zz_zz_zz_31_zz_zz_zz:			; AVX512VL-LABEL: shuffle_v16i16_28_zz_zz_zz_29_zz_zz_zz_30_zz_zz_zz_31_zz_zz_zz:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [28,1,2,3,29,5,6,7,30,9,10,11,31,13,14,15]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [28,1,2,3,29,5,6,7,30,9,10,11,31,13,14,15]
	; AVX512VL-NEXT: vpxor %ymm1, %ymm1, %ymm1			; AVX512VL-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1
	; AVX512VL-NEXT: vmovdqa %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> zeroinitializer, <16 x i16> %a, <16 x i32> <i32 28, i32 0, i32 0, i32 0, i32 29, i32 0, i32 0, i32 0, i32 30, i32 0, i32 0, i32 0, i32 31, i32 0, i32 0, i32 0>			%shuffle = shufflevector <16 x i16> zeroinitializer, <16 x i16> %a, <16 x i32> <i32 28, i32 0, i32 0, i32 0, i32 29, i32 0, i32 0, i32 0, i32 30, i32 0, i32 0, i32 0, i32 31, i32 0, i32 0, i32 0>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX2-LABEL: shuffle_v16i16_01_02_03_04_05_06_07_00_17_18_19_20_21_22_23_16:			; AVX2-LABEL: shuffle_v16i16_01_02_03_04_05_06_07_00_17_18_19_20_21_22_23_16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,18,19,20,21,22,23,24,25,26,27,28,29,30,31,16,17]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,18,19,20,21,22,23,24,25,26,27,28,29,30,31,16,17]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_01_02_03_04_05_06_07_00_17_18_19_20_21_22_23_16:			; AVX512VL-LABEL: shuffle_v16i16_01_02_03_04_05_06_07_00_17_18_19_20_21_22_23_16:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [1,2,3,4,5,6,7,0,17,18,19,20,21,22,23,16]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [1,2,3,4,5,6,7,0,17,18,19,20,21,22,23,16]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 16>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 16>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22:			; AVX1-LABEL: shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13]			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22:			; AVX2-LABEL: shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,30,31,16,17,18,19,20,21,22,23,24,25,26,27,28,29]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,30,31,16,17,18,19,20,21,22,23,24,25,26,27,28,29]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22:			; AVX512VL-LABEL: shuffle_v16i16_07_00_01_02_03_04_05_06_23_16_17_18_19_20_21_22:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [7,0,1,2,3,4,5,6,23,16,17,18,19,20,21,22]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [7,0,1,2,3,4,5,6,23,16,17,18,19,20,21,22]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 23, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 23, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_01_00_01_02_03_02_11_08_09_08_09_10_11_10_11(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_01_00_01_02_03_02_11_08_09_08_09_10_11_10_11(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_01_00_01_02_03_02_11_08_09_08_09_10_11_10_11:			; AVX1-LABEL: shuffle_v16i16_00_01_00_01_02_03_02_11_08_09_08_09_10_11_10_11:
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:			; AVX512VL-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [4,5,6,7,16,17,18,27,12,13,14,15,24,25,26,27]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,5,6,7,16,17,18,27,12,13,14,15,24,25,26,27]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 27, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 27, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_00_08_08_08_08_08_08_08_08_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_00_08_08_08_08_08_08_08_08_08(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_08_08_08_08_08_08_08_08:			; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_08_08_08_08_08_08_08_08:
	▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [14,15,10,11,12,13,8,9,6,7,2,3,4,5,0,1]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [14,15,10,11,12,13,8,9,6,7,2,3,4,5,0,1]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3,4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3,4,5,6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_07_05_06_04_03_01_02_08_15_13_14_12_11_09_10_08:			; AVX2OR512VL-LABEL: shuffle_v16i16_07_05_06_04_03_01_02_08_15_13_14_12_11_09_10_08:
	; AVX2: # BB#0:			; AVX2OR512VL: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2OR512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [14,15,10,11,12,13,8,9,6,7,2,3,4,5,0,1]			; AVX2OR512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [14,15,10,11,12,13,8,9,6,7,2,3,4,5,0,1]
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3,4,5,6,7]			; AVX2OR512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3,4,5,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2OR512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v16i16_07_05_06_04_03_01_02_08_15_13_14_12_11_09_10_08:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [14,15,10,11,12,13,8,9,6,7,2,3,4,5,0,1]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3,4,5,6,7]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 7, i32 5, i32 6, i32 4, i32 3, i32 1, i32 2, i32 8, i32 15, i32 13, i32 14, i32 12, i32 11, i32 9, i32 10, i32 8>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 7, i32 5, i32 6, i32 4, i32 3, i32 1, i32 2, i32 8, i32 15, i32 13, i32 14, i32 12, i32 11, i32 9, i32 10, i32 8>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_01_00_05_04_05_04_01_08_09_08_13_12_13_12_09_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_01_00_05_04_05_04_01_08_09_08_13_12_13_12_09_08(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_01_00_05_04_05_04_01_08_09_08_13_12_13_12_09_08:			; AVX1-LABEL: shuffle_v16i16_01_00_05_04_05_04_01_08_09_08_13_12_13_12_09_08:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,10,11,2,3,14,15,6,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,10,11,2,3,14,15,6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_02_06_04_00_05_01_07_11_10_14_12_08_13_09_15_11:			; AVX2OR512VL-LABEL: shuffle_v16i16_02_06_04_00_05_01_07_11_10_14_12_08_13_09_15_11:
	; AVX2: # BB#0:			; AVX2OR512VL: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2OR512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,10,11,2,3,14,15,6,7]			; AVX2OR512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,10,11,2,3,14,15,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]			; AVX2OR512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2OR512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v16i16_02_06_04_00_05_01_07_11_10_14_12_08_13_09_15_11:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,10,11,2,3,14,15,6,7]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 2, i32 6, i32 4, i32 0, i32 5, i32 1, i32 7, i32 11, i32 10, i32 14, i32 12, i32 8, i32 13, i32 9, i32 15, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 2, i32 6, i32 4, i32 0, i32 5, i32 1, i32 7, i32 11, i32 10, i32 14, i32 12, i32 8, i32 13, i32 9, i32 15, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_02_00_06_04_05_01_07_11_10_08_14_12_13_09_15_11(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_02_00_06_04_05_01_07_11_10_08_14_12_13_09_15_11(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_02_00_06_04_05_01_07_11_10_08_14_12_13_09_15_11:			; AVX1-LABEL: shuffle_v16i16_02_00_06_04_05_01_07_11_10_08_14_12_13_09_15_11:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,0,1,12,13,8,9,10,11,2,3,14,15,6,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,0,1,12,13,8,9,10,11,2,3,14,15,6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_02_00_06_04_05_01_07_11_10_08_14_12_13_09_15_11:			; AVX2OR512VL-LABEL: shuffle_v16i16_02_00_06_04_05_01_07_11_10_08_14_12_13_09_15_11:
	; AVX2: # BB#0:			; AVX2OR512VL: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2OR512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,0,1,12,13,8,9,10,11,2,3,14,15,6,7]			; AVX2OR512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,0,1,12,13,8,9,10,11,2,3,14,15,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]			; AVX2OR512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2OR512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v16i16_02_00_06_04_05_01_07_11_10_08_14_12_13_09_15_11:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [4,5,0,1,12,13,8,9,10,11,2,3,14,15,6,7]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3],xmm0[4,5,6,7]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 2, i32 0, i32 6, i32 4, i32 5, i32 1, i32 7, i32 11, i32 10, i32 8, i32 14, i32 12, i32 13, i32 9, i32 15, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 2, i32 0, i32 6, i32 4, i32 5, i32 1, i32 7, i32 11, i32 10, i32 8, i32 14, i32 12, i32 13, i32 9, i32 15, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_02_06_04_00_01_03_07_13_10_14_12_08_09_11_15_13(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_02_06_04_00_01_03_07_13_10_14_12_08_09_11_15_13(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_02_06_04_00_01_03_07_13_10_14_12_08_09_11_15_13:			; AVX1-LABEL: shuffle_v16i16_02_06_04_00_01_03_07_13_10_14_12_08_09_11_15_13:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,2,3,6,7,14,15,10,11]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,2,3,6,7,14,15,10,11]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4],xmm1[5],xmm0[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4],xmm1[5],xmm0[6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_02_06_04_00_01_03_07_13_10_14_12_08_09_11_15_13:			; AVX2OR512VL-LABEL: shuffle_v16i16_02_06_04_00_01_03_07_13_10_14_12_08_09_11_15_13:
	; AVX2: # BB#0:			; AVX2OR512VL: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2OR512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,2,3,6,7,14,15,10,11]			; AVX2OR512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,2,3,6,7,14,15,10,11]
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4],xmm1[5],xmm0[6,7]			; AVX2OR512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4],xmm1[5],xmm0[6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2OR512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v16i16_02_06_04_00_01_03_07_13_10_14_12_08_09_11_15_13:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [4,5,12,13,8,9,0,1,2,3,6,7,14,15,10,11]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX512VL-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4],xmm1[5],xmm0[6,7]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 2, i32 6, i32 4, i32 0, i32 1, i32 3, i32 7, i32 13, i32 10, i32 14, i32 12, i32 8, i32 9, i32 11, i32 15, i32 13>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 2, i32 6, i32 4, i32 0, i32 1, i32 3, i32 7, i32 13, i32 10, i32 14, i32 12, i32 8, i32 9, i32 11, i32 15, i32 13>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_06_06_07_05_01_06_04_11_14_14_15_13_09_14_12_11(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_06_06_07_05_01_06_04_11_14_14_15_13_09_14_12_11(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_06_06_07_05_01_06_04_11_14_14_15_13_09_14_12_11:			; AVX1-LABEL: shuffle_v16i16_06_06_07_05_01_06_04_11_14_14_15_13_09_14_12_11:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [12,13,12,13,14,15,10,11,2,3,12,13,8,9,6,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [12,13,12,13,14,15,10,11,2,3,12,13,8,9,6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_06_06_07_05_01_06_04_11_14_14_15_13_09_14_12_11:			; AVX2OR512VL-LABEL: shuffle_v16i16_06_06_07_05_01_06_04_11_14_14_15_13_09_14_12_11:
	; AVX2: # BB#0:			; AVX2OR512VL: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2OR512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [12,13,12,13,14,15,10,11,2,3,12,13,8,9,6,7]			; AVX2OR512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [12,13,12,13,14,15,10,11,2,3,12,13,8,9,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX2OR512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2OR512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v16i16_06_06_07_05_01_06_04_11_14_14_15_13_09_14_12_11:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [12,13,12,13,14,15,10,11,2,3,12,13,8,9,6,7]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 6, i32 6, i32 7, i32 5, i32 1, i32 6, i32 4, i32 11, i32 14, i32 14, i32 15, i32 13, i32 9, i32 14, i32 12, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 6, i32 6, i32 7, i32 5, i32 1, i32 6, i32 4, i32 11, i32 14, i32 14, i32 15, i32 13, i32 9, i32 14, i32 12, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_04_04_04_04_04_12_08_08_12_12_12_12_12_12(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_04_04_04_04_04_12_08_08_12_12_12_12_12_12(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_04_04_04_04_04_12_08_08_12_12_12_12_12_12:			; AVX1-LABEL: shuffle_v16i16_00_00_04_04_04_04_04_12_08_08_12_12_12_12_12_12:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	▲ Show 20 Lines • Show All 363 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [6,7,14,15,2,3,0,1,4,5,14,15,6,7,10,11]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [6,7,14,15,2,3,0,1,4,5,14,15,6,7,10,11]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5],xmm0[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5],xmm0[6,7]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_03_07_01_00_02_07_03_13_11_15_09_08_10_15_11_13:			; AVX2OR512VL-LABEL: shuffle_v16i16_03_07_01_00_02_07_03_13_11_15_09_08_10_15_11_13:
	; AVX2: # BB#0:			; AVX2OR512VL: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2OR512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [6,7,14,15,2,3,0,1,4,5,14,15,6,7,10,11]			; AVX2OR512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [6,7,14,15,2,3,0,1,4,5,14,15,6,7,10,11]
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm3			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3]			; AVX2OR512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2OR512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2OR512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2OR512VL-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v16i16_03_07_01_00_02_07_03_13_11_15_09_08_10_15_11_13:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vmovdqu {{.*#+}} xmm2 = [6,7,14,15,2,3,0,1,4,5,14,15,6,7,10,11]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm3
	; AVX512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3]
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 3, i32 7, i32 1, i32 0, i32 2, i32 7, i32 3, i32 13, i32 11, i32 15, i32 9, i32 8, i32 10, i32 15, i32 11, i32 13>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 3, i32 7, i32 1, i32 0, i32 2, i32 7, i32 3, i32 13, i32 11, i32 15, i32 9, i32 8, i32 10, i32 15, i32 11, i32 13>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_16_01_17_02_18_03_27_08_24_09_25_10_26_11_27(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_16_01_17_02_18_03_27_08_24_09_25_10_26_11_27(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_27_08_24_09_25_10_26_11_27:			; AVX1-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_27_08_24_09_25_10_26_11_27:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	Show All 14 Lines
	; AVX2-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,4,6,7]			; AVX2-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,4,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; AVX2-NEXT: vpunpcklwd {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,8,8,9,9,10,10,11,11]			; AVX2-NEXT: vpunpcklwd {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,8,8,9,9,10,10,11,11]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_27_08_24_09_25_10_26_11_27:			; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_02_18_03_27_08_24_09_25_10_26_11_27:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,16,1,17,2,18,3,27,8,24,9,25,10,26,11,27]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,16,1,17,2,18,3,27,8,24,9,25,10,26,11,27]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 27, i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 27, i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:			; AVX1-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:
	Show All 16 Lines
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6],xmm0[7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6],xmm0[7]
	; AVX2-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:			; AVX512VL-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,20,1,21,2,22,3,31,8,28,9,29,10,30,11,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,20,1,21,2,22,3,31,8,28,9,29,10,30,11,31]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 20, i32 1, i32 21, i32 2, i32 22, i32 3, i32 31, i32 8, i32 28, i32 9, i32 29, i32 10, i32 30, i32 11, i32 31>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 20, i32 1, i32 21, i32 2, i32 22, i32 3, i32 31, i32 8, i32 28, i32 9, i32 29, i32 10, i32 30, i32 11, i32 31>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31:			; AVX1-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31:
	Show All 16 Lines
	; AVX2-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,4,6,7]			; AVX2-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,4,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; AVX2-NEXT: vpunpckhwd {{.*#+}} ymm0 = ymm0[4,4,5,5,6,6,7,7,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpckhwd {{.*#+}} ymm0 = ymm0[4,4,5,5,6,6,7,7,12,12,13,13,14,14,15,15]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31:			; AVX512VL-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [4,20,5,21,6,22,7,31,12,28,13,29,14,30,15,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,20,5,21,6,22,7,31,12,28,13,29,14,30,15,31]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 31, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 31, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:			; AVX1-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:
	Show All 16 Lines
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [8,9,0,1,10,11,2,3,12,13,4,5,14,15,6,7]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [8,9,0,1,10,11,2,3,12,13,4,5,14,15,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:			; AVX512VL-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [4,16,5,17,6,18,7,27,12,24,13,25,14,26,15,27]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,16,5,17,6,18,7,27,12,24,13,25,14,26,15,27]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 16, i32 5, i32 17, i32 6, i32 18, i32 7, i32 27, i32 12, i32 24, i32 13, i32 25, i32 14, i32 26, i32 15, i32 27>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 16, i32 5, i32 17, i32 6, i32 18, i32 7, i32 27, i32 12, i32 24, i32 13, i32 25, i32 14, i32 26, i32 15, i32 27>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31:			; AVX1-LABEL: shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31:
	Show All 23 Lines
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,1,1,3,4,5,6,7,8,9,9,11,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,1,1,3,4,5,6,7,8,9,9,11,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,6,5,7,7,8,9,10,11,14,13,15,15]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,6,5,7,7,8,9,10,11,14,13,15,15]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31:			; AVX512VL-LABEL: shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,16,1,17,6,22,7,31,8,24,9,25,14,30,15,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,16,1,17,6,22,7,31,8,24,9,25,14,30,15,31]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 6, i32 22, i32 7, i32 31, i32 8, i32 24, i32 9, i32 25, i32 14, i32 30, i32 15, i32 31>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 6, i32 22, i32 7, i32 31, i32 8, i32 24, i32 9, i32 25, i32 14, i32 30, i32 15, i32 31>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_20_01_21_06_16_07_25_08_28_09_29_14_24_15_25(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_20_01_21_06_16_07_25_08_28_09_29_14_24_15_25(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_20_01_21_06_16_07_25_08_28_09_29_14_24_15_25:			; AVX1-LABEL: shuffle_v16i16_00_20_01_21_06_16_07_25_08_28_09_29_14_24_15_25:
	Show All 20 Lines
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,1,1,3,4,5,6,7,8,9,9,11,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,1,1,3,4,5,6,7,8,9,9,11,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,6,5,7,7,8,9,10,11,14,13,15,15]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,6,5,7,7,8,9,10,11,14,13,15,15]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_20_01_21_06_16_07_25_08_28_09_29_14_24_15_25:			; AVX512VL-LABEL: shuffle_v16i16_00_20_01_21_06_16_07_25_08_28_09_29_14_24_15_25:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,20,1,21,6,16,7,25,8,28,9,29,14,24,15,25]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,20,1,21,6,16,7,25,8,28,9,29,14,24,15,25]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 20, i32 1, i32 21, i32 6, i32 16, i32 7, i32 25, i32 8, i32 28, i32 9, i32 29, i32 14, i32 24, i32 15, i32 25>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 20, i32 1, i32 21, i32 6, i32 16, i32 7, i32 25, i32 8, i32 28, i32 9, i32 29, i32 14, i32 24, i32 15, i32 25>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_01_00_17_16_03_02_19_26_09_08_25_24_11_10_27_26(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_01_00_17_16_03_02_19_26_09_08_25_24_11_10_27_26(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_01_00_17_16_03_02_19_26_09_08_25_24_11_10_27_26:			; AVX1-LABEL: shuffle_v16i16_01_00_17_16_03_02_19_26_09_08_25_24_11_10_27_26:
	Show All 19 Lines
	; AVX2-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[0,1,2,3,2,3,0,1,8,9,10,11,6,7,4,5]			; AVX2-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[0,1,2,3,2,3,0,1,8,9,10,11,6,7,4,5]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[2,3,0,1,4,5,6,7,6,7,4,5,4,5,6,7,18,19,16,17,20,21,22,23,22,23,20,21,20,21,22,23]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[2,3,0,1,4,5,6,7,6,7,4,5,4,5,6,7,18,19,16,17,20,21,22,23,22,23,20,21,20,21,22,23]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_01_00_17_16_03_02_19_26_09_08_25_24_11_10_27_26:			; AVX512VL-LABEL: shuffle_v16i16_01_00_17_16_03_02_19_26_09_08_25_24_11_10_27_26:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [1,0,17,16,3,2,19,26,9,8,25,24,11,10,27,26]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [1,0,17,16,3,2,19,26,9,8,25,24,11,10,27,26]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 1, i32 0, i32 17, i32 16, i32 3, i32 2, i32 19, i32 26, i32 9, i32 8, i32 25, i32 24, i32 11, i32 10, i32 27, i32 26>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 1, i32 0, i32 17, i32 16, i32 3, i32 2, i32 19, i32 26, i32 9, i32 8, i32 25, i32 24, i32 11, i32 10, i32 27, i32 26>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11:			; AVX1-LABEL: shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11:
	Show All 16 Lines
	; AVX2-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,4,6,7]			; AVX2-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,4,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklwd {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11]			; AVX2-NEXT: vpunpcklwd {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11:			; AVX512VL-LABEL: shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,16,1,17,2,18,3,27,8,24,9,25,10,26,11,27]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,16,1,17,2,18,3,27,8,24,9,25,10,26,11,27]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 0, i32 17, i32 1, i32 18, i32 2, i32 19, i32 11, i32 24, i32 8, i32 25, i32 9, i32 26, i32 10, i32 27, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 0, i32 17, i32 1, i32 18, i32 2, i32 19, i32 11, i32 24, i32 8, i32 25, i32 9, i32 26, i32 10, i32 27, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15(<16 x i16> %a, <16 x i16> %b) {
	Show All 17 Lines
	; AVX2-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,4,6,7]			; AVX2-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,4,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpckhwd {{.*#+}} ymm1 = ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15]			; AVX2-NEXT: vpunpckhwd {{.*#+}} ymm1 = ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15:			; AVX512VL-LABEL: shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [4,20,5,21,6,22,7,31,12,28,13,29,14,30,15,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,20,5,21,6,22,7,31,12,28,13,29,14,30,15,31]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 4, i32 21, i32 5, i32 22, i32 6, i32 23, i32 15, i32 28, i32 12, i32 29, i32 13, i32 30, i32 14, i32 31, i32 15>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 4, i32 21, i32 5, i32 22, i32 6, i32 23, i32 15, i32 28, i32 12, i32 29, i32 13, i32 30, i32 14, i32 31, i32 15>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31(<16 x i16> %a, <16 x i16> %b) {
	Show All 21 Lines
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]
	; AVX2-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,1,3,4,5,6,7]			; AVX2-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,1,3,4,5,6,7]
	; AVX2-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]			; AVX2-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:			; AVX512VL-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,2,1,3,20,22,21,31,8,10,9,11,28,30,29,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,1,3,20,22,21,31,8,10,9,11,28,30,29,31]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 2, i32 1, i32 3, i32 20, i32 22, i32 21, i32 31, i32 8, i32 10, i32 9, i32 11, i32 28, i32 30, i32 29, i32 31>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 2, i32 1, i32 3, i32 20, i32 22, i32 21, i32 31, i32 8, i32 10, i32 9, i32 11, i32 28, i32 30, i32 29, i32 31>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu:			; AVX1-LABEL: shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu:
	Show All 13 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4,5,6,7,8,9],ymm1[10],ymm0[11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4,5,6,7,8,9],ymm1[10],ymm0[11,12,13,14,15]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[2,1,2,3,6,5,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[2,1,2,3,6,5,6,7]
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,3,2,4,5,6,7,8,8,11,10,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,3,2,4,5,6,7,8,8,11,10,12,13,14,15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu:			; AVX512VL-LABEL: shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <4,4,3,18,u,u,u,u,12,12,11,26,u,u,u,u>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <4,4,3,18,u,u,u,u,12,12,11,26,u,u,u,u>
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 4, i32 3, i32 18, i32 undef, i32 undef, i32 undef, i32 undef, i32 12, i32 12, i32 11, i32 26, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 4, i32 3, i32 18, i32 undef, i32 undef, i32 undef, i32 undef, i32 12, i32 12, i32 11, i32 26, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu:			; AVX1-LABEL: shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu:
	Show All 11 Lines
	; AVX2-LABEL: shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu:			; AVX2-LABEL: shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,6,7,4,5,10,11,0,1,10,11,0,1,2,3,16,17,22,23,20,21,26,27,16,17,26,27,16,17,18,19]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,6,7,4,5,10,11,0,1,10,11,0,1,2,3,16,17,22,23,20,21,26,27,16,17,26,27,16,17,18,19]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu:			; AVX512VL-LABEL: shuffle_v16i16_00_03_02_21_uu_uu_uu_uu_08_11_10_29_uu_uu_uu_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <0,3,2,21,u,u,u,u,8,11,10,29,u,u,u,u>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <0,3,2,21,u,u,u,u,8,11,10,29,u,u,u,u>
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 3, i32 2, i32 21, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 11, i32 10, i32 29, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 3, i32 2, i32 21, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 11, i32 10, i32 29, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_uu_uu_21_uu_uu_uu_uu_uu_uu_uu_29_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_uu_uu_21_uu_uu_uu_uu_uu_uu_uu_29_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_uu_uu_21_uu_uu_uu_uu_uu_uu_uu_29_uu_uu_uu_uu:			; AVX1-LABEL: shuffle_v16i16_uu_uu_uu_21_uu_uu_uu_uu_uu_uu_uu_29_uu_uu_uu_uu:
	Show All 24 Lines
	; AVX2-LABEL: shuffle_v16i16_00_01_02_21_uu_uu_uu_uu_08_09_10_29_uu_uu_uu_uu:			; AVX2-LABEL: shuffle_v16i16_00_01_02_21_uu_uu_uu_uu_08_09_10_29_uu_uu_uu_uu:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_01_02_21_uu_uu_uu_uu_08_09_10_29_uu_uu_uu_uu:			; AVX512VL-LABEL: shuffle_v16i16_00_01_02_21_uu_uu_uu_uu_08_09_10_29_uu_uu_uu_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <0,1,2,21,u,u,u,u,8,9,10,29,u,u,u,u>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <0,1,2,21,u,u,u,u,8,9,10,29,u,u,u,u>
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 21, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 9, i32 10, i32 29, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 21, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 9, i32 10, i32 29, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:			; AVX1-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:
	Show All 9 Lines
	; AVX2-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:			; AVX2-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,2]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,2]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:			; AVX512VL-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <u,u,u,u,4,5,6,27,u,u,u,u,12,13,14,27>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <u,u,u,u,4,5,6,27,u,u,u,u,12,13,14,27>
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 20, i32 21, i32 22, i32 11, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 20, i32 21, i32 22, i32 11, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {
	Show All 11 Lines
	; AVX2-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:			; AVX2-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[2,3,2,3,6,7,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[2,3,2,3,6,7,6,7]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:			; AVX512VL-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <4,5,6,19,u,u,u,u,12,13,14,27,u,u,u,u>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <4,5,6,19,u,u,u,u,12,13,14,27,u,u,u,u>
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 21, i32 22, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 21, i32 22, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11(<16 x i16> %a, <16 x i16> %b) {
	Show All 17 Lines
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:			; AVX512VL-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,1,2,21,20,21,22,11,8,9,10,29,28,29,30,11]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,2,21,20,21,22,11,8,9,10,29,28,29,30,11]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 21, i32 20, i32 21, i32 22, i32 11, i32 8, i32 9, i32 10, i32 29, i32 28, i32 29, i32 30, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 21, i32 20, i32 21, i32 22, i32 11, i32 8, i32 9, i32 10, i32 29, i32 28, i32 29, i32 30, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15:			; AVX1-LABEL: shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15:
	Show All 9 Lines
	; AVX2-LABEL: shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15:			; AVX2-LABEL: shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4,5,6],ymm0[7,8],ymm1[9],ymm0[10,11],ymm1[12,13,14],ymm0[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4,5,6],ymm0[7,8],ymm1[9],ymm0[10,11],ymm1[12,13,14],ymm0[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15:			; AVX512VL-LABEL: shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,17,2,3,20,21,22,15,8,25,10,11,28,29,30,15]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,17,2,3,20,21,22,15,8,25,10,11,28,29,30,15]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 17, i32 2, i32 3, i32 20, i32 21, i32 22, i32 15, i32 8, i32 25, i32 10, i32 11, i32 28, i32 29, i32 30, i32 15>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 17, i32 2, i32 3, i32 20, i32 21, i32 22, i32 15, i32 8, i32 25, i32 10, i32 11, i32 28, i32 29, i32 30, i32 15>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_uu_uu_01_uu_05_07_25_uu_uu_uu_09_uu_13_15_25(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_uu_uu_01_uu_05_07_25_uu_uu_uu_09_uu_13_15_25(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_uu_uu_01_uu_05_07_25_uu_uu_uu_09_uu_13_15_25:			; AVX1-LABEL: shuffle_v16i16_uu_uu_uu_01_uu_05_07_25_uu_uu_uu_09_uu_13_15_25:
	Show All 16 Lines
	; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1			; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,1,2,1,4,5,6,7,8,9,10,9,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,1,2,1,4,5,6,7,8,9,10,9,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,7,7,8,9,10,11,12,13,15,15]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,7,7,8,9,10,11,12,13,15,15]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_uu_uu_uu_01_uu_05_07_25_uu_uu_uu_09_uu_13_15_25:			; AVX512VL-LABEL: shuffle_v16i16_uu_uu_uu_01_uu_05_07_25_uu_uu_uu_09_uu_13_15_25:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <u,u,u,1,u,5,7,25,u,u,u,9,u,13,15,25>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <u,u,u,1,u,5,7,25,u,u,u,9,u,13,15,25>
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 1, i32 undef, i32 5, i32 7, i32 25, i32 undef, i32 undef, i32 undef, i32 9, i32 undef, i32 13, i32 15, i32 25>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 1, i32 undef, i32 5, i32 7, i32 25, i32 undef, i32 undef, i32 undef, i32 9, i32 undef, i32 13, i32 15, i32 25>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:			; AVX1-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:
	Show All 14 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5,16,17,20,21,20,21,22,23,16,17,20,21,24,25,20,21]			; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5,16,17,20,21,20,21,22,23,16,17,20,21,24,25,20,21]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:			; AVX512VL-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <u,u,20,u,0,2,4,u,u,u,28,u,8,10,12,u>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <u,u,20,u,0,2,4,u,u,u,28,u,8,10,12,u>
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 4, i32 undef, i32 16, i32 18, i32 20, i32 undef, i32 undef, i32 undef, i32 12, i32 undef, i32 24, i32 26, i32 28, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 4, i32 undef, i32 16, i32 18, i32 20, i32 undef, i32 undef, i32 undef, i32 12, i32 undef, i32 24, i32 26, i32 28, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12(<16 x i16> %a, <16 x i16> %b) {
	Show All 14 Lines
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4],xmm0[5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4],xmm0[5,6,7]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]			; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12:			; AVX512VL-LABEL: shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [21,22,23,0,1,2,3,12,29,30,31,8,9,10,11,12]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [21,22,23,0,1,2,3,12,29,30,31,8,9,10,11,12]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 12, i32 29, i32 30, i32 31, i32 8, i32 9, i32 10, i32 11, i32 12>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 12, i32 29, i32 30, i32 31, i32 8, i32 9, i32 10, i32 11, i32 12>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_22_uu_uu_01_02_03_uu_uu_30_uu_uu_09_10_11_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_22_uu_uu_01_02_03_uu_uu_30_uu_uu_09_10_11_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_22_uu_uu_01_02_03_uu_uu_30_uu_uu_09_10_11_uu:			; AVX1-LABEL: shuffle_v16i16_uu_22_uu_uu_01_02_03_uu_uu_30_uu_uu_09_10_11_uu:
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3,4,5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3,4,5,6,7]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_19_20_21_22_23_00_01_10_27_28_29_30_31_08_09_10:			; AVX512VL-LABEL: shuffle_v16i16_19_20_21_22_23_00_01_10_27_28_29_30_31_08_09_10:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [3,4,5,6,7,16,17,26,11,12,13,14,15,24,25,26]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [3,4,5,6,7,16,17,26,11,12,13,14,15,24,25,26]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 10, i32 27, i32 28, i32 29, i32 30, i32 31, i32 8, i32 9, i32 10>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 10, i32 27, i32 28, i32 29, i32 30, i32 31, i32 8, i32 9, i32 10>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_20_21_22_uu_uu_01_uu_uu_28_29_30_uu_uu_09_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_20_21_22_uu_uu_01_uu_uu_28_29_30_uu_uu_09_uu(<16 x i16> %a, <16 x i16> %b) {
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3,4,5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3,4,5,6,7]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_03_04_05_06_07_16_17_26_11_12_13_14_15_24_25_26:			; AVX512VL-LABEL: shuffle_v16i16_03_04_05_06_07_16_17_26_11_12_13_14_15_24_25_26:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [3,4,5,6,7,16,17,26,11,12,13,14,15,24,25,26]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [3,4,5,6,7,16,17,26,11,12,13,14,15,24,25,26]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 3, i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 26, i32 11, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 3, i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 26, i32 11, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_04_05_06_uu_uu_17_uu_uu_12_13_14_uu_uu_25_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_04_05_06_uu_uu_17_uu_uu_12_13_14_uu_uu_25_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_04_05_06_uu_uu_17_uu_uu_12_13_14_uu_uu_25_uu:			; AVX1-LABEL: shuffle_v16i16_uu_04_05_06_uu_uu_17_uu_uu_12_13_14_uu_uu_25_uu:
	Show All 31 Lines
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4],xmm0[5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4],xmm0[5,6,7]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]			; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_05_06_07_16_17_18_19_28_13_14_15_24_25_26_27_28:			; AVX512VL-LABEL: shuffle_v16i16_05_06_07_16_17_18_19_28_13_14_15_24_25_26_27_28:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [21,22,23,0,1,2,3,12,29,30,31,8,9,10,11,12]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [21,22,23,0,1,2,3,12,29,30,31,8,9,10,11,12]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 19, i32 28, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27, i32 28>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 19, i32 28, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27, i32 28>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_06_uu_uu_17_18_19_uu_uu_14_uu_uu_25_26_27_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_06_uu_uu_17_18_19_uu_uu_14_uu_uu_25_26_27_uu(<16 x i16> %a, <16 x i16> %b) {
	Show All 31 Lines
	; AVX2-LABEL: shuffle_v16i16_23_uu_03_uu_20_20_05_uu_31_uu_11_uu_28_28_13_uu:			; AVX2-LABEL: shuffle_v16i16_23_uu_03_uu_20_20_05_uu_31_uu_11_uu_28_28_13_uu:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6],ymm1[7],ymm0[8,9,10,11],ymm1[12],ymm0[13,14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6],ymm1[7],ymm0[8,9,10,11],ymm1[12],ymm0[13,14],ymm1[15]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[14,15,14,15,6,7,6,7,8,9,8,9,10,11,14,15,30,31,30,31,22,23,22,23,24,25,24,25,26,27,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[14,15,14,15,6,7,6,7,8,9,8,9,10,11,14,15,30,31,30,31,22,23,22,23,24,25,24,25,26,27,30,31]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_23_uu_03_uu_20_20_05_uu_31_uu_11_uu_28_28_13_uu:			; AVX512VL-LABEL: shuffle_v16i16_23_uu_03_uu_20_20_05_uu_31_uu_11_uu_28_28_13_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = <7,u,19,u,4,4,21,u,15,u,27,u,12,12,29,u>			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = <7,u,19,u,4,4,21,u,15,u,27,u,12,12,29,u>
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 23, i32 undef, i32 3, i32 undef, i32 20, i32 20, i32 5, i32 undef, i32 31, i32 undef, i32 11, i32 undef, i32 28, i32 28, i32 13, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 23, i32 undef, i32 3, i32 undef, i32 20, i32 20, i32 5, i32 undef, i32 31, i32 undef, i32 11, i32 undef, i32 28, i32 28, i32 13, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_u_u_u_u_u_u_u_u_0_16_1_17_2_18_3_19(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_u_u_u_u_u_u_u_u_0_16_1_17_2_18_3_19(<16 x i16> %a, <16 x i16> %b) {
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,0,1,12,13,2,3,16,17,20,21,20,21,22,23,16,17,16,17,28,29,18,19]			; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,0,1,12,13,2,3,16,17,20,21,20,21,22,23,16,17,16,17,28,29,18,19]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[4,5,2,3,6,7,6,7,0,1,2,3,2,3,14,15,20,21,18,19,22,23,22,23,16,17,18,19,18,19,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[4,5,2,3,6,7,6,7,0,1,2,3,2,3,14,15,20,21,18,19,22,23,22,23,16,17,18,19,18,19,30,31]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_02_18_03_19_00_16_01_17_10_26_11_27_08_24_09_25:			; AVX512VL-LABEL: shuffle_v16i16_02_18_03_19_00_16_01_17_10_26_11_27_08_24_09_25:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [2,18,3,19,0,16,1,17,10,26,11,27,8,24,9,25]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [2,18,3,19,0,16,1,17,10,26,11,27,8,24,9,25]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%1 = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 2, i32 18, i32 3, i32 19, i32 0, i32 16, i32 1, i32 17, i32 10, i32 26, i32 11, i32 27, i32 8, i32 24, i32 9, i32 25>			%1 = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 2, i32 18, i32 3, i32 19, i32 0, i32 16, i32 1, i32 17, i32 10, i32 26, i32 11, i32 27, i32 8, i32 24, i32 9, i32 25>
	ret <16 x i16> %1			ret <16 x i16> %1
	}			}

	define <16 x i16> @shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25(<16 x i16> %a0, <16 x i16> %a1) {			define <16 x i16> @shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25(<16 x i16> %a0, <16 x i16> %a1) {
	; AVX1-LABEL: shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25:			; AVX1-LABEL: shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25:
	Show All 20 Lines
	; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,0,1,12,13,2,3,16,17,20,21,20,21,22,23,16,17,16,17,28,29,18,19]			; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,0,1,12,13,2,3,16,17,20,21,20,21,22,23,16,17,16,17,28,29,18,19]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[4,5,2,3,6,7,6,7,0,1,2,3,2,3,14,15,20,21,18,19,22,23,22,23,16,17,18,19,18,19,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[4,5,2,3,6,7,6,7,0,1,2,3,2,3,14,15,20,21,18,19,22,23,22,23,16,17,18,19,18,19,30,31]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25:			; AVX512VL-LABEL: shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [2,18,3,19,0,16,1,17,10,26,11,27,8,24,9,25]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [2,18,3,19,0,16,1,17,10,26,11,27,8,24,9,25]
	; AVX512VL-NEXT: vpermi2w %ymm1, %ymm0, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm1, %ymm0, %ymm2
	; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm2[0,2,1,3]			; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm2[0,2,1,3]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%1 = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 2, i32 18, i32 3, i32 19, i32 0, i32 16, i32 1, i32 17, i32 10, i32 26, i32 11, i32 27, i32 8, i32 24, i32 9, i32 25>			%1 = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 2, i32 18, i32 3, i32 19, i32 0, i32 16, i32 1, i32 17, i32 10, i32 26, i32 11, i32 27, i32 8, i32 24, i32 9, i32 25>
	%2 = bitcast <16 x i16> %1 to <4 x i64>			%2 = bitcast <16 x i16> %1 to <4 x i64>
	%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 3>			%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 3>
	%4 = bitcast <4 x i64> %3 to <16 x i16>			%4 = bitcast <4 x i64> %3 to <16 x i16>
	ret <16 x i16> %4			ret <16 x i16> %4
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,5,5,6,7,8,9,10,11,13,13,14,15]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,5,5,6,7,8,9,10,11,13,13,14,15]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1,2],ymm2[3],ymm0[4],ymm2[5,6,7,8],ymm0[9,10],ymm2[11],ymm0[12],ymm2[13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1,2],ymm2[3],ymm0[4],ymm2[5,6,7,8],ymm0[9,10],ymm2[11],ymm0[12],ymm2[13,14,15]
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,0,0,255,255,255,255,255,255,0,0,255,255,0,0,0,0,255,255,255,255,0,0,0,0,0,0,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,0,0,255,255,255,255,255,255,0,0,255,255,0,0,0,0,255,255,255,255,0,0,0,0,0,0,255,255]
	; AVX2-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: PR24935:			; AVX512VL-LABEL: PR24935:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu {{.*#+}} ymm2 = [11,10,17,13,10,7,27,0,17,25,0,12,29,20,16,8]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [11,10,17,13,10,7,27,0,17,25,0,12,29,20,16,8]
	; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0			; AVX512VL-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 27, i32 26, i32 1, i32 29, i32 26, i32 23, i32 11, i32 16, i32 1, i32 9, i32 16, i32 28, i32 13, i32 4, i32 0, i32 24>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 27, i32 26, i32 1, i32 29, i32 26, i32 23, i32 11, i32 16, i32 1, i32 9, i32 16, i32 28, i32 13, i32 4, i32 0, i32 24>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @insert_dup_mem_v16i16_i32(i32* %ptr) {			define <16 x i16> @insert_dup_mem_v16i16_i32(i32* %ptr) {
	▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v32.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vmovdqa {{.*#+}} ymm3 = <255,255,255,255,u,u,u,u,255,255,u,u,0,0,255,255,0,0,0,0,u,u,0,0,0,0,u,u,255,255,u,u>			; KNL-NEXT: vmovdqa {{.*#+}} ymm3 = <255,255,255,255,u,u,u,u,255,255,u,u,0,0,255,255,0,0,0,0,u,u,0,0,0,0,u,u,255,255,u,u>
	; KNL-NEXT: vpblendvb %ymm3, %ymm4, %ymm2, %ymm2			; KNL-NEXT: vpblendvb %ymm3, %ymm4, %ymm2, %ymm2
	; KNL-NEXT: vmovdqa {{.*#+}} ymm3 = <255,255,255,255,u,u,u,u,255,255,u,u,255,255,255,255,255,255,255,255,u,u,255,255,255,255,u,u,255,255,0,0>			; KNL-NEXT: vmovdqa {{.*#+}} ymm3 = <255,255,255,255,u,u,u,u,255,255,u,u,255,255,255,255,255,255,255,255,u,u,255,255,255,255,u,u,255,255,0,0>
	; KNL-NEXT: vpblendvb %ymm3, %ymm2, %ymm1, %ymm1			; KNL-NEXT: vpblendvb %ymm3, %ymm2, %ymm1, %ymm1
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: shuffle_v32i16_02_05_u_u_07_u_0a_01_00_05_u_04_07_u_0a_01_02_05_u_u_07_u_0a_01_00_05_u_04_07_u_0a_1f:			; SKX-LABEL: shuffle_v32i16_02_05_u_u_07_u_0a_01_00_05_u_04_07_u_0a_01_02_05_u_u_07_u_0a_01_00_05_u_04_07_u_0a_1f:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vmovdqu16 {{.*#+}} zmm1 = <2,5,u,u,7,u,10,1,0,5,u,4,7,u,10,1,2,5,u,u,7,u,10,1,0,5,u,4,7,u,10,31>			; SKX-NEXT: vmovdqa64 {{.*#+}} zmm1 = <2,5,u,u,7,u,10,1,0,5,u,4,7,u,10,1,2,5,u,u,7,u,10,1,0,5,u,4,7,u,10,31>
	; SKX-NEXT: vpermw %zmm0, %zmm1, %zmm0			; SKX-NEXT: vpermw %zmm0, %zmm1, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%c = shufflevector <32 x i16> %a, <32 x i16> undef, <32 x i32> <i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 1, i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 31>			%c = shufflevector <32 x i16> %a, <32 x i16> undef, <32 x i32> <i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 1, i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 31>
	ret <32 x i16> %c			ret <32 x i16> %c
	}			}

	define <32 x i16> @shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38(<32 x i16> %a, <32 x i16> %b) {			define <32 x i16> @shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38(<32 x i16> %a, <32 x i16> %b) {
	; KNL-LABEL: shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38:			; KNL-LABEL: shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38:
	Show All 16 Lines
	; KNL-NEXT: vpblendvb %ymm5, %ymm1, %ymm3, %ymm1			; KNL-NEXT: vpblendvb %ymm5, %ymm1, %ymm3, %ymm1
	; KNL-NEXT: vpshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6,4]			; KNL-NEXT: vpshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6,4]
	; KNL-NEXT: vinserti128 $1, %xmm2, %ymm4, %ymm2			; KNL-NEXT: vinserti128 $1, %xmm2, %ymm4, %ymm2
	; KNL-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7],ymm0[8],ymm2[9],ymm0[10],ymm2[11],ymm0[12],ymm2[13],ymm0[14],ymm2[15]			; KNL-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7],ymm0[8],ymm2[9],ymm0[10],ymm2[11],ymm0[12],ymm2[13],ymm0[14],ymm2[15]
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38:			; SKX-LABEL: shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: vmovdqu16 {{.*#+}} zmm2 = [15,31,14,22,13,29,4,28,11,27,10,26,9,25,8,24,15,31,14,22,13,29,4,28,11,27,10,26,9,25,8,56]			; SKX-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,31,14,22,13,29,4,28,11,27,10,26,9,25,8,24,15,31,14,22,13,29,4,28,11,27,10,26,9,25,8,56]
	; SKX-NEXT: vpermt2w %zmm1, %zmm2, %zmm0			; SKX-NEXT: vpermt2w %zmm1, %zmm2, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%c = shufflevector <32 x i16> %a, <32 x i16> %b, <32 x i32> <i32 15, i32 31, i32 14, i32 22, i32 13, i32 29, i32 4, i32 28, i32 11, i32 27, i32 10, i32 26, i32 9, i32 25, i32 8, i32 24, i32 15, i32 31, i32 14, i32 22, i32 13, i32 29, i32 4, i32 28, i32 11, i32 27, i32 10, i32 26, i32 9, i32 25, i32 8, i32 56>			%c = shufflevector <32 x i16> %a, <32 x i16> %b, <32 x i32> <i32 15, i32 31, i32 14, i32 22, i32 13, i32 29, i32 4, i32 28, i32 11, i32 27, i32 10, i32 26, i32 9, i32 25, i32 8, i32 24, i32 15, i32 31, i32 14, i32 22, i32 13, i32 29, i32 4, i32 28, i32 11, i32 27, i32 10, i32 26, i32 9, i32 25, i32 8, i32 56>
	ret <32 x i16> %c			ret <32 x i16> %c
	}			}

	define <32 x i16> @shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u(<32 x i16> %a, <32 x i16> %b) {			define <32 x i16> @shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u(<32 x i16> %a, <32 x i16> %b) {
	; KNL-LABEL: shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u:			; KNL-LABEL: shuffle_v16i32_0_32_1_33_2_34_3_35_8_40_9_41_u_u_u_u:
	▲ Show 20 Lines • Show All 263 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v64.ll

	Show First 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm1[2,3,0,1]			; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm1[2,3,0,1]
	; AVX512DQ-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX512DQ-NEXT: vmovdqa %ymm2, %ymm0			; AVX512DQ-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512VBMI-LABEL: shuffle_v64i8_63_62_61_60_59_58_57_56_55_54_53_52_51_50_49_48_47_46_45_44_43_42_41_40_39_38_37_36_35_34_33_32_31_30_29_28_27_26_25_24_23_22_21_20_19_18_17_16_15_14_13_12_11_10_09_08_07_06_05_04_03_02_01_00:			; AVX512VBMI-LABEL: shuffle_v64i8_63_62_61_60_59_58_57_56_55_54_53_52_51_50_49_48_47_46_45_44_43_42_41_40_39_38_37_36_35_34_33_32_31_30_29_28_27_26_25_24_23_22_21_20_19_18_17_16_15_14_13_12_11_10_09_08_07_06_05_04_03_02_01_00:
	; AVX512VBMI: # BB#0:			; AVX512VBMI: # BB#0:
	; AVX512VBMI-NEXT: vmovdqu8 {{.*#+}} zmm1 = [63,62,61,60,59,58,57,56,55,54,53,52,51,50,49,48,47,46,45,44,43,42,41,40,39,38,37,36,35,34,33,32,31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]			; AVX512VBMI-NEXT: vmovdqa64 {{.*#+}} zmm1 = [63,62,61,60,59,58,57,56,55,54,53,52,51,50,49,48,47,46,45,44,43,42,41,40,39,38,37,36,35,34,33,32,31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
	; AVX512VBMI-NEXT: vpermb %zmm0, %zmm1, %zmm0			; AVX512VBMI-NEXT: vpermb %zmm0, %zmm1, %zmm0
	; AVX512VBMI-NEXT: retq			; AVX512VBMI-NEXT: retq
	%shuffle = shufflevector <64 x i8> %a, <64 x i8> undef, <64 x i32> <i32 63, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>			%shuffle = shufflevector <64 x i8> %a, <64 x i8> undef, <64 x i32> <i32 63, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	ret <64 x i8> %shuffle			ret <64 x i8> %shuffle
	}			}

	define <64 x i8> @insert_dup_mem_v64i8_i32(i32* %ptr) {			define <64 x i8> @insert_dup_mem_v64i8_i32(i32* %ptr) {
	; AVX512F-LABEL: insert_dup_mem_v64i8_i32:			; AVX512F-LABEL: insert_dup_mem_v64i8_i32:
	▲ Show 20 Lines • Show All 281 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3,0,1]			; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm1			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm1
	; AVX512DQ-NEXT: vmovdqa %ymm2, %ymm0			; AVX512DQ-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512VBMI-LABEL: shuffle_v64i8_63_zz_61_zz_59_zz_57_zz_55_zz_53_zz_51_zz_49_zz_47_zz_45_zz_43_zz_41_zz_39_zz_37_zz_35_zz_33_zz_31_zz_29_zz_27_zz_25_zz_23_zz_21_zz_19_zz_17_zz_15_zz_13_zz_11_zz_9_zz_7_zz_5_zz_3_zz_1_zz:			; AVX512VBMI-LABEL: shuffle_v64i8_63_zz_61_zz_59_zz_57_zz_55_zz_53_zz_51_zz_49_zz_47_zz_45_zz_43_zz_41_zz_39_zz_37_zz_35_zz_33_zz_31_zz_29_zz_27_zz_25_zz_23_zz_21_zz_19_zz_17_zz_15_zz_13_zz_11_zz_9_zz_7_zz_5_zz_3_zz_1_zz:
	; AVX512VBMI: # BB#0:			; AVX512VBMI: # BB#0:
	; AVX512VBMI-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512VBMI-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512VBMI-NEXT: vmovdqu8 {{.*#+}} zmm2 = [63,65,61,67,59,69,57,71,55,73,53,75,51,77,49,79,47,81,45,83,43,85,41,87,39,89,37,91,35,93,33,95,31,97,29,99,27,101,25,103,23,105,21,107,19,109,17,111,15,113,13,115,11,117,9,119,7,121,5,123,3,125,1,127]			; AVX512VBMI-NEXT: vmovdqa64 {{.*#+}} zmm2 = [63,65,61,67,59,69,57,71,55,73,53,75,51,77,49,79,47,81,45,83,43,85,41,87,39,89,37,91,35,93,33,95,31,97,29,99,27,101,25,103,23,105,21,107,19,109,17,111,15,113,13,115,11,117,9,119,7,121,5,123,3,125,1,127]
	; AVX512VBMI-NEXT: vpermt2b %zmm1, %zmm2, %zmm0			; AVX512VBMI-NEXT: vpermt2b %zmm1, %zmm2, %zmm0
	; AVX512VBMI-NEXT: retq			; AVX512VBMI-NEXT: retq
	%shuffle = shufflevector <64 x i8> %a, <64 x i8> zeroinitializer, <64 x i32> <i32 63, i32 64, i32 61, i32 64, i32 59, i32 64, i32 57, i32 64, i32 55, i32 64, i32 53, i32 64, i32 51, i32 64, i32 49, i32 64, i32 47, i32 64, i32 45, i32 64, i32 43, i32 64, i32 41, i32 64, i32 39, i32 64, i32 37, i32 64, i32 35, i32 64, i32 33, i32 64, i32 31, i32 64, i32 29, i32 64, i32 27, i32 64, i32 25, i32 64, i32 23, i32 64, i32 21, i32 64, i32 19, i32 64, i32 17, i32 64, i32 15, i32 64, i32 13, i32 64, i32 11, i32 64, i32 9, i32 64, i32 7, i32 64, i32 5, i32 64, i32 3, i32 64, i32 1, i32 64>			%shuffle = shufflevector <64 x i8> %a, <64 x i8> zeroinitializer, <64 x i32> <i32 63, i32 64, i32 61, i32 64, i32 59, i32 64, i32 57, i32 64, i32 55, i32 64, i32 53, i32 64, i32 51, i32 64, i32 49, i32 64, i32 47, i32 64, i32 45, i32 64, i32 43, i32 64, i32 41, i32 64, i32 39, i32 64, i32 37, i32 64, i32 35, i32 64, i32 33, i32 64, i32 31, i32 64, i32 29, i32 64, i32 27, i32 64, i32 25, i32 64, i32 23, i32 64, i32 21, i32 64, i32 19, i32 64, i32 17, i32 64, i32 15, i32 64, i32 13, i32 64, i32 11, i32 64, i32 9, i32 64, i32 7, i32 64, i32 5, i32 64, i32 3, i32 64, i32 1, i32 64>
	ret <64 x i8> %shuffle			ret <64 x i8> %shuffle
	}			}

	define <64 x i8> @shuffle_v64i8_63_64_61_66_59_68_57_70_55_72_53_74_51_76_49_78_47_80_45_82_43_84_41_86_39_88_37_90_35_92_33_94_31_96_29_98_27_100_25_102_23_104_21_106_19_108_17_110_15_112_13_114_11_116_9_118_7_120_5_122_3_124_1_126(<64 x i8> %a, <64 x i8> %b) {			define <64 x i8> @shuffle_v64i8_63_64_61_66_59_68_57_70_55_72_53_74_51_76_49_78_47_80_45_82_43_84_41_86_39_88_37_90_35_92_33_94_31_96_29_98_27_100_25_102_23_104_21_106_19_108_17_110_15_112_13_114_11_116_9_118_7_120_5_122_3_124_1_126(<64 x i8> %a, <64 x i8> %b) {
	; AVX512F-LABEL: shuffle_v64i8_63_64_61_66_59_68_57_70_55_72_53_74_51_76_49_78_47_80_45_82_43_84_41_86_39_88_37_90_35_92_33_94_31_96_29_98_27_100_25_102_23_104_21_106_19_108_17_110_15_112_13_114_11_116_9_118_7_120_5_122_3_124_1_126:			; AVX512F-LABEL: shuffle_v64i8_63_64_61_66_59_68_57_70_55_72_53_74_51_76_49_78_47_80_45_82_43_84_41_86_39_88_37_90_35_92_33_94_31_96_29_98_27_100_25_102_23_104_21_106_19_108_17_110_15_112_13_114_11_116_9_118_7_120_5_122_3_124_1_126:
	Show All 40 Lines
	; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512DQ-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX512DQ-NEXT: vpblendvb %ymm4, %ymm0, %ymm1, %ymm0			; AVX512DQ-NEXT: vpblendvb %ymm4, %ymm0, %ymm1, %ymm0
	; AVX512DQ-NEXT: vpshufb %ymm5, %ymm0, %ymm1			; AVX512DQ-NEXT: vpshufb %ymm5, %ymm0, %ymm1
	; AVX512DQ-NEXT: vmovdqa %ymm2, %ymm0			; AVX512DQ-NEXT: vmovdqa %ymm2, %ymm0
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512VBMI-LABEL: shuffle_v64i8_63_64_61_66_59_68_57_70_55_72_53_74_51_76_49_78_47_80_45_82_43_84_41_86_39_88_37_90_35_92_33_94_31_96_29_98_27_100_25_102_23_104_21_106_19_108_17_110_15_112_13_114_11_116_9_118_7_120_5_122_3_124_1_126:			; AVX512VBMI-LABEL: shuffle_v64i8_63_64_61_66_59_68_57_70_55_72_53_74_51_76_49_78_47_80_45_82_43_84_41_86_39_88_37_90_35_92_33_94_31_96_29_98_27_100_25_102_23_104_21_106_19_108_17_110_15_112_13_114_11_116_9_118_7_120_5_122_3_124_1_126:
	; AVX512VBMI: # BB#0:			; AVX512VBMI: # BB#0:
	; AVX512VBMI-NEXT: vmovdqu8 {{.*#+}} zmm2 = [63,64,61,66,59,68,57,70,55,72,53,74,51,76,49,78,47,80,45,82,43,84,41,86,39,88,37,90,35,92,33,94,31,96,29,98,27,100,25,102,23,104,21,106,19,108,17,110,15,112,13,114,11,116,9,118,7,120,5,122,3,124,1,126]			; AVX512VBMI-NEXT: vmovdqa64 {{.*#+}} zmm2 = [63,64,61,66,59,68,57,70,55,72,53,74,51,76,49,78,47,80,45,82,43,84,41,86,39,88,37,90,35,92,33,94,31,96,29,98,27,100,25,102,23,104,21,106,19,108,17,110,15,112,13,114,11,116,9,118,7,120,5,122,3,124,1,126]
	; AVX512VBMI-NEXT: vpermt2b %zmm1, %zmm2, %zmm0			; AVX512VBMI-NEXT: vpermt2b %zmm1, %zmm2, %zmm0
	; AVX512VBMI-NEXT: retq			; AVX512VBMI-NEXT: retq
	%shuffle = shufflevector <64 x i8> %a, <64 x i8> %b, <64 x i32> <i32 63, i32 64, i32 61, i32 66, i32 59, i32 68, i32 57, i32 70, i32 55, i32 72, i32 53, i32 74, i32 51, i32 76, i32 49, i32 78, i32 47, i32 80, i32 45, i32 82, i32 43, i32 84, i32 41, i32 86, i32 39, i32 88, i32 37, i32 90, i32 35, i32 92, i32 33, i32 94, i32 31, i32 96, i32 29, i32 98, i32 27, i32 100, i32 25, i32 102, i32 23, i32 104, i32 21, i32 106, i32 19, i32 108, i32 17, i32 110, i32 15, i32 112, i32 13, i32 114, i32 11, i32 116, i32 9, i32 118, i32 7, i32 120, i32 5, i32 122, i32 3, i32 124, i32 1, i32 126>			%shuffle = shufflevector <64 x i8> %a, <64 x i8> %b, <64 x i32> <i32 63, i32 64, i32 61, i32 66, i32 59, i32 68, i32 57, i32 70, i32 55, i32 72, i32 53, i32 74, i32 51, i32 76, i32 49, i32 78, i32 47, i32 80, i32 45, i32 82, i32 43, i32 84, i32 41, i32 86, i32 39, i32 88, i32 37, i32 90, i32 35, i32 92, i32 33, i32 94, i32 31, i32 96, i32 29, i32 98, i32 27, i32 100, i32 25, i32 102, i32 23, i32 104, i32 21, i32 106, i32 19, i32 108, i32 17, i32 110, i32 15, i32 112, i32 13, i32 114, i32 11, i32 116, i32 9, i32 118, i32 7, i32 120, i32 5, i32 122, i32 3, i32 124, i32 1, i32 126>
	ret <64 x i8> %shuffle			ret <64 x i8> %shuffle
	}			}

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512bw.ll

Show First 20 Lines • Show All 541 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)		%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)
%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 -1)		%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 -1)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}
define <32 x i16> @combine_vpermt2var_32i16_identity_mask(<32 x i16> %x0, <32 x i16> %x1, i32 %m) {		define <32 x i16> @combine_vpermt2var_32i16_identity_mask(<32 x i16> %x0, <32 x i16> %x1, i32 %m) {
; X32-LABEL: combine_vpermt2var_32i16_identity_mask:		; X32-LABEL: combine_vpermt2var_32i16_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovd {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovdqu16 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermi2w %zmm1, %zmm0, %zmm2 {%k1} {z}		; X32-NEXT: vpermi2w %zmm1, %zmm0, %zmm2 {%k1} {z}
; X32-NEXT: vmovdqu16 {{.*#+}} zmm0 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm0 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]
; X32-NEXT: vpermi2w %zmm2, %zmm2, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2w %zmm2, %zmm2, %zmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_32i16_identity_mask:		; X64-LABEL: combine_vpermt2var_32i16_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovd %edi, %k1		; X64-NEXT: kmovd %edi, %k1
; X64-NEXT: vmovdqu16 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermi2w %zmm1, %zmm0, %zmm2 {%k1} {z}		; X64-NEXT: vpermi2w %zmm1, %zmm0, %zmm2 {%k1} {z}
; X64-NEXT: vmovdqu16 {{.*#+}} zmm0 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm0 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]
; X64-NEXT: vpermi2w %zmm2, %zmm2, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2w %zmm2, %zmm2, %zmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 %m)		%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 %m)
%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 %m)		%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 %m)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}

define <64 x i8> @combine_pshufb_identity(<64 x i8> %x0) {		define <64 x i8> @combine_pshufb_identity(<64 x i8> %x0) {
Show All 9 Lines	; X64-NEXT: retq
%res0 = call <64 x i8> @llvm.x86.avx512.mask.pshuf.b.512(<64 x i8> %x0, <64 x i8> %mask, <64 x i8> %select, i64 -1)		%res0 = call <64 x i8> @llvm.x86.avx512.mask.pshuf.b.512(<64 x i8> %x0, <64 x i8> %mask, <64 x i8> %select, i64 -1)
%res1 = call <64 x i8> @llvm.x86.avx512.mask.pshuf.b.512(<64 x i8> %res0, <64 x i8> %mask, <64 x i8> %select, i64 -1)		%res1 = call <64 x i8> @llvm.x86.avx512.mask.pshuf.b.512(<64 x i8> %res0, <64 x i8> %mask, <64 x i8> %select, i64 -1)
ret <64 x i8> %res1		ret <64 x i8> %res1
}		}
define <64 x i8> @combine_pshufb_identity_mask(<64 x i8> %x0, i64 %m) {		define <64 x i8> @combine_pshufb_identity_mask(<64 x i8> %x0, i64 %m) {
; X32-LABEL: combine_pshufb_identity_mask:		; X32-LABEL: combine_pshufb_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; X32-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; X32-NEXT: vmovdqu8 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: kmovq {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
; X32-NEXT: vpternlogd $255, %zmm3, %zmm3, %zmm3		; X32-NEXT: vpternlogd $255, %zmm3, %zmm3, %zmm3
; X32-NEXT: vpshufb %zmm2, %zmm0, %zmm3 {%k1}		; X32-NEXT: vpshufb %zmm2, %zmm0, %zmm3 {%k1}
; X32-NEXT: vpshufb %zmm2, %zmm3, %zmm1 {%k1}		; X32-NEXT: vpshufb %zmm2, %zmm3, %zmm1 {%k1}
; X32-NEXT: vmovdqa64 %zmm1, %zmm0		; X32-NEXT: vmovdqa64 %zmm1, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_pshufb_identity_mask:		; X64-LABEL: combine_pshufb_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; X64-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; X64-NEXT: vmovdqu8 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: kmovq %rdi, %k1		; X64-NEXT: kmovq %rdi, %k1
; X64-NEXT: vpternlogd $255, %zmm3, %zmm3, %zmm3		; X64-NEXT: vpternlogd $255, %zmm3, %zmm3, %zmm3
; X64-NEXT: vpshufb %zmm2, %zmm0, %zmm3 {%k1}		; X64-NEXT: vpshufb %zmm2, %zmm0, %zmm3 {%k1}
; X64-NEXT: vpshufb %zmm2, %zmm3, %zmm1 {%k1}		; X64-NEXT: vpshufb %zmm2, %zmm3, %zmm1 {%k1}
; X64-NEXT: vmovdqa64 %zmm1, %zmm0		; X64-NEXT: vmovdqa64 %zmm1, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%select = bitcast <8 x i64> <i64 -1, i64 -1, i64 -1, i64 -1, i64 -1, i64 -1, i64 -1, i64 -1> to <64 x i8>		%select = bitcast <8 x i64> <i64 -1, i64 -1, i64 -1, i64 -1, i64 -1, i64 -1, i64 -1, i64 -1> to <64 x i8>
%mask = bitcast <16 x i32> <i32 202182159, i32 134810123, i32 67438087, i32 66051, i32 202182159, i32 134810123, i32 67438087, i32 66051, i32 202182159, i32 134810123, i32 67438087, i32 66051, i32 202182159, i32 134810123, i32 67438087, i32 66051> to <64 x i8>		%mask = bitcast <16 x i32> <i32 202182159, i32 134810123, i32 67438087, i32 66051, i32 202182159, i32 134810123, i32 67438087, i32 66051, i32 202182159, i32 134810123, i32 67438087, i32 66051, i32 202182159, i32 134810123, i32 67438087, i32 66051> to <64 x i8>
▲ Show 20 Lines • Show All 397 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res0 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8>, <16 x i32> %x0, <16 x i32> %x1, i16 -1)		%res0 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8>, <16 x i32> %x0, <16 x i32> %x1, i16 -1)
%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 0, i32 16, i32 2, i32 18, i32 4, i32 20, i32 6, i32 22, i32 8, i32 24, i32 10, i32 26, i32 12, i32 28, i32 14, i32 30>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)		%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 0, i32 16, i32 2, i32 18, i32 4, i32 20, i32 6, i32 22, i32 8, i32 24, i32 10, i32 26, i32 12, i32 28, i32 14, i32 30>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)
ret <16 x i32> %res1		ret <16 x i32> %res1
}		}

define <32 x i16> @combine_vpermi2var_32i16_as_permw(<32 x i16> %x0, <32 x i16> %x1) {		define <32 x i16> @combine_vpermi2var_32i16_as_permw(<32 x i16> %x0, <32 x i16> %x1) {
; X32-LABEL: combine_vpermi2var_32i16_as_permw:		; X32-LABEL: combine_vpermi2var_32i16_as_permw:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu16 {{.*#+}} zmm1 = [15,16,14,17,13,18,12,19,11,20,10,21,9,22,8,23,7,24,6,25,5,26,4,27,3,28,2,29,1,30,0,31]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,16,14,17,13,18,12,19,11,20,10,21,9,22,8,23,7,24,6,25,5,26,4,27,3,28,2,29,1,30,0,31]
; X32-NEXT: vpermw %zmm0, %zmm1, %zmm0		; X32-NEXT: vpermw %zmm0, %zmm1, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_32i16_as_permw:		; X64-LABEL: combine_vpermi2var_32i16_as_permw:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu16 {{.*#+}} zmm1 = [15,16,14,17,13,18,12,19,11,20,10,21,9,22,8,23,7,24,6,25,5,26,4,27,3,28,2,29,1,30,0,31]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,16,14,17,13,18,12,19,11,20,10,21,9,22,8,23,7,24,6,25,5,26,4,27,3,28,2,29,1,30,0,31]
; X64-NEXT: vpermw %zmm0, %zmm1, %zmm0		; X64-NEXT: vpermw %zmm0, %zmm1, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %x0, <32 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0, i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16>, <32 x i16> %x1, i32 -1)		%res0 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %x0, <32 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0, i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16>, <32 x i16> %x1, i32 -1)
%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 0, i16 31, i16 1, i16 30, i16 2, i16 29, i16 3, i16 28, i16 4, i16 27, i16 5, i16 26, i16 6, i16 25, i16 7, i16 24, i16 8, i16 23, i16 9, i16 22, i16 10, i16 21, i16 11, i16 20, i16 12, i16 19, i16 13, i16 18, i16 14, i16 17, i16 15, i16 16>, <32 x i16> %res0, i32 -1)		%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 0, i16 31, i16 1, i16 30, i16 2, i16 29, i16 3, i16 28, i16 4, i16 27, i16 5, i16 26, i16 6, i16 25, i16 7, i16 24, i16 8, i16 23, i16 9, i16 22, i16 10, i16 21, i16 11, i16 20, i16 12, i16 19, i16 13, i16 18, i16 14, i16 17, i16 15, i16 16>, <32 x i16> %res0, i32 -1)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}

define <8 x double> @combine_vpermi2var_vpermt2var_8f64_as_vperm2(<8 x double> %x0, <8 x double> %x1) {		define <8 x double> @combine_vpermi2var_vpermt2var_8f64_as_vperm2(<8 x double> %x0, <8 x double> %x1) {
Show All 30 Lines	; X64-NEXT: retq
%res0 = call <16 x i32> @llvm.x86.avx512.mask.vpermi2var.d.512(<16 x i32> %x0, <16 x i32> <i32 0, i32 31, i32 2, i32 29, i32 4, i32 27, i32 6, i32 25, i32 8, i32 23, i32 10, i32 21, i32 12, i32 19, i32 14, i32 17>, <16 x i32> %x1, i16 -1)		%res0 = call <16 x i32> @llvm.x86.avx512.mask.vpermi2var.d.512(<16 x i32> %x0, <16 x i32> <i32 0, i32 31, i32 2, i32 29, i32 4, i32 27, i32 6, i32 25, i32 8, i32 23, i32 10, i32 21, i32 12, i32 19, i32 14, i32 17>, <16 x i32> %x1, i16 -1)
%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 0, i32 17, i32 2, i32 18, i32 4, i32 19, i32 6, i32 21, i32 8, i32 23, i32 10, i32 25, i32 12, i32 27, i32 14, i32 29>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)		%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 0, i32 17, i32 2, i32 18, i32 4, i32 19, i32 6, i32 21, i32 8, i32 23, i32 10, i32 25, i32 12, i32 27, i32 14, i32 29>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)
ret <16 x i32> %res1		ret <16 x i32> %res1
}		}

define <32 x i16> @combine_vpermt2var_vpermi2var_32i16_as_permw(<32 x i16> %x0, <32 x i16> %x1) {		define <32 x i16> @combine_vpermt2var_vpermi2var_32i16_as_permw(<32 x i16> %x0, <32 x i16> %x1) {
; X32-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:		; X32-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu16 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]
; X32-NEXT: vpermi2w %zmm0, %zmm1, %zmm2		; X32-NEXT: vpermi2w %zmm0, %zmm1, %zmm2
; X32-NEXT: vmovdqa64 %zmm2, %zmm0		; X32-NEXT: vmovdqa64 %zmm2, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:		; X64-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu16 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]
; X64-NEXT: vpermi2w %zmm0, %zmm1, %zmm2		; X64-NEXT: vpermi2w %zmm0, %zmm1, %zmm2
; X64-NEXT: vmovdqa64 %zmm2, %zmm0		; X64-NEXT: vmovdqa64 %zmm2, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 0, i16 63, i16 1, i16 61, i16 2, i16 59, i16 3, i16 57, i16 4, i16 55, i16 5, i16 53, i16 6, i16 51, i16 7, i16 49, i16 8, i16 47, i16 9, i16 45, i16 10, i16 43, i16 11, i16 41, i16 12, i16 39, i16 13, i16 37, i16 14, i16 35, i16 15, i16 33>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)		%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 0, i16 63, i16 1, i16 61, i16 2, i16 59, i16 3, i16 57, i16 4, i16 55, i16 5, i16 53, i16 6, i16 51, i16 7, i16 49, i16 8, i16 47, i16 9, i16 45, i16 10, i16 43, i16 11, i16 41, i16 12, i16 39, i16 13, i16 37, i16 14, i16 35, i16 15, i16 33>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)
%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0, i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16>, <32 x i16> %res0, i32 -1)		%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0, i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16>, <32 x i16> %res0, i32 -1)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}

▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll

Show All 16 Lines	; X64-NEXT: retq
%res0 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x0, <16 x i16> %x1, i16 -1)		%res0 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x0, <16 x i16> %x1, i16 -1)
%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 -1)		%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 -1)
ret <16 x i16> %res1		ret <16 x i16> %res1
}		}
define <16 x i16> @combine_vpermt2var_16i16_identity_mask(<16 x i16> %x0, <16 x i16> %x1, i16 %m) {		define <16 x i16> @combine_vpermt2var_16i16_identity_mask(<16 x i16> %x0, <16 x i16> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16i16_identity_mask:		; X32-LABEL: combine_vpermt2var_16i16_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovdqu {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermi2w %ymm1, %ymm0, %ymm2 {%k1} {z}		; X32-NEXT: vpermi2w %ymm1, %ymm0, %ymm2 {%k1} {z}
; X32-NEXT: vmovdqu {{.*#+}} ymm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X32-NEXT: vpermi2w %ymm2, %ymm2, %ymm0 {%k1} {z}		; X32-NEXT: vpermi2w %ymm2, %ymm2, %ymm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16i16_identity_mask:		; X64-LABEL: combine_vpermt2var_16i16_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovd %edi, %k1		; X64-NEXT: kmovd %edi, %k1
; X64-NEXT: vmovdqu {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqa {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermi2w %ymm1, %ymm0, %ymm2 {%k1} {z}		; X64-NEXT: vpermi2w %ymm1, %ymm0, %ymm2 {%k1} {z}
; X64-NEXT: vmovdqu {{.*#+}} ymm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X64-NEXT: vmovdqa {{.*#+}} ymm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X64-NEXT: vpermi2w %ymm2, %ymm2, %ymm0 {%k1} {z}		; X64-NEXT: vpermi2w %ymm2, %ymm2, %ymm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x0, <16 x i16> %x1, i16 %m)		%res0 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x0, <16 x i16> %x1, i16 %m)
%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 %m)		%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 %m)
ret <16 x i16> %res1		ret <16 x i16> %res1
}		}

define <16 x i16> @combine_vpermi2var_16i16_as_permw(<16 x i16> %x0, <16 x i16> %x1) {		define <16 x i16> @combine_vpermi2var_16i16_as_permw(<16 x i16> %x0, <16 x i16> %x1) {
; X32-LABEL: combine_vpermi2var_16i16_as_permw:		; X32-LABEL: combine_vpermi2var_16i16_as_permw:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu {{.*#+}} ymm1 = [15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]		; X32-NEXT: vmovdqa {{.*#+}} ymm1 = [15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]
; X32-NEXT: vpermw %ymm0, %ymm1, %ymm0		; X32-NEXT: vpermw %ymm0, %ymm1, %ymm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_16i16_as_permw:		; X64-LABEL: combine_vpermi2var_16i16_as_permw:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu {{.*#+}} ymm1 = [15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]		; X64-NEXT: vmovdqa {{.*#+}} ymm1 = [15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]
; X64-NEXT: vpermw %ymm0, %ymm1, %ymm0		; X64-NEXT: vpermw %ymm0, %ymm1, %ymm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.256(<16 x i16> %x0, <16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x1, i16 -1)		%res0 = call <16 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.256(<16 x i16> %x0, <16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x1, i16 -1)
%res1 = call <16 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.256(<16 x i16> %res0, <16 x i16> <i16 0, i16 15, i16 1, i16 14, i16 2, i16 13, i16 3, i16 12, i16 4, i16 11, i16 5, i16 10, i16 6, i16 9, i16 7, i16 8>, <16 x i16> %res0, i16 -1)		%res1 = call <16 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.256(<16 x i16> %res0, <16 x i16> <i16 0, i16 15, i16 1, i16 14, i16 2, i16 13, i16 3, i16 12, i16 4, i16 11, i16 5, i16 10, i16 6, i16 9, i16 7, i16 8>, <16 x i16> %res0, i16 -1)
ret <16 x i16> %res1		ret <16 x i16> %res1
}		}

define <16 x i16> @combine_vpermt2var_vpermi2var_16i16_as_vperm2(<16 x i16> %x0, <16 x i16> %x1) {		define <16 x i16> @combine_vpermt2var_vpermi2var_16i16_as_vperm2(<16 x i16> %x0, <16 x i16> %x1) {
; X32-LABEL: combine_vpermt2var_vpermi2var_16i16_as_vperm2:		; X32-LABEL: combine_vpermt2var_vpermi2var_16i16_as_vperm2:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu {{.*#+}} ymm2 = [0,31,2,2,4,29,6,27,8,25,10,23,12,21,14,19]		; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [0,31,2,2,4,29,6,27,8,25,10,23,12,21,14,19]
; X32-NEXT: vpermt2w %ymm1, %ymm2, %ymm0		; X32-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_vpermi2var_16i16_as_vperm2:		; X64-LABEL: combine_vpermt2var_vpermi2var_16i16_as_vperm2:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu {{.*#+}} ymm2 = [0,31,2,2,4,29,6,27,8,25,10,23,12,21,14,19]		; X64-NEXT: vmovdqa {{.*#+}} ymm2 = [0,31,2,2,4,29,6,27,8,25,10,23,12,21,14,19]
; X64-NEXT: vpermt2w %ymm1, %ymm2, %ymm0		; X64-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.256(<16 x i16> %x0, <16 x i16> <i16 0, i16 31, i16 2, i16 29, i16 4, i16 27, i16 6, i16 25, i16 8, i16 23, i16 10, i16 21, i16 12, i16 19, i16 14, i16 17>, <16 x i16> %x1, i16 -1)		%res0 = call <16 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.256(<16 x i16> %x0, <16 x i16> <i16 0, i16 31, i16 2, i16 29, i16 4, i16 27, i16 6, i16 25, i16 8, i16 23, i16 10, i16 21, i16 12, i16 19, i16 14, i16 17>, <16 x i16> %x1, i16 -1)
%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 0, i16 17, i16 2, i16 18, i16 4, i16 19, i16 6, i16 21, i16 8, i16 23, i16 10, i16 25, i16 12, i16 27, i16 14, i16 29>, <16 x i16> %res0, <16 x i16> %res0, i16 -1)		%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 0, i16 17, i16 2, i16 18, i16 4, i16 19, i16 6, i16 21, i16 8, i16 23, i16 10, i16 25, i16 12, i16 27, i16 14, i16 29>, <16 x i16> %res0, <16 x i16> %res0, i16 -1)
ret <16 x i16> %res1		ret <16 x i16> %res1
}		}

define <16 x i16> @combine_vpermt2var_vpermi2var_16i16_as_unpckhwd(<16 x i16> %a0, <16 x i16> %a1) {		define <16 x i16> @combine_vpermt2var_vpermi2var_16i16_as_unpckhwd(<16 x i16> %a0, <16 x i16> %a1) {
Show All 26 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512vbmi.ll

Show All 31 Lines	; X64-NEXT: retq
%res0 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x0, <16 x i8> %x1, i16 -1)		%res0 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x0, <16 x i8> %x1, i16 -1)
%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)		%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)
ret <16 x i8> %res1		ret <16 x i8> %res1
}		}
define <16 x i8> @combine_vpermt2var_16i8_identity_mask(<16 x i8> %x0, <16 x i8> %x1, i16 %m) {		define <16 x i8> @combine_vpermt2var_16i8_identity_mask(<16 x i8> %x0, <16 x i8> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16i8_identity_mask:		; X32-LABEL: combine_vpermt2var_16i8_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovdqu {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqa {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermi2b %xmm1, %xmm0, %xmm2 {%k1} {z}		; X32-NEXT: vpermi2b %xmm1, %xmm0, %xmm2 {%k1} {z}
; X32-NEXT: vmovdqu {{.*#+}} xmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X32-NEXT: vmovdqa {{.*#+}} xmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X32-NEXT: vpermi2b %xmm2, %xmm2, %xmm0 {%k1} {z}		; X32-NEXT: vpermi2b %xmm2, %xmm2, %xmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16i8_identity_mask:		; X64-LABEL: combine_vpermt2var_16i8_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovd %edi, %k1		; X64-NEXT: kmovd %edi, %k1
; X64-NEXT: vmovdqu {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqa {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermi2b %xmm1, %xmm0, %xmm2 {%k1} {z}		; X64-NEXT: vpermi2b %xmm1, %xmm0, %xmm2 {%k1} {z}
; X64-NEXT: vmovdqu {{.*#+}} xmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X64-NEXT: vmovdqa {{.*#+}} xmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X64-NEXT: vpermi2b %xmm2, %xmm2, %xmm0 {%k1} {z}		; X64-NEXT: vpermi2b %xmm2, %xmm2, %xmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x0, <16 x i8> %x1, i16 %m)		%res0 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x0, <16 x i8> %x1, i16 %m)
%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 %m)		%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 %m)
ret <16 x i8> %res1		ret <16 x i8> %res1
}		}

define <16 x i8> @combine_vpermi2var_16i8_as_vpshufb(<16 x i8> %x0, <16 x i8> %x1) {		define <16 x i8> @combine_vpermi2var_16i8_as_vpshufb(<16 x i8> %x0, <16 x i8> %x1) {
; X32-LABEL: combine_vpermi2var_16i8_as_vpshufb:		; X32-LABEL: combine_vpermi2var_16i8_as_vpshufb:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]		; X32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_16i8_as_vpshufb:		; X64-LABEL: combine_vpermi2var_16i8_as_vpshufb:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]		; X64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[15,0,14,1,13,2,12,3,11,4,10,5,9,6,8,7]
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x1, i16 -1)		%res0 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x1, i16 -1)
%res1 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 15, i8 1, i8 14, i8 2, i8 13, i8 3, i8 12, i8 4, i8 11, i8 5, i8 10, i8 6, i8 9, i8 7, i8 8>, <16 x i8> %res0, i16 -1)		%res1 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 15, i8 1, i8 14, i8 2, i8 13, i8 3, i8 12, i8 4, i8 11, i8 5, i8 10, i8 6, i8 9, i8 7, i8 8>, <16 x i8> %res0, i16 -1)
ret <16 x i8> %res1		ret <16 x i8> %res1
}		}
define <32 x i8> @combine_vpermi2var_32i8_as_vpermb(<32 x i8> %x0, <32 x i8> %x1) {		define <32 x i8> @combine_vpermi2var_32i8_as_vpermb(<32 x i8> %x0, <32 x i8> %x1) {
; X32-LABEL: combine_vpermi2var_32i8_as_vpermb:		; X32-LABEL: combine_vpermi2var_32i8_as_vpermb:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X32-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X32-NEXT: vpermb %ymm0, %ymm1, %ymm0		; X32-NEXT: vpermb %ymm0, %ymm1, %ymm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_32i8_as_vpermb:		; X64-LABEL: combine_vpermi2var_32i8_as_vpermb:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu {{.*#+}} ymm1 = [0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X64-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,0,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X64-NEXT: vpermb %ymm0, %ymm1, %ymm0		; X64-NEXT: vpermb %ymm0, %ymm1, %ymm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = shufflevector <32 x i8> %x0, <32 x i8> %x1, <32 x i32> <i32 0, i32 32, i32 1, i32 33, i32 2, i32 34, i32 3, i32 35, i32 4, i32 36, i32 5, i32 37, i32 6, i32 38, i32 7, i32 39, i32 16, i32 48, i32 17, i32 49, i32 18, i32 50, i32 19, i32 51, i32 20, i32 52, i32 21, i32 53, i32 22, i32 54, i32 23, i32 55>		%res0 = shufflevector <32 x i8> %x0, <32 x i8> %x1, <32 x i32> <i32 0, i32 32, i32 1, i32 33, i32 2, i32 34, i32 3, i32 35, i32 4, i32 36, i32 5, i32 37, i32 6, i32 38, i32 7, i32 39, i32 16, i32 48, i32 17, i32 49, i32 18, i32 50, i32 19, i32 51, i32 20, i32 52, i32 21, i32 53, i32 22, i32 54, i32 23, i32 55>
%res1 = call <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8> %res0, <32 x i8> <i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <32 x i8> %res0, i32 -1)		%res1 = call <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8> %res0, <32 x i8> <i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <32 x i8> %res0, i32 -1)
ret <32 x i8> %res1		ret <32 x i8> %res1
}		}
define <64 x i8> @combine_vpermi2var_64i8_as_vpermb(<64 x i8> %x0, <64 x i8> %x1) {		define <64 x i8> @combine_vpermi2var_64i8_as_vpermb(<64 x i8> %x0, <64 x i8> %x1) {
; X32-LABEL: combine_vpermi2var_64i8_as_vpermb:		; X32-LABEL: combine_vpermi2var_64i8_as_vpermb:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu8 {{.*#+}} zmm1 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X32-NEXT: vpermb %zmm0, %zmm1, %zmm0		; X32-NEXT: vpermb %zmm0, %zmm1, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_64i8_as_vpermb:		; X64-LABEL: combine_vpermi2var_64i8_as_vpermb:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu8 {{.*#+}} zmm1 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X64-NEXT: vpermb %zmm0, %zmm1, %zmm0		; X64-NEXT: vpermb %zmm0, %zmm1, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = shufflevector <64 x i8> %x0, <64 x i8> %x1, <64 x i32> <i32 0, i32 64, i32 1, i32 65, i32 2, i32 66, i32 3, i32 67, i32 4, i32 68, i32 5, i32 69, i32 6, i32 70, i32 7, i32 71, i32 16, i32 80, i32 17, i32 81, i32 18, i32 82, i32 19, i32 83, i32 20, i32 84, i32 21, i32 85, i32 22, i32 86, i32 23, i32 87, i32 32, i32 96, i32 33, i32 97, i32 34, i32 98, i32 35, i32 99, i32 36, i32 100, i32 37, i32 101, i32 38, i32 102, i32 39, i32 103, i32 48, i32 112, i32 49, i32 113, i32 50, i32 114, i32 51, i32 115, i32 52, i32 116, i32 53, i32 117, i32 54, i32 118, i32 55, i32 119>		%res0 = shufflevector <64 x i8> %x0, <64 x i8> %x1, <64 x i32> <i32 0, i32 64, i32 1, i32 65, i32 2, i32 66, i32 3, i32 67, i32 4, i32 68, i32 5, i32 69, i32 6, i32 70, i32 7, i32 71, i32 16, i32 80, i32 17, i32 81, i32 18, i32 82, i32 19, i32 83, i32 20, i32 84, i32 21, i32 85, i32 22, i32 86, i32 23, i32 87, i32 32, i32 96, i32 33, i32 97, i32 34, i32 98, i32 35, i32 99, i32 36, i32 100, i32 37, i32 101, i32 38, i32 102, i32 39, i32 103, i32 48, i32 112, i32 49, i32 113, i32 50, i32 114, i32 51, i32 115, i32 52, i32 116, i32 53, i32 117, i32 54, i32 118, i32 55, i32 119>
%res1 = call <64 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.512(<64 x i8> %res0, <64 x i8> <i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <64 x i8> %res0, i64 -1)		%res1 = call <64 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.512(<64 x i8> %res0, <64 x i8> <i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <64 x i8> %res0, i64 -1)
ret <64 x i8> %res1		ret <64 x i8> %res1
}		}

define <16 x i8> @combine_vpermt2var_vpermi2var_16i8_as_vperm2(<16 x i8> %x0, <16 x i8> %x1) {		define <16 x i8> @combine_vpermt2var_vpermi2var_16i8_as_vperm2(<16 x i8> %x0, <16 x i8> %x1) {
; X32-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:		; X32-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]		; X32-NEXT: vmovdqa {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]
; X32-NEXT: vpermi2b %xmm1, %xmm0, %xmm2		; X32-NEXT: vpermi2b %xmm1, %xmm0, %xmm2
; X32-NEXT: vmovdqu {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]		; X32-NEXT: vmovdqa {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]
; X32-NEXT: vpermi2b %xmm2, %xmm2, %xmm0		; X32-NEXT: vpermi2b %xmm2, %xmm2, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:		; X64-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]		; X64-NEXT: vmovdqa {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]
; X64-NEXT: vpermi2b %xmm1, %xmm0, %xmm2		; X64-NEXT: vpermi2b %xmm1, %xmm0, %xmm2
; X64-NEXT: vmovdqu {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]		; X64-NEXT: vmovdqa {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]
; X64-NEXT: vpermi2b %xmm2, %xmm2, %xmm0		; X64-NEXT: vpermi2b %xmm2, %xmm2, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> <i8 0, i8 31, i8 2, i8 29, i8 4, i8 27, i8 6, i8 25, i8 8, i8 23, i8 10, i8 21, i8 12, i8 19, i8 14, i8 17>, <16 x i8> %x1, i16 -1)		%res0 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> <i8 0, i8 31, i8 2, i8 29, i8 4, i8 27, i8 6, i8 25, i8 8, i8 23, i8 10, i8 21, i8 12, i8 19, i8 14, i8 17>, <16 x i8> %x1, i16 -1)
%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 0, i8 17, i8 2, i8 18, i8 4, i8 19, i8 6, i8 21, i8 8, i8 23, i8 10, i8 25, i8 12, i8 27, i8 14, i8 29>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)		%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 0, i8 17, i8 2, i8 18, i8 4, i8 19, i8 6, i8 21, i8 8, i8 23, i8 10, i8 25, i8 12, i8 27, i8 14, i8 29>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)
ret <16 x i8> %res1		ret <16 x i8> %res1
}		}
define <32 x i8> @combine_vpermi2var_32i8_as_vperm2(<32 x i8> %x0, <32 x i8> %x1) {		define <32 x i8> @combine_vpermi2var_32i8_as_vperm2(<32 x i8> %x0, <32 x i8> %x1) {
; X32-LABEL: combine_vpermi2var_32i8_as_vperm2:		; X32-LABEL: combine_vpermi2var_32i8_as_vperm2:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu {{.*#+}} ymm2 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X32-NEXT: vpermt2b %ymm1, %ymm2, %ymm0		; X32-NEXT: vpermt2b %ymm1, %ymm2, %ymm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_32i8_as_vperm2:		; X64-LABEL: combine_vpermi2var_32i8_as_vperm2:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu {{.*#+}} ymm2 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X64-NEXT: vmovdqa {{.*#+}} ymm2 = [0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X64-NEXT: vpermt2b %ymm1, %ymm2, %ymm0		; X64-NEXT: vpermt2b %ymm1, %ymm2, %ymm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = shufflevector <32 x i8> %x0, <32 x i8> %x1, <32 x i32> <i32 0, i32 32, i32 1, i32 33, i32 2, i32 34, i32 3, i32 35, i32 4, i32 36, i32 5, i32 37, i32 6, i32 38, i32 7, i32 39, i32 16, i32 48, i32 17, i32 49, i32 18, i32 50, i32 19, i32 51, i32 20, i32 52, i32 21, i32 53, i32 22, i32 54, i32 23, i32 55>		%res0 = shufflevector <32 x i8> %x0, <32 x i8> %x1, <32 x i32> <i32 0, i32 32, i32 1, i32 33, i32 2, i32 34, i32 3, i32 35, i32 4, i32 36, i32 5, i32 37, i32 6, i32 38, i32 7, i32 39, i32 16, i32 48, i32 17, i32 49, i32 18, i32 50, i32 19, i32 51, i32 20, i32 52, i32 21, i32 53, i32 22, i32 54, i32 23, i32 55>
%res1 = call <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8> %res0, <32 x i8> <i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <32 x i8> %x1, i32 -1)		%res1 = call <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8> %res0, <32 x i8> <i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <32 x i8> %x1, i32 -1)
ret <32 x i8> %res1		ret <32 x i8> %res1
}		}
define <64 x i8> @combine_vpermi2var_64i8_as_vperm2(<64 x i8> %x0, <64 x i8> %x1) {		define <64 x i8> @combine_vpermi2var_64i8_as_vperm2(<64 x i8> %x0, <64 x i8> %x1) {
; X32-LABEL: combine_vpermi2var_64i8_as_vperm2:		; X32-LABEL: combine_vpermi2var_64i8_as_vperm2:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu8 {{.*#+}} zmm2 = [0,80,1,70,2,54,3,49,4,36,5,23,6,18,7,5,0,90,1,100,2,110,3,120,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,80,1,70,2,54,3,49,4,36,5,23,6,18,7,5,0,90,1,100,2,110,3,120,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X32-NEXT: vpermt2b %zmm1, %zmm2, %zmm0		; X32-NEXT: vpermt2b %zmm1, %zmm2, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_64i8_as_vperm2:		; X64-LABEL: combine_vpermi2var_64i8_as_vperm2:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu8 {{.*#+}} zmm2 = [0,80,1,70,2,54,3,49,4,36,5,23,6,18,7,5,0,90,1,100,2,110,3,120,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,80,1,70,2,54,3,49,4,36,5,23,6,18,7,5,0,90,1,100,2,110,3,120,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19,0,32,1,23,2,22,3,21,4,22,5,21,6,20,7,19]
; X64-NEXT: vpermt2b %zmm1, %zmm2, %zmm0		; X64-NEXT: vpermt2b %zmm1, %zmm2, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = shufflevector <64 x i8> %x0, <64 x i8> %x1, <64 x i32> <i32 0, i32 64, i32 1, i32 65, i32 2, i32 66, i32 3, i32 67, i32 4, i32 68, i32 5, i32 69, i32 6, i32 70, i32 7, i32 71, i32 16, i32 80, i32 17, i32 81, i32 18, i32 82, i32 19, i32 83, i32 20, i32 84, i32 21, i32 85, i32 22, i32 86, i32 23, i32 87, i32 32, i32 96, i32 33, i32 97, i32 34, i32 98, i32 35, i32 99, i32 36, i32 100, i32 37, i32 101, i32 38, i32 102, i32 39, i32 103, i32 48, i32 112, i32 49, i32 113, i32 50, i32 114, i32 51, i32 115, i32 52, i32 116, i32 53, i32 117, i32 54, i32 118, i32 55, i32 119>		%res0 = shufflevector <64 x i8> %x0, <64 x i8> %x1, <64 x i32> <i32 0, i32 64, i32 1, i32 65, i32 2, i32 66, i32 3, i32 67, i32 4, i32 68, i32 5, i32 69, i32 6, i32 70, i32 7, i32 71, i32 16, i32 80, i32 17, i32 81, i32 18, i32 82, i32 19, i32 83, i32 20, i32 84, i32 21, i32 85, i32 22, i32 86, i32 23, i32 87, i32 32, i32 96, i32 33, i32 97, i32 34, i32 98, i32 35, i32 99, i32 36, i32 100, i32 37, i32 101, i32 38, i32 102, i32 39, i32 103, i32 48, i32 112, i32 49, i32 113, i32 50, i32 114, i32 51, i32 115, i32 52, i32 116, i32 53, i32 117, i32 54, i32 118, i32 55, i32 119>
%res1 = call <64 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.512(<64 x i8> %res0, <64 x i8> <i8 0, i8 80, i8 2, i8 70, i8 4, i8 60, i8 6, i8 50, i8 8, i8 40, i8 10, i8 30, i8 12, i8 20, i8 14, i8 10, i8 0, i8 90, i8 2, i8 100, i8 4, i8 110, i8 6, i8 120, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <64 x i8> %x1, i64 -1)		%res1 = call <64 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.512(<64 x i8> %res0, <64 x i8> <i8 0, i8 80, i8 2, i8 70, i8 4, i8 60, i8 6, i8 50, i8 8, i8 40, i8 10, i8 30, i8 12, i8 20, i8 14, i8 10, i8 0, i8 90, i8 2, i8 100, i8 4, i8 110, i8 6, i8 120, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22, i8 0, i8 32, i8 2, i8 30, i8 4, i8 28, i8 6, i8 26, i8 8, i8 28, i8 10, i8 26, i8 12, i8 24, i8 14, i8 22>, <64 x i8> %x1, i64 -1)
ret <64 x i8> %res1		ret <64 x i8> %res1
}		}

llvm/trunk/test/CodeGen/X86/vector-shuffle-v1.ll

	Show First 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0			; AVX512F-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; VL_BW_DQ-LABEL: shuf32i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:			; VL_BW_DQ-LABEL: shuf32i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:
	; VL_BW_DQ: # BB#0:			; VL_BW_DQ: # BB#0:
	; VL_BW_DQ-NEXT: vpsllw $7, %ymm0, %ymm0			; VL_BW_DQ-NEXT: vpsllw $7, %ymm0, %ymm0
	; VL_BW_DQ-NEXT: vpmovb2m %ymm0, %k0			; VL_BW_DQ-NEXT: vpmovb2m %ymm0, %k0
	; VL_BW_DQ-NEXT: vpmovm2w %k0, %zmm0			; VL_BW_DQ-NEXT: vpmovm2w %k0, %zmm0
	; VL_BW_DQ-NEXT: vmovdqu16 {{.*#+}} zmm1 = [3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0,3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0]			; VL_BW_DQ-NEXT: vmovdqa64 {{.*#+}} zmm1 = [3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0,3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0]
	; VL_BW_DQ-NEXT: vpermw %zmm0, %zmm1, %zmm0			; VL_BW_DQ-NEXT: vpermw %zmm0, %zmm1, %zmm0
	; VL_BW_DQ-NEXT: vpmovw2m %zmm0, %k0			; VL_BW_DQ-NEXT: vpmovw2m %zmm0, %k0
	; VL_BW_DQ-NEXT: vpmovm2b %k0, %ymm0			; VL_BW_DQ-NEXT: vpmovm2b %k0, %ymm0
	; VL_BW_DQ-NEXT: retq			; VL_BW_DQ-NEXT: retq
	%b = shufflevector <32 x i1> %a, <32 x i1> undef, <32 x i32> <i32 3, i32 6, i32 22, i32 12, i32 3, i32 7, i32 7, i32 0, i32 3, i32 6, i32 1, i32 13, i32 3, i32 21, i32 7, i32 0, i32 3, i32 6, i32 22, i32 12, i32 3, i32 7, i32 7, i32 0, i32 3, i32 6, i32 1, i32 13, i32 3, i32 21, i32 7, i32 0>			%b = shufflevector <32 x i1> %a, <32 x i1> undef, <32 x i32> <i32 3, i32 6, i32 22, i32 12, i32 3, i32 7, i32 7, i32 0, i32 3, i32 6, i32 1, i32 13, i32 3, i32 21, i32 7, i32 0, i32 3, i32 6, i32 22, i32 12, i32 3, i32 7, i32 7, i32 0, i32 3, i32 6, i32 1, i32 13, i32 3, i32 21, i32 7, i32 0>
	ret <32 x i1> %b			ret <32 x i1> %b
	}			}

	▲ Show 20 Lines • Show All 309 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

	Show First 20 Lines • Show All 1,108 Lines • ▼ Show 20 Lines
	; AVX-LABEL: trunc2x8i16_16i8:			; AVX-LABEL: trunc2x8i16_16i8:
	; AVX: # BB#0: # %entry			; AVX: # BB#0: # %entry
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc2x8i16_16i8:			; AVX512-LABEL: trunc2x8i16_16i8:
	; AVX512F: # BB#0: # %entry			; AVX512: # BB#0: # %entry
	; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512F-NEXT: retq			; AVX512-NEXT: retq
	;
	; AVX512VL-LABEL: trunc2x8i16_16i8:
	; AVX512VL: # BB#0: # %entry
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512VL-NEXT: retq
	;
	; AVX512BW-LABEL: trunc2x8i16_16i8:
	; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512BW-NEXT: retq
	;
	; AVX512BWVL-LABEL: trunc2x8i16_16i8:
	; AVX512BWVL: # BB#0: # %entry
	; AVX512BWVL-NEXT: vmovdqu {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX512BWVL-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512BWVL-NEXT: retq
	entry:			entry:
	%0 = trunc <8 x i16> %a to <8 x i8>			%0 = trunc <8 x i16> %a to <8 x i8>
	%1 = trunc <8 x i16> %b to <8 x i8>			%1 = trunc <8 x i16> %b to <8 x i8>
	%2 = shufflevector <8 x i8> %0, <8 x i8> %1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%2 = shufflevector <8 x i8> %0, <8 x i8> %1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	; PR15524 http://llvm.org/bugs/show_bug.cgi?id=15524			; PR15524 http://llvm.org/bugs/show_bug.cgi?id=15524
	▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-tzcnt-512.ll

	Show All 36 Lines
	; AVX512CDBW: # BB#0:			; AVX512CDBW: # BB#0:
	; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpsubq %zmm0, %zmm1, %zmm2			; AVX512CDBW-NEXT: vpsubq %zmm0, %zmm1, %zmm2
	; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2			; AVX512CDBW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2
	; AVX512CDBW-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm3			; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm3
	; AVX512CDBW-NEXT: vmovdqu8 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512CDBW-NEXT: vpshufb %zmm3, %zmm4, %zmm3			; AVX512CDBW-NEXT: vpshufb %zmm3, %zmm4, %zmm3
	; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm4, %zmm0			; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm4, %zmm0
	; AVX512CDBW-NEXT: vpaddb %zmm3, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm3, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv8i64:			; AVX512BW-LABEL: testv8i64:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubq %zmm0, %zmm1, %zmm2			; AVX512BW-NEXT: vpsubq %zmm0, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2			; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3			; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	Show All 35 Lines
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubq %zmm0, %zmm1, %zmm2			; AVX512BW-NEXT: vpsubq %zmm0, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2			; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3			; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX512CDBW: # BB#0:			; AVX512CDBW: # BB#0:
	; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpsubd %zmm0, %zmm1, %zmm2			; AVX512CDBW-NEXT: vpsubd %zmm0, %zmm1, %zmm2
	; AVX512CDBW-NEXT: vpandd %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandd %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2			; AVX512CDBW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2
	; AVX512CDBW-NEXT: vpaddd %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddd %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm3			; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm3
	; AVX512CDBW-NEXT: vmovdqu8 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512CDBW-NEXT: vpshufb %zmm3, %zmm4, %zmm3			; AVX512CDBW-NEXT: vpshufb %zmm3, %zmm4, %zmm3
	; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm4, %zmm0			; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm4, %zmm0
	; AVX512CDBW-NEXT: vpaddb %zmm3, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm3, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]			; AVX512CDBW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
	; AVX512CDBW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2			; AVX512CDBW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
	; AVX512CDBW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]			; AVX512CDBW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
	; AVX512CDBW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv16i32:			; AVX512BW-LABEL: testv16i32:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubd %zmm0, %zmm1, %zmm2			; AVX512BW-NEXT: vpsubd %zmm0, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandd %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandd %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2			; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddd %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3			; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]			; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]			; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
	Show All 39 Lines
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubd %zmm0, %zmm1, %zmm2			; AVX512BW-NEXT: vpsubd %zmm0, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandd %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandd %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2			; AVX512BW-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddd %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm3
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3			; AVX512BW-NEXT: vpshufb %zmm3, %zmm4, %zmm3
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm4, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]			; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]			; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX512CDBW: # BB#0:			; AVX512CDBW: # BB#0:
	; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpsubw %zmm0, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpsubw %zmm0, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512CDBW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512CDBW-NEXT: vpsllw $8, %zmm0, %zmm1
	; AVX512CDBW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512CDBW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $8, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv32i16:			; AVX512BW-LABEL: testv32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubw %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpsubw %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX512CDBW: # BB#0:			; AVX512CDBW: # BB#0:
	; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpsubw %zmm0, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpsubw %zmm0, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512CDBW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512CDBW-NEXT: vpsllw $8, %zmm0, %zmm1
	; AVX512CDBW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512CDBW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $8, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv32i16u:			; AVX512BW-LABEL: testv32i16u:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubw %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpsubw %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllw $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX512CDBW: # BB#0:			; AVX512CDBW: # BB#0:
	; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpsubb %zmm0, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpsubb %zmm0, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512CDBW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv64i8:			; AVX512BW-LABEL: testv64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubb %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpsubb %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-LABEL: testv64i8:			; AVX512VPOPCNTDQ-LABEL: testv64i8:
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; AVX512CDBW: # BB#0:			; AVX512CDBW: # BB#0:
	; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpsubb %zmm0, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpsubb %zmm0, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512CDBW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512CDBW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512CDBW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512CDBW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512CDBW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv64i8u:			; AVX512BW-LABEL: testv64i8u:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubb %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpsubb %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqu8 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VPOPCNTDQ-LABEL: testv64i8u:			; AVX512VPOPCNTDQ-LABEL: testv64i8u:
	Show All 32 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AVX-512] Remove patterns that select vmovdqu8/16 for unmasked loads. Prefer vmovdqa64/vmovdqu64 instead.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 108951

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

llvm/trunk/test/CodeGen/X86/avg.ll

llvm/trunk/test/CodeGen/X86/avx2-intrinsics-x86.ll

llvm/trunk/test/CodeGen/X86/avx512-insert-extract.ll

llvm/trunk/test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

llvm/trunk/test/CodeGen/X86/avx512bw-intrinsics.ll

llvm/trunk/test/CodeGen/X86/avx512bw-mov.ll

llvm/trunk/test/CodeGen/X86/avx512bwvl-mov.ll

llvm/trunk/test/CodeGen/X86/nontemporal-loads.ll

llvm/trunk/test/CodeGen/X86/pmul.ll

llvm/trunk/test/CodeGen/X86/sad.ll

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-128.ll

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-256.ll

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-512.ll

llvm/trunk/test/CodeGen/X86/sse42-intrinsics-x86.ll

llvm/trunk/test/CodeGen/X86/ssse3-intrinsics-x86.ll

llvm/trunk/test/CodeGen/X86/subvector-broadcast.ll

llvm/trunk/test/CodeGen/X86/vector-bitreverse.ll

llvm/trunk/test/CodeGen/X86/vector-lzcnt-128.ll

llvm/trunk/test/CodeGen/X86/vector-lzcnt-256.ll

llvm/trunk/test/CodeGen/X86/vector-lzcnt-512.ll

llvm/trunk/test/CodeGen/X86/vector-popcnt-512.ll

llvm/trunk/test/CodeGen/X86/vector-rotate-128.ll

llvm/trunk/test/CodeGen/X86/vector-rotate-256.ll

llvm/trunk/test/CodeGen/X86/vector-rotate-512.ll

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-512.ll

llvm/trunk/test/CodeGen/X86/vector-shift-lshr-512.ll

llvm/trunk/test/CodeGen/X86/vector-shift-shl-512.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v16.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v16.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v32.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v64.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512bw.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512vbmi.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-v1.ll

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

llvm/trunk/test/CodeGen/X86/vector-tzcnt-512.ll

[AVX-512] Remove patterns that select vmovdqu8/16 for unmasked loads. Prefer vmovdqa64/vmovdqu64 instead.
ClosedPublic