This is an archive of the discontinued LLVM Phabricator instance.

[AVX-512] Add support for commuting VPERMT2(B/W/D/Q/PS/PD) to/from VPERMI2(B/W/D/Q/PS/PD).
ClosedPublic

Authored by craig.topper on Oct 15 2016, 10:47 PM.

Download Raw Diff

Details

Reviewers

RKSimon
Ayal
delena
Farhana
igorb

Commits

rGcada9f2275ad: [AVX-512] Add support for commuting VPERMT2(B/W/D/Q/PS/PD) to/from VPERMI2…
rL287621: [AVX-512] Add support for commuting VPERMT2(B/W/D/Q/PS/PD) to/from VPERMI2…

Summary

The index and one of the table operands can be swapped by changing the opcode to the other version. Neither of these operands are the one that can load from memory so this can't be used to increase memory folding opportunities.

We need to handle the unmasked forms and the kz forms. Since the load operand isn't being commuted we can commute the load and broadcast instructions too.

Preprocessor macros are used to reduce the number of lines in the switches, but may have sacrificed some readability.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper updated this revision to Diff 74784.Oct 15 2016, 10:47 PM

craig.topper retitled this revision from to [AVX-512] Add support for commuting VPERMT2(B/W/D/Q/PS/PD) to/from VPERMI2(B/W/D/Q/PS/PD)..

craig.topper updated this object.

craig.topper added reviewers: delena, igorb, RKSimon.

craig.topper added a subscriber: llvm-commits.

This is pretty bulky - worth pulling out into a helper function like was done for getFMA3OpcodeToCommuteOperands ?

Move code into separate functions per Simon's suggestion.

LGTM although it'd be better if you could test vpermi2 -> vpermt2 and some of the memory folding versions of the instruction as well.

This revision is now accepted and ready to land.Oct 19 2016, 4:32 AM

Turns out we weren't properly commuting masked instructions due to findCommutedOpIndices miscalculating for these instructions.

I've also added an additional new test(avx512-vpermv3-commute.ll) to cover commuting these instructions explicitly. Version without commuting with extra moves was commited in r284808. So this patch just shows the moves being removed due to commuting.

craig.topper requested a review of this revision.Oct 20 2016, 11:10 PM

craig.topper edited edge metadata.

VPERMI2Q kills register with indices. I thought that VPERMT2Q is better for loop vectorizer, since we may want to repeat the same shuffle on multiple data.

Hopefully the passes that would ask for commuting would make an intelligent decision about which register is best to kill.

In D25652#577836, @craig.topper wrote:

Hopefully the passes that would ask for commuting would make an intelligent decision about which register is best to kill.

I don't completely trust passes' intelligence. I'd prefer to keep the "vpermt" form by default.

Do you know of cases where passes are doing the wrong thing or is this paranoia?

delena added reviewers: Ayal, Farhana.Oct 25 2016, 1:51 AM

In D25652#578226, @craig.topper wrote:

Do you know of cases where passes are doing the wrong thing or is this paranoia?

I don't want to base any assumption to my paranoia. I'm adding Ayal and Farhana, who is working on optimization of interleaved memory accesses.
The question is what instruction is better by default VPERMT or VPERMI. I initially thought, that VPERMT is better inside loops, since VPERMI kills register with indices.
Using VPERMI will require reloading indices again and again for each iteration.
Ayal, Farhana, what do you think?

Commuting these does appear to be consistent with ICC behavior.

This still LGTM - has any reason been found not to trust the commutation logic?

ping

Context missing but still LGTM. Note - I added extra VBMI lowering VPERMI2B/VPERMT2B lowering/combines recently, they should add extra diffs to this patch.

This revision is now accepted and ready to land.Nov 21 2016, 2:08 AM

Closed by commit rL287621: [AVX-512] Add support for commuting VPERMT2(B/W/D/Q/PS/PD) to/from VPERMI2… (authored by ctopper). · Explain WhyNov 21 2016, 9:07 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86InstrAVX512.td

18 lines

X86InstrInfo.cpp

121 lines

test/

CodeGen/

X86/

avx512-insert-extract.ll

36 lines

avx512-mask-op.ll

8 lines

avx512-vpermv3-commute.ll

87 lines

avx512vbmi-intrinsics.ll

3 lines

avx512vbmivl-intrinsics.ll

6 lines

merge-consecutive-loads-512.ll

64 lines

vector-shuffle-256-v16.ll

52 lines

vector-shuffle-256-v8.ll

28 lines

vector-shuffle-512-v8.ll

104 lines

vector-shuffle-combining-avx512bw.ll

112 lines

vector-shuffle-combining-avx512bwvl.ll

12 lines

vector-shuffle-combining-avx512vbmi.ll

18 lines

vector-shuffle-v1.ll

36 lines

Diff 78829

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,346 Lines • ▼ Show 20 Lines	let Constraints = "$src1 = $dst", ExeDomain = _.ExeDomain in {
// The index operand in the pattern should really be an integer type. However,		// The index operand in the pattern should really be an integer type. However,
// if we do that and it happens to come from a bitcast, then it becomes		// if we do that and it happens to come from a bitcast, then it becomes
// difficult to find the bitcast needed to convert the index to the		// difficult to find the bitcast needed to convert the index to the
// destination type for the passthru since it will be folded with the bitcast		// destination type for the passthru since it will be folded with the bitcast
// of the index operand.		// of the index operand.
defm rr: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),		defm rr: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),
(ins _.RC:$src2, _.RC:$src3),		(ins _.RC:$src2, _.RC:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (X86VPermi2X _.RC:$src1, _.RC:$src2, _.RC:$src3))>, EVEX_4V,		(_.VT (X86VPermi2X _.RC:$src1, _.RC:$src2, _.RC:$src3)), 1>, EVEX_4V,
AVX5128IBase;		AVX5128IBase;

defm rm: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm rm: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins _.RC:$src2, _.MemOp:$src3),		(ins _.RC:$src2, _.MemOp:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (X86VPermi2X _.RC:$src1, _.RC:$src2,		(_.VT (X86VPermi2X _.RC:$src1, _.RC:$src2,
(_.VT (bitconvert (_.LdFrag addr:$src3)))))>,		(_.VT (bitconvert (_.LdFrag addr:$src3))))), 1>,
EVEX_4V, AVX5128IBase;		EVEX_4V, AVX5128IBase;
}		}
}		}
multiclass avx512_perm_i_mb<bits<8> opc, string OpcodeStr,		multiclass avx512_perm_i_mb<bits<8> opc, string OpcodeStr,
X86VectorVTInfo _> {		X86VectorVTInfo _> {
let Constraints = "$src1 = $dst", ExeDomain = _.ExeDomain in		let Constraints = "$src1 = $dst", ExeDomain = _.ExeDomain in
defm rmb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm rmb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins _.RC:$src2, _.ScalarMemOp:$src3),		(ins _.RC:$src2, _.ScalarMemOp:$src3),
OpcodeStr, !strconcat("${src3}", _.BroadcastStr,", $src2"),		OpcodeStr, !strconcat("${src3}", _.BroadcastStr,", $src2"),
!strconcat("$src2, ${src3}", _.BroadcastStr ),		!strconcat("$src2, ${src3}", _.BroadcastStr ),
(_.VT (X86VPermi2X _.RC:$src1,		(_.VT (X86VPermi2X _.RC:$src1,
_.RC:$src2,(_.VT (X86VBroadcast (_.ScalarLdFrag addr:$src3)))))>,		_.RC:$src2,(_.VT (X86VBroadcast (_.ScalarLdFrag addr:$src3))))),
AVX5128IBase, EVEX_4V, EVEX_B;		1>, AVX5128IBase, EVEX_4V, EVEX_B;
}		}

multiclass avx512_perm_i_sizes<bits<8> opc, string OpcodeStr,		multiclass avx512_perm_i_sizes<bits<8> opc, string OpcodeStr,
AVX512VLVectorVTInfo VTInfo> {		AVX512VLVectorVTInfo VTInfo> {
defm NAME: avx512_perm_i<opc, OpcodeStr, VTInfo.info512>,		defm NAME: avx512_perm_i<opc, OpcodeStr, VTInfo.info512>,
avx512_perm_i_mb<opc, OpcodeStr, VTInfo.info512>, EVEX_V512;		avx512_perm_i_mb<opc, OpcodeStr, VTInfo.info512>, EVEX_V512;
let Predicates = [HasVLX] in {		let Predicates = [HasVLX] in {
defm NAME#128: avx512_perm_i<opc, OpcodeStr, VTInfo.info128>,		defm NAME#128: avx512_perm_i<opc, OpcodeStr, VTInfo.info128>,
Show All 31 Lines

// VPERMT2		// VPERMT2
multiclass avx512_perm_t<bits<8> opc, string OpcodeStr,		multiclass avx512_perm_t<bits<8> opc, string OpcodeStr,
X86VectorVTInfo _, X86VectorVTInfo IdxVT> {		X86VectorVTInfo _, X86VectorVTInfo IdxVT> {
let Constraints = "$src1 = $dst", ExeDomain = _.ExeDomain in {		let Constraints = "$src1 = $dst", ExeDomain = _.ExeDomain in {
defm rr: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),		defm rr: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),
(ins IdxVT.RC:$src2, _.RC:$src3),		(ins IdxVT.RC:$src2, _.RC:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (X86VPermt2 _.RC:$src1, IdxVT.RC:$src2, _.RC:$src3))>, EVEX_4V,		(_.VT (X86VPermt2 _.RC:$src1, IdxVT.RC:$src2, _.RC:$src3)), 1>,
AVX5128IBase;		EVEX_4V, AVX5128IBase;

defm rm: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm rm: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins IdxVT.RC:$src2, _.MemOp:$src3),		(ins IdxVT.RC:$src2, _.MemOp:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (X86VPermt2 _.RC:$src1, IdxVT.RC:$src2,		(_.VT (X86VPermt2 _.RC:$src1, IdxVT.RC:$src2,
(bitconvert (_.LdFrag addr:$src3))))>,		(bitconvert (_.LdFrag addr:$src3)))), 1>,
EVEX_4V, AVX5128IBase;		EVEX_4V, AVX5128IBase;
}		}
}		}
multiclass avx512_perm_t_mb<bits<8> opc, string OpcodeStr,		multiclass avx512_perm_t_mb<bits<8> opc, string OpcodeStr,
X86VectorVTInfo _, X86VectorVTInfo IdxVT> {		X86VectorVTInfo _, X86VectorVTInfo IdxVT> {
let Constraints = "$src1 = $dst", ExeDomain = _.ExeDomain in		let Constraints = "$src1 = $dst", ExeDomain = _.ExeDomain in
defm rmb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm rmb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins IdxVT.RC:$src2, _.ScalarMemOp:$src3),		(ins IdxVT.RC:$src2, _.ScalarMemOp:$src3),
OpcodeStr, !strconcat("${src3}", _.BroadcastStr,", $src2"),		OpcodeStr, !strconcat("${src3}", _.BroadcastStr,", $src2"),
!strconcat("$src2, ${src3}", _.BroadcastStr ),		!strconcat("$src2, ${src3}", _.BroadcastStr ),
(_.VT (X86VPermt2 _.RC:$src1,		(_.VT (X86VPermt2 _.RC:$src1,
IdxVT.RC:$src2,(_.VT (X86VBroadcast (_.ScalarLdFrag addr:$src3)))))>,		IdxVT.RC:$src2,(_.VT (X86VBroadcast (_.ScalarLdFrag addr:$src3))))),
AVX5128IBase, EVEX_4V, EVEX_B;		1>, AVX5128IBase, EVEX_4V, EVEX_B;
}		}

multiclass avx512_perm_t_sizes<bits<8> opc, string OpcodeStr,		multiclass avx512_perm_t_sizes<bits<8> opc, string OpcodeStr,
AVX512VLVectorVTInfo VTInfo,		AVX512VLVectorVTInfo VTInfo,
AVX512VLVectorVTInfo ShuffleMask> {		AVX512VLVectorVTInfo ShuffleMask> {
defm NAME: avx512_perm_t<opc, OpcodeStr, VTInfo.info512,		defm NAME: avx512_perm_t<opc, OpcodeStr, VTInfo.info512,
ShuffleMask.info512>,		ShuffleMask.info512>,
avx512_perm_t_mb<opc, OpcodeStr, VTInfo.info512,		avx512_perm_t_mb<opc, OpcodeStr, VTInfo.info512,
▲ Show 20 Lines • Show All 7,606 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,527 Lines • ▼ Show 20 Lines	static bool commuteVPTERNLOG(MachineInstr &MI, unsigned SrcOpIdx1,
if (Imm & SwapMasks[Case][1]) NewImm \|= SwapMasks[Case][0];		if (Imm & SwapMasks[Case][1]) NewImm \|= SwapMasks[Case][0];
if (Imm & SwapMasks[Case][2]) NewImm \|= SwapMasks[Case][3];		if (Imm & SwapMasks[Case][2]) NewImm \|= SwapMasks[Case][3];
if (Imm & SwapMasks[Case][3]) NewImm \|= SwapMasks[Case][2];		if (Imm & SwapMasks[Case][3]) NewImm \|= SwapMasks[Case][2];
MI.getOperand(MI.getNumOperands()-1).setImm(NewImm);		MI.getOperand(MI.getNumOperands()-1).setImm(NewImm);

return true;		return true;
}		}

		// Returns true if this is a VPERMI2 or VPERMT2 instrution that can be
		// commuted.
		static bool isCommutableVPERMV3Instruction(unsigned Opcode) {
		#define VPERM_CASES(Suffix) \
		case X86::VPERMI2##Suffix##128rr: case X86::VPERMT2##Suffix##128rr: \
		case X86::VPERMI2##Suffix##256rr: case X86::VPERMT2##Suffix##256rr: \
		case X86::VPERMI2##Suffix##rr: case X86::VPERMT2##Suffix##rr: \
		case X86::VPERMI2##Suffix##128rm: case X86::VPERMT2##Suffix##128rm: \
		case X86::VPERMI2##Suffix##256rm: case X86::VPERMT2##Suffix##256rm: \
		case X86::VPERMI2##Suffix##rm: case X86::VPERMT2##Suffix##rm: \
		case X86::VPERMI2##Suffix##128rrkz: case X86::VPERMT2##Suffix##128rrkz: \
		case X86::VPERMI2##Suffix##256rrkz: case X86::VPERMT2##Suffix##256rrkz: \
		case X86::VPERMI2##Suffix##rrkz: case X86::VPERMT2##Suffix##rrkz: \
		case X86::VPERMI2##Suffix##128rmkz: case X86::VPERMT2##Suffix##128rmkz: \
		case X86::VPERMI2##Suffix##256rmkz: case X86::VPERMT2##Suffix##256rmkz: \
		case X86::VPERMI2##Suffix##rmkz: case X86::VPERMT2##Suffix##rmkz:

		#define VPERM_CASES_BROADCAST(Suffix) \
		VPERM_CASES(Suffix) \
		case X86::VPERMI2##Suffix##128rmb: case X86::VPERMT2##Suffix##128rmb: \
		case X86::VPERMI2##Suffix##256rmb: case X86::VPERMT2##Suffix##256rmb: \
		case X86::VPERMI2##Suffix##rmb: case X86::VPERMT2##Suffix##rmb: \
		case X86::VPERMI2##Suffix##128rmbkz: case X86::VPERMT2##Suffix##128rmbkz: \
		case X86::VPERMI2##Suffix##256rmbkz: case X86::VPERMT2##Suffix##256rmbkz: \
		case X86::VPERMI2##Suffix##rmbkz: case X86::VPERMT2##Suffix##rmbkz:

		switch (Opcode) {
		default: return false;
		VPERM_CASES(B)
		VPERM_CASES_BROADCAST(D)
		VPERM_CASES_BROADCAST(PD)
		VPERM_CASES_BROADCAST(PS)
		VPERM_CASES_BROADCAST(Q)
		VPERM_CASES(W)
		return true;
		}
		#undef VPERM_CASES_BROADCAST
		#undef VPERM_CASES
		}

		// Returns commuted opcode for VPERMI2 and VPERMT2 instructions by switching
		// from the I opcod to the T opcode and vice versa.
		static unsigned getCommutedVPERMV3Opcode(unsigned Opcode) {
		#define VPERM_CASES(Orig, New) \
		case X86::Orig##128rr: return X86::New##128rr; \
		case X86::Orig##128rrkz: return X86::New##128rrkz; \
		case X86::Orig##128rm: return X86::New##128rm; \
		case X86::Orig##128rmkz: return X86::New##128rmkz; \
		case X86::Orig##256rr: return X86::New##256rr; \
		case X86::Orig##256rrkz: return X86::New##256rrkz; \
		case X86::Orig##256rm: return X86::New##256rm; \
		case X86::Orig##256rmkz: return X86::New##256rmkz; \
		case X86::Orig##rr: return X86::New##rr; \
		case X86::Orig##rrkz: return X86::New##rrkz; \
		case X86::Orig##rm: return X86::New##rm; \
		case X86::Orig##rmkz: return X86::New##rmkz;

		#define VPERM_CASES_BROADCAST(Orig, New) \
		VPERM_CASES(Orig, New) \
		case X86::Orig##128rmb: return X86::New##128rmb; \
		case X86::Orig##128rmbkz: return X86::New##128rmbkz; \
		case X86::Orig##256rmb: return X86::New##256rmb; \
		case X86::Orig##256rmbkz: return X86::New##256rmbkz; \
		case X86::Orig##rmb: return X86::New##rmb; \
		case X86::Orig##rmbkz: return X86::New##rmbkz;

		switch (Opcode) {
		VPERM_CASES(VPERMI2B, VPERMT2B)
		VPERM_CASES_BROADCAST(VPERMI2D, VPERMT2D)
		VPERM_CASES_BROADCAST(VPERMI2PD, VPERMT2PD)
		VPERM_CASES_BROADCAST(VPERMI2PS, VPERMT2PS)
		VPERM_CASES_BROADCAST(VPERMI2Q, VPERMT2Q)
		VPERM_CASES(VPERMI2W, VPERMT2W)
		VPERM_CASES(VPERMT2B, VPERMI2B)
		VPERM_CASES_BROADCAST(VPERMT2D, VPERMI2D)
		VPERM_CASES_BROADCAST(VPERMT2PD, VPERMI2PD)
		VPERM_CASES_BROADCAST(VPERMT2PS, VPERMI2PS)
		VPERM_CASES_BROADCAST(VPERMT2Q, VPERMI2Q)
		VPERM_CASES(VPERMT2W, VPERMI2W)
		}

		llvm_unreachable("Unreachable!");
		#undef VPERM_CASES_BROADCAST
		#undef VPERM_CASES
		}

MachineInstr *X86InstrInfo::commuteInstructionImpl(MachineInstr &MI, bool NewMI,		MachineInstr *X86InstrInfo::commuteInstructionImpl(MachineInstr &MI, bool NewMI,
unsigned OpIdx1,		unsigned OpIdx1,
unsigned OpIdx2) const {		unsigned OpIdx2) const {
auto cloneIfNew = [NewMI](MachineInstr &MI) -> MachineInstr & {		auto cloneIfNew = [NewMI](MachineInstr &MI) -> MachineInstr & {
if (NewMI)		if (NewMI)
return *MI.getParent()->getParent()->CloneMachineInstr(&MI);		return *MI.getParent()->getParent()->CloneMachineInstr(&MI);
return MI;		return MI;
};		};
▲ Show 20 Lines • Show All 305 Lines • ▼ Show 20 Lines	MachineInstr *X86InstrInfo::commuteInstructionImpl(MachineInstr &MI, bool NewMI,
case X86::VPTERNLOGQZ128rrikz: case X86::VPTERNLOGQZ128rmikz:		case X86::VPTERNLOGQZ128rrikz: case X86::VPTERNLOGQZ128rmikz:
case X86::VPTERNLOGQZ256rrikz: case X86::VPTERNLOGQZ256rmikz: {		case X86::VPTERNLOGQZ256rrikz: case X86::VPTERNLOGQZ256rmikz: {
auto &WorkingMI = cloneIfNew(MI);		auto &WorkingMI = cloneIfNew(MI);
if (!commuteVPTERNLOG(WorkingMI, OpIdx1, OpIdx2))		if (!commuteVPTERNLOG(WorkingMI, OpIdx1, OpIdx2))
return nullptr;		return nullptr;
return TargetInstrInfo::commuteInstructionImpl(WorkingMI, /NewMI=/false,		return TargetInstrInfo::commuteInstructionImpl(WorkingMI, /NewMI=/false,
OpIdx1, OpIdx2);		OpIdx1, OpIdx2);
}		}
default:		default: {
		if (isCommutableVPERMV3Instruction(MI.getOpcode())) {
		unsigned Opc = getCommutedVPERMV3Opcode(MI.getOpcode());
		auto &WorkingMI = cloneIfNew(MI);
		WorkingMI.setDesc(get(Opc));
		return TargetInstrInfo::commuteInstructionImpl(WorkingMI, /NewMI=/false,
		OpIdx1, OpIdx2);
		}

const X86InstrFMA3Group *FMA3Group =		const X86InstrFMA3Group *FMA3Group =
X86InstrFMA3Info::getFMA3Group(MI.getOpcode());		X86InstrFMA3Info::getFMA3Group(MI.getOpcode());
if (FMA3Group) {		if (FMA3Group) {
unsigned Opc =		unsigned Opc =
getFMA3OpcodeToCommuteOperands(MI, OpIdx1, OpIdx2, *FMA3Group);		getFMA3OpcodeToCommuteOperands(MI, OpIdx1, OpIdx2, *FMA3Group);
if (Opc == 0)		if (Opc == 0)
return nullptr;		return nullptr;
auto &WorkingMI = cloneIfNew(MI);		auto &WorkingMI = cloneIfNew(MI);
WorkingMI.setDesc(get(Opc));		WorkingMI.setDesc(get(Opc));
return TargetInstrInfo::commuteInstructionImpl(WorkingMI, /NewMI=/false,		return TargetInstrInfo::commuteInstructionImpl(WorkingMI, /NewMI=/false,
OpIdx1, OpIdx2);		OpIdx1, OpIdx2);
}		}

return TargetInstrInfo::commuteInstructionImpl(MI, NewMI, OpIdx1, OpIdx2);		return TargetInstrInfo::commuteInstructionImpl(MI, NewMI, OpIdx1, OpIdx2);
}		}
}		}
		}

bool X86InstrInfo::findFMA3CommutedOpIndices(		bool X86InstrInfo::findFMA3CommutedOpIndices(
const MachineInstr &MI, unsigned &SrcOpIdx1, unsigned &SrcOpIdx2,		const MachineInstr &MI, unsigned &SrcOpIdx1, unsigned &SrcOpIdx2,
const X86InstrFMA3Group &FMA3Group) const {		const X86InstrFMA3Group &FMA3Group) const {

if (!findThreeSrcCommutedOpIndices(MI, SrcOpIdx1, SrcOpIdx2))		if (!findThreeSrcCommutedOpIndices(MI, SrcOpIdx1, SrcOpIdx2))
return false;		return false;

▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines	default:
const X86InstrFMA3Group *FMA3Group =		const X86InstrFMA3Group *FMA3Group =
X86InstrFMA3Info::getFMA3Group(MI.getOpcode());		X86InstrFMA3Info::getFMA3Group(MI.getOpcode());
if (FMA3Group)		if (FMA3Group)
return findFMA3CommutedOpIndices(MI, SrcOpIdx1, SrcOpIdx2, *FMA3Group);		return findFMA3CommutedOpIndices(MI, SrcOpIdx1, SrcOpIdx2, *FMA3Group);

// Handled masked instructions since we need to skip over the mask input		// Handled masked instructions since we need to skip over the mask input
// and the preserved input.		// and the preserved input.
if (Desc.TSFlags & X86II::EVEX_K) {		if (Desc.TSFlags & X86II::EVEX_K) {
		// First assume that the first input is the mask operand and skip past it.
unsigned CommutableOpIdx1 = Desc.getNumDefs() + 1;		unsigned CommutableOpIdx1 = Desc.getNumDefs() + 1;
// If there is no preserved input we only need to skip 1 operand.		unsigned CommutableOpIdx2 = Desc.getNumDefs() + 2;
if (MI.getDesc().getOperandConstraint(Desc.getNumDefs(),		// Check if the first input is tied. If there isn't one then we only
MCOI::TIED_TO) != -1)		// need to skip the mask operand which we did above.
		if ((MI.getDesc().getOperandConstraint(Desc.getNumDefs(),
		MCOI::TIED_TO) != -1)) {
		// If this is zero masking instruction with a tied operand, we need to
		// move the first index back to the first input since this must
		// be a 3 input instruction and we want the first two non-mask inputs.
		// Otherwise this is a 2 input instruction with a preserved input and
		// mask, so we need to move the indices to skip one more input.
		if (Desc.TSFlags & X86II::EVEX_Z)
		--CommutableOpIdx1;
		else {
++CommutableOpIdx1;		++CommutableOpIdx1;
unsigned CommutableOpIdx2 = CommutableOpIdx1 + 1;		++CommutableOpIdx2;
		}
		}

if (!fixCommutedOpIndices(SrcOpIdx1, SrcOpIdx2,		if (!fixCommutedOpIndices(SrcOpIdx1, SrcOpIdx2,
CommutableOpIdx1, CommutableOpIdx2))		CommutableOpIdx1, CommutableOpIdx2))
return false;		return false;

if (!MI.getOperand(SrcOpIdx1).isReg() \|\|		if (!MI.getOperand(SrcOpIdx1).isReg() \|\|
!MI.getOperand(SrcOpIdx2).isReg())		!MI.getOperand(SrcOpIdx2).isReg())
// No idea.		// No idea.
return false;		return false;
▲ Show 20 Lines • Show All 4,872 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-insert-extract.ll

	Show First 20 Lines • Show All 363 Lines • ▼ Show 20 Lines
	; KNL-NEXT: movzbl (%rdi), %eax			; KNL-NEXT: movzbl (%rdi), %eax
	; KNL-NEXT: andl $1, %eax			; KNL-NEXT: andl $1, %eax
	; KNL-NEXT: kmovw %eax, %k1			; KNL-NEXT: kmovw %eax, %k1
	; KNL-NEXT: kmovw %esi, %k2			; KNL-NEXT: kmovw %esi, %k2
	; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; KNL-NEXT: vmovdqa32 %zmm0, %zmm1 {%k2} {z}			; KNL-NEXT: vmovdqa32 %zmm0, %zmm1 {%k2} {z}
	; KNL-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}			; KNL-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}
	; KNL-NEXT: vmovdqa32 {{.*#+}} zmm2 = [0,1,2,3,4,5,6,7,8,9,16,11,12,13,14,15]			; KNL-NEXT: vmovdqa32 {{.*#+}} zmm2 = [0,1,2,3,4,5,6,7,8,9,16,11,12,13,14,15]
	; KNL-NEXT: vpermt2d %zmm0, %zmm2, %zmm1			; KNL-NEXT: vpermi2d %zmm0, %zmm1, %zmm2
	; KNL-NEXT: vpslld $31, %zmm1, %zmm0			; KNL-NEXT: vpslld $31, %zmm2, %zmm0
	; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0			; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test16:			; SKX-LABEL: test16:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: movzbl (%rdi), %eax			; SKX-NEXT: movzbl (%rdi), %eax
	; SKX-NEXT: andl $1, %eax			; SKX-NEXT: andl $1, %eax
	; SKX-NEXT: kmovd %eax, %k0			; SKX-NEXT: kmovd %eax, %k0
	; SKX-NEXT: kmovw %esi, %k1			; SKX-NEXT: kmovw %esi, %k1
	; SKX-NEXT: vpmovm2d %k1, %zmm0			; SKX-NEXT: vpmovm2d %k1, %zmm0
	; SKX-NEXT: vpmovm2d %k0, %zmm1			; SKX-NEXT: vpmovm2d %k0, %zmm1
	; SKX-NEXT: vmovdqa32 {{.*#+}} zmm2 = [0,1,2,3,4,5,6,7,8,9,16,11,12,13,14,15]			; SKX-NEXT: vmovdqa32 {{.*#+}} zmm2 = [0,1,2,3,4,5,6,7,8,9,16,11,12,13,14,15]
	; SKX-NEXT: vpermt2d %zmm1, %zmm2, %zmm0			; SKX-NEXT: vpermi2d %zmm1, %zmm0, %zmm2
	; SKX-NEXT: vpmovd2m %zmm0, %k0			; SKX-NEXT: vpmovd2m %zmm2, %k0
	; SKX-NEXT: kmovw %k0, %eax			; SKX-NEXT: kmovw %k0, %eax
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x = load i1 , i1 * %addr, align 128			%x = load i1 , i1 * %addr, align 128
	%a1 = bitcast i16 %a to <16 x i1>			%a1 = bitcast i16 %a to <16 x i1>
	%x1 = insertelement <16 x i1> %a1, i1 %x, i32 10			%x1 = insertelement <16 x i1> %a1, i1 %x, i32 10
	%x2 = bitcast <16 x i1>%x1 to i16			%x2 = bitcast <16 x i1>%x1 to i16
	ret i16 %x2			ret i16 %x2
	}			}

	define i8 @test17(i1 *%addr, i8 %a) {			define i8 @test17(i1 *%addr, i8 %a) {
	; KNL-LABEL: test17:			; KNL-LABEL: test17:
	; KNL: ## BB#0:			; KNL: ## BB#0:
	; KNL-NEXT: movzbl (%rdi), %eax			; KNL-NEXT: movzbl (%rdi), %eax
	; KNL-NEXT: andl $1, %eax			; KNL-NEXT: andl $1, %eax
	; KNL-NEXT: kmovw %eax, %k1			; KNL-NEXT: kmovw %eax, %k1
	; KNL-NEXT: kmovw %esi, %k2			; KNL-NEXT: kmovw %esi, %k2
	; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; KNL-NEXT: vmovdqa64 %zmm0, %zmm1 {%k2} {z}			; KNL-NEXT: vmovdqa64 %zmm0, %zmm1 {%k2} {z}
	; KNL-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}			; KNL-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}
	; KNL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,1,2,3,8,5,6,7]			; KNL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,1,2,3,8,5,6,7]
	; KNL-NEXT: vpermt2q %zmm0, %zmm2, %zmm1			; KNL-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
	; KNL-NEXT: vpsllq $63, %zmm1, %zmm0			; KNL-NEXT: vpsllq $63, %zmm2, %zmm0
	; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0			; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test17:			; SKX-LABEL: test17:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: movzbl (%rdi), %eax			; SKX-NEXT: movzbl (%rdi), %eax
	; SKX-NEXT: andl $1, %eax			; SKX-NEXT: andl $1, %eax
	; SKX-NEXT: kmovd %eax, %k0			; SKX-NEXT: kmovd %eax, %k0
	; SKX-NEXT: kmovb %esi, %k1			; SKX-NEXT: kmovb %esi, %k1
	; SKX-NEXT: vpmovm2q %k1, %zmm0			; SKX-NEXT: vpmovm2q %k1, %zmm0
	; SKX-NEXT: vpmovm2q %k0, %zmm1			; SKX-NEXT: vpmovm2q %k0, %zmm1
	; SKX-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,1,2,3,8,5,6,7]			; SKX-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,1,2,3,8,5,6,7]
	; SKX-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; SKX-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; SKX-NEXT: vpmovq2m %zmm0, %k0			; SKX-NEXT: vpmovq2m %zmm2, %k0
	; SKX-NEXT: kmovb %k0, %eax			; SKX-NEXT: kmovb %k0, %eax
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x = load i1 , i1 * %addr, align 128			%x = load i1 , i1 * %addr, align 128
	%a1 = bitcast i8 %a to <8 x i1>			%a1 = bitcast i8 %a to <8 x i1>
	%x1 = insertelement <8 x i1> %a1, i1 %x, i32 4			%x1 = insertelement <8 x i1> %a1, i1 %x, i32 4
	%x2 = bitcast <8 x i1>%x1 to i8			%x2 = bitcast <8 x i1>%x1 to i8
	ret i8 %x2			ret i8 %x2
	}			}
	▲ Show 20 Lines • Show All 778 Lines • ▼ Show 20 Lines
	; SKX-NEXT: andl $1, %eax			; SKX-NEXT: andl $1, %eax
	; SKX-NEXT: kmovw %eax, %k0			; SKX-NEXT: kmovw %eax, %k0
	; SKX-NEXT: vpcmpltud %zmm2, %zmm0, %k1			; SKX-NEXT: vpcmpltud %zmm2, %zmm0, %k1
	; SKX-NEXT: vpcmpltud %zmm3, %zmm1, %k2			; SKX-NEXT: vpcmpltud %zmm3, %zmm1, %k2
	; SKX-NEXT: kunpckwd %k1, %k2, %k1			; SKX-NEXT: kunpckwd %k1, %k2, %k1
	; SKX-NEXT: vpmovm2w %k1, %zmm0			; SKX-NEXT: vpmovm2w %k1, %zmm0
	; SKX-NEXT: vpmovm2w %k0, %zmm1			; SKX-NEXT: vpmovm2w %k0, %zmm1
	; SKX-NEXT: vmovdqu16 {{.*#+}} zmm2 = [0,1,2,3,32,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31]			; SKX-NEXT: vmovdqu16 {{.*#+}} zmm2 = [0,1,2,3,32,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31]
	; SKX-NEXT: vpermt2w %zmm1, %zmm2, %zmm0			; SKX-NEXT: vpermi2w %zmm1, %zmm0, %zmm2
	; SKX-NEXT: vpmovw2m %zmm0, %k0			; SKX-NEXT: vpmovw2m %zmm2, %k0
	; SKX-NEXT: kmovd %k0, %eax			; SKX-NEXT: kmovd %k0, %eax
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%cmp_res_i1 = icmp ult i32 %a, %b			%cmp_res_i1 = icmp ult i32 %a, %b
	%cmp_cmp_vec = icmp ult <32 x i32> %x, %y			%cmp_cmp_vec = icmp ult <32 x i32> %x, %y
	%maskv = insertelement <32 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 4			%maskv = insertelement <32 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 4
	%res = bitcast <32 x i1> %maskv to i32			%res = bitcast <32 x i1> %maskv to i32
	ret i32 %res			ret i32 %res
	}			}
	Show All 14 Lines
	; KNL-NEXT: kmovw %eax, %k2			; KNL-NEXT: kmovw %eax, %k2
	; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1			; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
	; KNL-NEXT: vmovdqa64 %zmm1, %zmm2 {%k2} {z}			; KNL-NEXT: vmovdqa64 %zmm1, %zmm2 {%k2} {z}
	; KNL-NEXT: vmovd %xmm0, %eax			; KNL-NEXT: vmovd %xmm0, %eax
	; KNL-NEXT: andl $1, %eax			; KNL-NEXT: andl $1, %eax
	; KNL-NEXT: kmovw %eax, %k2			; KNL-NEXT: kmovw %eax, %k2
	; KNL-NEXT: vmovdqa64 %zmm1, %zmm3 {%k2} {z}			; KNL-NEXT: vmovdqa64 %zmm1, %zmm3 {%k2} {z}
	; KNL-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,8,2,3,4,5,6,7]			; KNL-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,8,2,3,4,5,6,7]
	; KNL-NEXT: vpermt2q %zmm2, %zmm4, %zmm3			; KNL-NEXT: vpermi2q %zmm2, %zmm3, %zmm4
	; KNL-NEXT: vpsllq $63, %zmm3, %zmm2			; KNL-NEXT: vpsllq $63, %zmm4, %zmm2
	; KNL-NEXT: vptestmq %zmm2, %zmm2, %k2			; KNL-NEXT: vptestmq %zmm2, %zmm2, %k2
	; KNL-NEXT: vmovdqa64 %zmm1, %zmm2 {%k2} {z}			; KNL-NEXT: vmovdqa64 %zmm1, %zmm2 {%k2} {z}
	; KNL-NEXT: vmovdqa64 %zmm1, %zmm3 {%k1} {z}			; KNL-NEXT: vmovdqa64 %zmm1, %zmm3 {%k1} {z}
	; KNL-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,8,3,4,5,6,7]			; KNL-NEXT: vmovdqa64 {{.*#+}} zmm4 = [0,1,8,3,4,5,6,7]
	; KNL-NEXT: vpermt2q %zmm3, %zmm4, %zmm2			; KNL-NEXT: vpermi2q %zmm3, %zmm2, %zmm4
	; KNL-NEXT: vpsllq $63, %zmm2, %zmm2			; KNL-NEXT: vpsllq $63, %zmm4, %zmm2
	; KNL-NEXT: vptestmq %zmm2, %zmm2, %k1			; KNL-NEXT: vptestmq %zmm2, %zmm2, %k1
	; KNL-NEXT: vmovdqa64 %zmm1, %zmm2 {%k1} {z}			; KNL-NEXT: vmovdqa64 %zmm1, %zmm2 {%k1} {z}
	; KNL-NEXT: vpextrd $3, %xmm0, %eax			; KNL-NEXT: vpextrd $3, %xmm0, %eax
	; KNL-NEXT: andl $1, %eax			; KNL-NEXT: andl $1, %eax
	; KNL-NEXT: kmovw %eax, %k1			; KNL-NEXT: kmovw %eax, %k1
	; KNL-NEXT: vmovdqa64 %zmm1, %zmm0 {%k1} {z}			; KNL-NEXT: vmovdqa64 %zmm1, %zmm0 {%k1} {z}
	; KNL-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,1,2,8,4,5,6,7]			; KNL-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,1,2,8,4,5,6,7]
	; KNL-NEXT: vpermt2q %zmm0, %zmm1, %zmm2			; KNL-NEXT: vpermi2q %zmm0, %zmm2, %zmm1
	; KNL-NEXT: vpsllq $63, %zmm2, %zmm0			; KNL-NEXT: vpsllq $63, %zmm1, %zmm0
	; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0			; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test_iinsertelement_v4i1:			; SKX-LABEL: test_iinsertelement_v4i1:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: cmpl %esi, %edi			; SKX-NEXT: cmpl %esi, %edi
	; SKX-NEXT: setb %al			; SKX-NEXT: setb %al
	Show All 28 Lines
	; KNL-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0			; KNL-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0
	; KNL-NEXT: vmovq %xmm0, %rax			; KNL-NEXT: vmovq %xmm0, %rax
	; KNL-NEXT: andl $1, %eax			; KNL-NEXT: andl $1, %eax
	; KNL-NEXT: kmovw %eax, %k2			; KNL-NEXT: kmovw %eax, %k2
	; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; KNL-NEXT: vmovdqa64 %zmm0, %zmm1 {%k2} {z}			; KNL-NEXT: vmovdqa64 %zmm0, %zmm1 {%k2} {z}
	; KNL-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}			; KNL-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}
	; KNL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,8,2,3,4,5,6,7]			; KNL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,8,2,3,4,5,6,7]
	; KNL-NEXT: vpermt2q %zmm0, %zmm2, %zmm1			; KNL-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
	; KNL-NEXT: vpsllq $63, %zmm1, %zmm0			; KNL-NEXT: vpsllq $63, %zmm2, %zmm0
	; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0			; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test_iinsertelement_v2i1:			; SKX-LABEL: test_iinsertelement_v2i1:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: cmpl %esi, %edi			; SKX-NEXT: cmpl %esi, %edi
	; SKX-NEXT: setb %al			; SKX-NEXT: setb %al
	▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-mask-op.ll

	Show First 20 Lines • Show All 637 Lines • ▼ Show 20 Lines
	; KNL-NEXT: kshiftlw $7, %k2, %k0			; KNL-NEXT: kshiftlw $7, %k2, %k0
	; KNL-NEXT: kshiftrw $15, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kshiftlw $6, %k2, %k2			; KNL-NEXT: kshiftlw $6, %k2, %k2
	; KNL-NEXT: kshiftrw $15, %k2, %k2			; KNL-NEXT: kshiftrw $15, %k2, %k2
	; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; KNL-NEXT: vmovdqa64 %zmm0, %zmm1 {%k1} {z}			; KNL-NEXT: vmovdqa64 %zmm0, %zmm1 {%k1} {z}
	; KNL-NEXT: vmovdqa64 %zmm0, %zmm2 {%k2} {z}			; KNL-NEXT: vmovdqa64 %zmm0, %zmm2 {%k2} {z}
	; KNL-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,2,3,4,5,8,7]			; KNL-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,2,3,4,5,8,7]
	; KNL-NEXT: vpermt2q %zmm2, %zmm3, %zmm1			; KNL-NEXT: vpermi2q %zmm2, %zmm1, %zmm3
	; KNL-NEXT: vpsllq $63, %zmm1, %zmm1			; KNL-NEXT: vpsllq $63, %zmm3, %zmm1
	; KNL-NEXT: vptestmq %zmm1, %zmm1, %k1			; KNL-NEXT: vptestmq %zmm1, %zmm1, %k1
	; KNL-NEXT: kshiftlw $1, %k1, %k1			; KNL-NEXT: kshiftlw $1, %k1, %k1
	; KNL-NEXT: kshiftrw $1, %k1, %k1			; KNL-NEXT: kshiftrw $1, %k1, %k1
	; KNL-NEXT: kshiftlw $7, %k0, %k0			; KNL-NEXT: kshiftlw $7, %k0, %k0
	; KNL-NEXT: korw %k0, %k1, %k1			; KNL-NEXT: korw %k0, %k1, %k1
	; KNL-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}			; KNL-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}
	; KNL-NEXT: vpmovqw %zmm0, %xmm0			; KNL-NEXT: vpmovqw %zmm0, %xmm0
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test18:			; SKX-LABEL: test18:
	; SKX: ## BB#0:			; SKX: ## BB#0:
	; SKX-NEXT: kmovb %edi, %k0			; SKX-NEXT: kmovb %edi, %k0
	; SKX-NEXT: kmovw %esi, %k1			; SKX-NEXT: kmovw %esi, %k1
	; SKX-NEXT: kshiftlw $7, %k1, %k2			; SKX-NEXT: kshiftlw $7, %k1, %k2
	; SKX-NEXT: kshiftrw $15, %k2, %k2			; SKX-NEXT: kshiftrw $15, %k2, %k2
	; SKX-NEXT: kshiftlw $6, %k1, %k1			; SKX-NEXT: kshiftlw $6, %k1, %k1
	; SKX-NEXT: kshiftrw $15, %k1, %k1			; SKX-NEXT: kshiftrw $15, %k1, %k1
	; SKX-NEXT: vpmovm2q %k0, %zmm0			; SKX-NEXT: vpmovm2q %k0, %zmm0
	; SKX-NEXT: vpmovm2q %k1, %zmm1			; SKX-NEXT: vpmovm2q %k1, %zmm1
	; SKX-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,1,2,3,4,5,8,7]			; SKX-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,1,2,3,4,5,8,7]
	; SKX-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; SKX-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; SKX-NEXT: vpmovq2m %zmm0, %k0			; SKX-NEXT: vpmovq2m %zmm2, %k0
	; SKX-NEXT: kshiftlb $1, %k0, %k0			; SKX-NEXT: kshiftlb $1, %k0, %k0
	; SKX-NEXT: kshiftrb $1, %k0, %k0			; SKX-NEXT: kshiftrb $1, %k0, %k0
	; SKX-NEXT: kshiftlb $7, %k2, %k1			; SKX-NEXT: kshiftlb $7, %k2, %k1
	; SKX-NEXT: korb %k1, %k0, %k0			; SKX-NEXT: korb %k1, %k0, %k0
	; SKX-NEXT: vpmovm2w %k0, %xmm0			; SKX-NEXT: vpmovm2w %k0, %xmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%b = bitcast i8 %a to <8 x i1>			%b = bitcast i8 %a to <8 x i1>
	%b1 = bitcast i16 %y to <16 x i1>			%b1 = bitcast i16 %y to <16 x i1>
	▲ Show 20 Lines • Show All 1,325 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-vpermv3-commute.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=cannonlake \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=cannonlake \| FileCheck %s

	; These test cases demonstrate cases where vpermt2/vpermi2 could benefit from being commuted.			; These test cases demonstrate cases where vpermt2/vpermi2 could benefit from being commuted.

	declare <16 x i32> @llvm.x86.avx512.mask.vpermi2var.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)			declare <16 x i32> @llvm.x86.avx512.mask.vpermi2var.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)

	define <16 x i32>@test_int_x86_avx512_mask_vpermi2var_d_512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32>* %x2p) {			define <16 x i32>@test_int_x86_avx512_mask_vpermi2var_d_512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32>* %x2p) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_d_512:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_d_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2d (%rdi), %zmm0, %zmm1			; CHECK-NEXT: vpermt2d (%rdi), %zmm1, %zmm0
	; CHECK-NEXT: vmovdqa64 %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2 = load <16 x i32>, <16 x i32>* %x2p			%x2 = load <16 x i32>, <16 x i32>* %x2p
	%res = call <16 x i32> @llvm.x86.avx512.mask.vpermi2var.d.512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2, i16 -1)			%res = call <16 x i32> @llvm.x86.avx512.mask.vpermi2var.d.512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2, i16 -1)
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	declare <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double>, <8 x i64>, <8 x double>, i8)			declare <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double>, <8 x i64>, <8 x double>, i8)

	define <8 x double>@test_int_x86_avx512_mask_vpermi2var_pd_512(<8 x double> %x0, <8 x i64> %x1, <8 x double> %x2) {			define <8 x double>@test_int_x86_avx512_mask_vpermi2var_pd_512(<8 x double> %x0, <8 x i64> %x1, <8 x double> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_pd_512:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_pd_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2pd %zmm2, %zmm0, %zmm1			; CHECK-NEXT: vpermt2pd %zmm2, %zmm1, %zmm0
	; CHECK-NEXT: vmovapd %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double> %x0, <8 x i64> %x1, <8 x double> %x2, i8 -1)			%res = call <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double> %x0, <8 x i64> %x1, <8 x double> %x2, i8 -1)
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	declare <16 x float> @llvm.x86.avx512.mask.vpermi2var.ps.512(<16 x float>, <16 x i32>, <16 x float>, i16)			declare <16 x float> @llvm.x86.avx512.mask.vpermi2var.ps.512(<16 x float>, <16 x i32>, <16 x float>, i16)

	define <16 x float>@test_int_x86_avx512_mask_vpermi2var_ps_512(<16 x float> %x0, <16 x i32> %x1, <16 x float> %x2) {			define <16 x float>@test_int_x86_avx512_mask_vpermi2var_ps_512(<16 x float> %x0, <16 x i32> %x1, <16 x float> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_512:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2ps %zmm2, %zmm0, %zmm1			; CHECK-NEXT: vpermt2ps %zmm2, %zmm1, %zmm0
	; CHECK-NEXT: vmovaps %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512.mask.vpermi2var.ps.512(<16 x float> %x0, <16 x i32> %x1, <16 x float> %x2, i16 -1)			%res = call <16 x float> @llvm.x86.avx512.mask.vpermi2var.ps.512(<16 x float> %x0, <16 x i32> %x1, <16 x float> %x2, i16 -1)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	declare <8 x i64> @llvm.x86.avx512.mask.vpermi2var.q.512(<8 x i64>, <8 x i64>, <8 x i64>, i8)			declare <8 x i64> @llvm.x86.avx512.mask.vpermi2var.q.512(<8 x i64>, <8 x i64>, <8 x i64>, i8)

	define <8 x i64>@test_int_x86_avx512_mask_vpermi2var_q_512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2) {			define <8 x i64>@test_int_x86_avx512_mask_vpermi2var_q_512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_q_512:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_q_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2q %zmm2, %zmm0, %zmm1			; CHECK-NEXT: vpermt2q %zmm2, %zmm1, %zmm0
	; CHECK-NEXT: vmovdqa64 %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x i64> @llvm.x86.avx512.mask.vpermi2var.q.512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2, i8 -1)			%res = call <8 x i64> @llvm.x86.avx512.mask.vpermi2var.q.512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2, i8 -1)
	ret <8 x i64> %res			ret <8 x i64> %res
	}			}

	declare <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)			declare <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)

	define <16 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32>* %x2p, i16 %x3) {			define <16 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32>* %x2p, i16 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_512:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovw %esi, %k1			; CHECK-NEXT: kmovw %esi, %k1
	; CHECK-NEXT: vpermt2d (%rdi), %zmm0, %zmm1 {%k1} {z}			; CHECK-NEXT: vpermi2d (%rdi), %zmm1, %zmm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2 = load <16 x i32>, <16 x i32>* %x2p			%x2 = load <16 x i32>, <16 x i32>* %x2p
	%res = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2, i16 %x3)			%res = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2, i16 %x3)
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	declare <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64>, <8 x double>, <8 x double>, i8)			declare <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64>, <8 x double>, <8 x double>, i8)

	define <8 x double>@test_int_x86_avx512_maskz_vpermt2var_pd_512(<8 x i64> %x0, <8 x double> %x1, double* %x2ptr, i8 %x3) {			define <8 x double>@test_int_x86_avx512_maskz_vpermt2var_pd_512(<8 x i64> %x0, <8 x double> %x1, double* %x2ptr, i8 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_pd_512:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_pd_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovb %esi, %k1			; CHECK-NEXT: kmovb %esi, %k1
	; CHECK-NEXT: vpermt2pd (%rdi){1to8}, %zmm0, %zmm1 {%k1} {z}			; CHECK-NEXT: vpermi2pd (%rdi){1to8}, %zmm1, %zmm0 {%k1} {z}
	; CHECK-NEXT: vmovapd %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2s = load double, double* %x2ptr			%x2s = load double, double* %x2ptr
	%x2ins = insertelement <8 x double> undef, double %x2s, i32 0			%x2ins = insertelement <8 x double> undef, double %x2s, i32 0
	%x2 = shufflevector <8 x double> %x2ins, <8 x double> undef, <8 x i32> zeroinitializer			%x2 = shufflevector <8 x double> %x2ins, <8 x double> undef, <8 x i32> zeroinitializer
	%res = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> %x0, <8 x double> %x1, <8 x double> %x2, i8 %x3)			%res = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> %x0, <8 x double> %x1, <8 x double> %x2, i8 %x3)
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	declare <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32>, <16 x float>, <16 x float>, i16)			declare <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32>, <16 x float>, <16 x float>, i16)

	define <16 x float>@test_int_x86_avx512_maskz_vpermt2var_ps_512(<16 x i32> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3) {			define <16 x float>@test_int_x86_avx512_maskz_vpermt2var_ps_512(<16 x i32> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_ps_512:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_ps_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovw %edi, %k1			; CHECK-NEXT: kmovw %edi, %k1
	; CHECK-NEXT: vpermt2ps %zmm2, %zmm0, %zmm1 {%k1} {z}			; CHECK-NEXT: vpermi2ps %zmm2, %zmm1, %zmm0 {%k1} {z}
	; CHECK-NEXT: vmovaps %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3)			%res = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3)
	ret <16 x float> %res			ret <16 x float> %res
	}			}


	declare <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64>, <8 x i64>, <8 x i64>, i8)			declare <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64>, <8 x i64>, <8 x i64>, i8)

	define <8 x i64>@test_int_x86_avx512_maskz_vpermt2var_q_512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2, i8 %x3) {			define <8 x i64>@test_int_x86_avx512_maskz_vpermt2var_q_512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2, i8 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_q_512:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_q_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovb %edi, %k1			; CHECK-NEXT: kmovb %edi, %k1
	; CHECK-NEXT: vpermt2q %zmm2, %zmm0, %zmm1 {%k1} {z}			; CHECK-NEXT: vpermi2q %zmm2, %zmm1, %zmm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2, i8 %x3)			%res = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> %x0, <8 x i64> %x1, <8 x i64> %x2, i8 %x3)
	ret <8 x i64> %res			ret <8 x i64> %res
	}			}

	declare <16 x i32> @llvm.x86.avx512.mask.vpermt2var.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)			declare <16 x i32> @llvm.x86.avx512.mask.vpermt2var.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)

	define <16 x i32>@test_int_x86_avx512_mask_vpermt2var_d_512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2) {			define <16 x i32>@test_int_x86_avx512_mask_vpermt2var_d_512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_d_512:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_d_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermt2d %zmm2, %zmm0, %zmm1			; CHECK-NEXT: vpermi2d %zmm2, %zmm1, %zmm0
	; CHECK-NEXT: vmovdqa64 %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x i32> @llvm.x86.avx512.mask.vpermt2var.d.512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2, i16 -1)			%res = call <16 x i32> @llvm.x86.avx512.mask.vpermt2var.d.512(<16 x i32> %x0, <16 x i32> %x1, <16 x i32> %x2, i16 -1)
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	declare <4 x i32> @llvm.x86.avx512.mask.vpermt2var.d.128(<4 x i32>, <4 x i32>, <4 x i32>, i8)			declare <4 x i32> @llvm.x86.avx512.mask.vpermt2var.d.128(<4 x i32>, <4 x i32>, <4 x i32>, i8)

	define <4 x i32>@test_int_x86_avx512_mask_vpermt2var_d_128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2) {			define <4 x i32>@test_int_x86_avx512_mask_vpermt2var_d_128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_d_128:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_d_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermt2d %xmm2, %xmm0, %xmm1			; CHECK-NEXT: vpermi2d %xmm2, %xmm1, %xmm0
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x i32> @llvm.x86.avx512.mask.vpermt2var.d.128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 -1)			%res = call <4 x i32> @llvm.x86.avx512.mask.vpermt2var.d.128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 -1)
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	declare <4 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.128(<4 x i32>, <4 x i32>, <4 x i32>, i8)			declare <4 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.128(<4 x i32>, <4 x i32>, <4 x i32>, i8)

	define <4 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 %x3) {			define <4 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_128:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovb %edi, %k1			; CHECK-NEXT: kmovb %edi, %k1
	; CHECK-NEXT: vpermt2d %xmm2, %xmm0, %xmm1 {%k1} {z}			; CHECK-NEXT: vpermi2d %xmm2, %xmm1, %xmm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 %x3)			%res = call <4 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 %x3)
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	define <4 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_128_broadcast(<4 x i32> %x0, <4 x i32> %x1, i32* %x2ptr, i8 %x3) {			define <4 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_128_broadcast(<4 x i32> %x0, <4 x i32> %x1, i32* %x2ptr, i8 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_128_broadcast:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_128_broadcast:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovb %esi, %k1			; CHECK-NEXT: kmovb %esi, %k1
	; CHECK-NEXT: vpermt2d (%rdi){1to4}, %xmm0, %xmm1 {%k1} {z}			; CHECK-NEXT: vpermi2d (%rdi){1to4}, %xmm1, %xmm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2s = load i32, i32* %x2ptr			%x2s = load i32, i32* %x2ptr
	%x2ins = insertelement <4 x i32> undef, i32 %x2s, i32 0			%x2ins = insertelement <4 x i32> undef, i32 %x2s, i32 0
	%x2 = shufflevector <4 x i32> %x2ins, <4 x i32> undef, <4 x i32> zeroinitializer			%x2 = shufflevector <4 x i32> %x2ins, <4 x i32> undef, <4 x i32> zeroinitializer
	%res = call <4 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 %x3)			%res = call <4 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.128(<4 x i32> %x0, <4 x i32> %x1, <4 x i32> %x2, i8 %x3)
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	declare <8 x i32> @llvm.x86.avx512.mask.vpermt2var.d.256(<8 x i32>, <8 x i32>, <8 x i32>, i8)			declare <8 x i32> @llvm.x86.avx512.mask.vpermt2var.d.256(<8 x i32>, <8 x i32>, <8 x i32>, i8)

	define <8 x i32>@test_int_x86_avx512_mask_vpermt2var_d_256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2) {			define <8 x i32>@test_int_x86_avx512_mask_vpermt2var_d_256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_d_256:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_d_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermt2d %ymm2, %ymm0, %ymm1			; CHECK-NEXT: vpermi2d %ymm2, %ymm1, %ymm0
	; CHECK-NEXT: vmovdqa64 %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x i32> @llvm.x86.avx512.mask.vpermt2var.d.256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2, i8 -1)			%res = call <8 x i32> @llvm.x86.avx512.mask.vpermt2var.d.256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2, i8 -1)
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	declare <8 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.256(<8 x i32>, <8 x i32>, <8 x i32>, i8)			declare <8 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.256(<8 x i32>, <8 x i32>, <8 x i32>, i8)

	define <8 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2, i8 %x3) {			define <8 x i32>@test_int_x86_avx512_maskz_vpermt2var_d_256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2, i8 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_256:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_d_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovb %edi, %k1			; CHECK-NEXT: kmovb %edi, %k1
	; CHECK-NEXT: vpermt2d %ymm2, %ymm0, %ymm1 {%k1} {z}			; CHECK-NEXT: vpermi2d %ymm2, %ymm1, %ymm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2, i8 %x3)			%res = call <8 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.256(<8 x i32> %x0, <8 x i32> %x1, <8 x i32> %x2, i8 %x3)
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	declare <2 x double> @llvm.x86.avx512.mask.vpermi2var.pd.128(<2 x double>, <2 x i64>, <2 x double>, i8)			declare <2 x double> @llvm.x86.avx512.mask.vpermi2var.pd.128(<2 x double>, <2 x i64>, <2 x double>, i8)

	define <2 x double>@test_int_x86_avx512_mask_vpermi2var_pd_128(<2 x double> %x0, <2 x i64> %x1, <2 x double> %x2) {			define <2 x double>@test_int_x86_avx512_mask_vpermi2var_pd_128(<2 x double> %x0, <2 x i64> %x1, <2 x double> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_pd_128:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_pd_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2pd %xmm2, %xmm0, %xmm1			; CHECK-NEXT: vpermt2pd %xmm2, %xmm1, %xmm0
	; CHECK-NEXT: vmovapd %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <2 x double> @llvm.x86.avx512.mask.vpermi2var.pd.128(<2 x double> %x0, <2 x i64> %x1, <2 x double> %x2, i8 -1)			%res = call <2 x double> @llvm.x86.avx512.mask.vpermi2var.pd.128(<2 x double> %x0, <2 x i64> %x1, <2 x double> %x2, i8 -1)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.avx512.mask.vpermi2var.pd.256(<4 x double>, <4 x i64>, <4 x double>, i8)			declare <4 x double> @llvm.x86.avx512.mask.vpermi2var.pd.256(<4 x double>, <4 x i64>, <4 x double>, i8)

	define <4 x double>@test_int_x86_avx512_mask_vpermi2var_pd_256(<4 x double> %x0, <4 x i64> %x1, <4 x double> %x2) {			define <4 x double>@test_int_x86_avx512_mask_vpermi2var_pd_256(<4 x double> %x0, <4 x i64> %x1, <4 x double> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_pd_256:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_pd_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2pd %ymm2, %ymm0, %ymm1			; CHECK-NEXT: vpermt2pd %ymm2, %ymm1, %ymm0
	; CHECK-NEXT: vmovapd %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x double> @llvm.x86.avx512.mask.vpermi2var.pd.256(<4 x double> %x0, <4 x i64> %x1, <4 x double> %x2, i8 -1)			%res = call <4 x double> @llvm.x86.avx512.mask.vpermi2var.pd.256(<4 x double> %x0, <4 x i64> %x1, <4 x double> %x2, i8 -1)
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	declare <4 x float> @llvm.x86.avx512.mask.vpermi2var.ps.128(<4 x float>, <4 x i32>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512.mask.vpermi2var.ps.128(<4 x float>, <4 x i32>, <4 x float>, i8)

	define <4 x float>@test_int_x86_avx512_mask_vpermi2var_ps_128(<4 x float> %x0, <4 x i32> %x1, <4 x float> %x2) {			define <4 x float>@test_int_x86_avx512_mask_vpermi2var_ps_128(<4 x float> %x0, <4 x i32> %x1, <4 x float> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_128:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2ps %xmm2, %xmm0, %xmm1			; CHECK-NEXT: vpermt2ps %xmm2, %xmm1, %xmm0
	; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512.mask.vpermi2var.ps.128(<4 x float> %x0, <4 x i32> %x1, <4 x float> %x2, i8 -1)			%res = call <4 x float> @llvm.x86.avx512.mask.vpermi2var.ps.128(<4 x float> %x0, <4 x i32> %x1, <4 x float> %x2, i8 -1)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float>, <8 x i32>, <8 x float>, i8)			declare <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float>, <8 x i32>, <8 x float>, i8)

	define <8 x float>@test_int_x86_avx512_mask_vpermi2var_ps_256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2) {			define <8 x float>@test_int_x86_avx512_mask_vpermi2var_ps_256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_256:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2ps %ymm2, %ymm0, %ymm1			; CHECK-NEXT: vpermt2ps %ymm2, %ymm1, %ymm0
	; CHECK-NEXT: vmovaps %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2, i8 -1)			%res = call <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2, i8 -1)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float>@test_int_x86_avx512_mask_vpermi2var_ps_256_load(<8 x float> %x0, <8 x i32> %x1, <8 x float>* %x2p) {			define <8 x float>@test_int_x86_avx512_mask_vpermi2var_ps_256_load(<8 x float> %x0, <8 x i32> %x1, <8 x float>* %x2p) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_256_load:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_256_load:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2ps (%rdi), %ymm0, %ymm1			; CHECK-NEXT: vpermt2ps (%rdi), %ymm1, %ymm0
	; CHECK-NEXT: vmovaps %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2 = load <8 x float>, <8 x float>* %x2p			%x2 = load <8 x float>, <8 x float>* %x2p
	%res = call <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2, i8 -1)			%res = call <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2, i8 -1)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float>@test_int_x86_avx512_mask_vpermi2var_ps_256_broadcast(<8 x float> %x0, <8 x i32> %x1, float* %x2ptr) {			define <8 x float>@test_int_x86_avx512_mask_vpermi2var_ps_256_broadcast(<8 x float> %x0, <8 x i32> %x1, float* %x2ptr) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_256_broadcast:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_ps_256_broadcast:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2ps (%rdi){1to8}, %ymm0, %ymm1			; CHECK-NEXT: vpermt2ps (%rdi){1to8}, %ymm1, %ymm0
	; CHECK-NEXT: vmovaps %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2s = load float, float* %x2ptr			%x2s = load float, float* %x2ptr
	%x2ins = insertelement <8 x float> undef, float %x2s, i32 0			%x2ins = insertelement <8 x float> undef, float %x2s, i32 0
	%x2 = shufflevector <8 x float> %x2ins, <8 x float> undef, <8 x i32> zeroinitializer			%x2 = shufflevector <8 x float> %x2ins, <8 x float> undef, <8 x i32> zeroinitializer
	%res = call <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2, i8 -1)			%res = call <8 x float> @llvm.x86.avx512.mask.vpermi2var.ps.256(<8 x float> %x0, <8 x i32> %x1, <8 x float> %x2, i8 -1)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)			declare <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

	define <16 x i8>@test_int_x86_avx512_mask_vpermi2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2) {			define <16 x i8>@test_int_x86_avx512_mask_vpermi2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_qi_128:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_qi_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2b %xmm2, %xmm0, %xmm1			; CHECK-NEXT: vpermt2b %xmm2, %xmm1, %xmm0
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 -1)			%res = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 -1)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	declare <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)			declare <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

	define <32 x i8>@test_int_x86_avx512_mask_vpermi2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2) {			define <32 x i8>@test_int_x86_avx512_mask_vpermi2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_qi_256:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermi2var_qi_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermi2b %ymm2, %ymm0, %ymm1			; CHECK-NEXT: vpermt2b %ymm2, %ymm1, %ymm0
	; CHECK-NEXT: vmovdqa64 %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 -1)			%res = call <32 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 -1)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

	declare <16 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)			declare <16 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

	define <16 x i8>@test_int_x86_avx512_mask_vpermt2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2) {			define <16 x i8>@test_int_x86_avx512_mask_vpermt2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_qi_128:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_qi_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermt2b %xmm2, %xmm0, %xmm1			; CHECK-NEXT: vpermi2b %xmm2, %xmm1, %xmm0
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 -1)			%res = call <16 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 -1)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	define <16 x i8>@test_int_x86_avx512_mask_vpermt2var_qi_128_load(<16 x i8> %x0, <16 x i8> %x1, <16 x i8>* %x2p) {			define <16 x i8>@test_int_x86_avx512_mask_vpermt2var_qi_128_load(<16 x i8> %x0, <16 x i8> %x1, <16 x i8>* %x2p) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_qi_128_load:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_qi_128_load:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermt2b (%rdi), %xmm0, %xmm1			; CHECK-NEXT: vpermi2b (%rdi), %xmm1, %xmm0
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2 = load <16 x i8>, <16 x i8>* %x2p			%x2 = load <16 x i8>, <16 x i8>* %x2p
	%res = call <16 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 -1)			%res = call <16 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 -1)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	declare <32 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)			declare <32 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

	define <32 x i8>@test_int_x86_avx512_mask_vpermt2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2) {			define <32 x i8>@test_int_x86_avx512_mask_vpermt2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2) {
	; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_qi_256:			; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_qi_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vpermt2b %ymm2, %ymm0, %ymm1			; CHECK-NEXT: vpermi2b %ymm2, %ymm1, %ymm0
	; CHECK-NEXT: vmovdqa64 %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <32 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 -1)			%res = call <32 x i8> @llvm.x86.avx512.mask.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 -1)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

	declare <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)			declare <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

	define <16 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3) {			define <16 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_128:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovw %edi, %k1			; CHECK-NEXT: kmovw %edi, %k1
	; CHECK-NEXT: vpermt2b %xmm2, %xmm0, %xmm1 {%k1} {z}			; CHECK-NEXT: vpermi2b %xmm2, %xmm1, %xmm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3)			%res = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	define <16 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_128_load(<16 x i8> %x0, <16 x i8> %x1, <16 x i8>* %x2p, i16 %x3) {			define <16 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_128_load(<16 x i8> %x0, <16 x i8> %x1, <16 x i8>* %x2p, i16 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_128_load:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_128_load:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovw %esi, %k1			; CHECK-NEXT: kmovw %esi, %k1
	; CHECK-NEXT: vpermt2b (%rdi), %xmm0, %xmm1 {%k1} {z}			; CHECK-NEXT: vpermi2b (%rdi), %xmm1, %xmm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2 = load <16 x i8>, <16 x i8>* %x2p			%x2 = load <16 x i8>, <16 x i8>* %x2p
	%res = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3)			%res = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	declare <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)			declare <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

	define <32 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3) {			define <32 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_256:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vpermt2b %ymm2, %ymm0, %ymm1 {%k1} {z}			; CHECK-NEXT: vpermi2b %ymm2, %ymm1, %ymm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3)			%res = call <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

	define <32 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_256_load(<32 x i8> %x0, <32 x i8> %x1, <32 x i8>* %x2p, i32 %x3) {			define <32 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_256_load(<32 x i8> %x0, <32 x i8> %x1, <32 x i8>* %x2p, i32 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_256_load:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_256_load:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovd %esi, %k1			; CHECK-NEXT: kmovd %esi, %k1
	; CHECK-NEXT: vpermt2b (%rdi), %ymm0, %ymm1 {%k1} {z}			; CHECK-NEXT: vpermi2b (%rdi), %ymm1, %ymm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x2 = load <32 x i8>, <32 x i8>* %x2p			%x2 = load <32 x i8>, <32 x i8>* %x2p
	%res = call <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3)			%res = call <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

llvm/trunk/test/CodeGen/X86/avx512vbmi-intrinsics.ll

	Show First 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	}			}

	declare <64 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.512(<64 x i8>, <64 x i8>, <64 x i8>, i64)			declare <64 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.512(<64 x i8>, <64 x i8>, <64 x i8>, i64)

	define <64 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_512(<64 x i8> %x0, <64 x i8> %x1, <64 x i8> %x2, i64 %x3) {			define <64 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_512(<64 x i8> %x0, <64 x i8> %x1, <64 x i8> %x2, i64 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_512:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_512:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovq %rdi, %k1			; CHECK-NEXT: kmovq %rdi, %k1
	; CHECK-NEXT: vpermt2b %zmm2, %zmm0, %zmm1 {%k1} {z}			; CHECK-NEXT: vpermi2b %zmm2, %zmm1, %zmm0 {%k1} {z}
	; CHECK-NEXT: vmovdqa64 %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <64 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.512(<64 x i8> %x0, <64 x i8> %x1, <64 x i8> %x2, i64 %x3)			%res = call <64 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.512(<64 x i8> %x0, <64 x i8> %x1, <64 x i8> %x2, i64 %x3)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}

llvm/trunk/test/CodeGen/X86/avx512vbmivl-intrinsics.ll

	Show First 20 Lines • Show All 169 Lines • ▼ Show 20 Lines
	}			}

	declare <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)			declare <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

	define <16 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3) {			define <16 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_128:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_128:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovw %edi, %k1 ## encoding: [0xc5,0xf8,0x92,0xcf]			; CHECK-NEXT: kmovw %edi, %k1 ## encoding: [0xc5,0xf8,0x92,0xcf]
	; CHECK-NEXT: vpermt2b %xmm2, %xmm0, %xmm1 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0x89,0x7d,0xca]			; CHECK-NEXT: vpermi2b %xmm2, %xmm1, %xmm0 {%k1} {z} ## encoding: [0x62,0xf2,0x75,0x89,0x75,0xc2]
	; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 ## encoding: [0x62,0xf1,0xfd,0x08,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3)			%res = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> %x0, <16 x i8> %x1, <16 x i8> %x2, i16 %x3)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	declare <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)			declare <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

	define <32 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3) {			define <32 x i8>@test_int_x86_avx512_maskz_vpermt2var_qi_256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_256:			; CHECK-LABEL: test_int_x86_avx512_maskz_vpermt2var_qi_256:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpermt2b %ymm2, %ymm0, %ymm1 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0xa9,0x7d,0xca]			; CHECK-NEXT: vpermi2b %ymm2, %ymm1, %ymm0 {%k1} {z} ## encoding: [0x62,0xf2,0x75,0xa9,0x75,0xc2]
	; CHECK-NEXT: vmovdqa64 %ymm1, %ymm0 ## encoding: [0x62,0xf1,0xfd,0x28,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3)			%res = call <32 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.256(<32 x i8> %x0, <32 x i8> %x1, <32 x i8> %x2, i32 %x3)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

llvm/trunk/test/CodeGen/X86/merge-consecutive-loads-512.ll

Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines	; X32-AVX512F-NEXT: retl
%res6 = insertelement <8 x double> %res3, double 0.0, i32 6		%res6 = insertelement <8 x double> %res3, double 0.0, i32 6
%res7 = insertelement <8 x double> %res6, double 0.0, i32 7		%res7 = insertelement <8 x double> %res6, double 0.0, i32 7
ret <8 x double> %res7		ret <8 x double> %res7
}		}

define <8 x double> @merge_8f64_f64_1u3u5zu8(double* %ptr) nounwind uwtable noinline ssp {		define <8 x double> @merge_8f64_f64_1u3u5zu8(double* %ptr) nounwind uwtable noinline ssp {
; ALL-LABEL: merge_8f64_f64_1u3u5zu8:		; ALL-LABEL: merge_8f64_f64_1u3u5zu8:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: vmovupd 8(%rdi), %zmm0		; ALL-NEXT: vmovupd 8(%rdi), %zmm1
; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1		; ALL-NEXT: vpxord %zmm2, %zmm2, %zmm2
; ALL-NEXT: vmovapd {{.*#+}} zmm2 = <0,u,2,u,4,13,u,7>		; ALL-NEXT: vmovapd {{.*#+}} zmm0 = <0,u,2,u,4,13,u,7>
; ALL-NEXT: vpermt2pd %zmm1, %zmm2, %zmm0		; ALL-NEXT: vpermi2pd %zmm2, %zmm1, %zmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
;		;
; X32-AVX512F-LABEL: merge_8f64_f64_1u3u5zu8:		; X32-AVX512F-LABEL: merge_8f64_f64_1u3u5zu8:
; X32-AVX512F: # BB#0:		; X32-AVX512F: # BB#0:
; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX512F-NEXT: vmovupd 8(%eax), %zmm0		; X32-AVX512F-NEXT: vmovupd 8(%eax), %zmm1
; X32-AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1		; X32-AVX512F-NEXT: vpxord %zmm2, %zmm2, %zmm2
; X32-AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = <0,0,u,u,2,0,u,u,4,0,13,0,u,u,7,0>		; X32-AVX512F-NEXT: vmovapd {{.*#+}} zmm0 = <0,0,u,u,2,0,u,u,4,0,13,0,u,u,7,0>
; X32-AVX512F-NEXT: vpermt2pd %zmm1, %zmm2, %zmm0		; X32-AVX512F-NEXT: vpermi2pd %zmm2, %zmm1, %zmm0
; X32-AVX512F-NEXT: retl		; X32-AVX512F-NEXT: retl
%ptr0 = getelementptr inbounds double, double* %ptr, i64 1		%ptr0 = getelementptr inbounds double, double* %ptr, i64 1
%ptr2 = getelementptr inbounds double, double* %ptr, i64 3		%ptr2 = getelementptr inbounds double, double* %ptr, i64 3
%ptr4 = getelementptr inbounds double, double* %ptr, i64 5		%ptr4 = getelementptr inbounds double, double* %ptr, i64 5
%ptr7 = getelementptr inbounds double, double* %ptr, i64 8		%ptr7 = getelementptr inbounds double, double* %ptr, i64 8
%val0 = load double, double* %ptr0		%val0 = load double, double* %ptr0
%val2 = load double, double* %ptr2		%val2 = load double, double* %ptr2
%val4 = load double, double* %ptr4		%val4 = load double, double* %ptr4
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	; X32-AVX512F-NEXT: retl
%res6 = insertelement <8 x i64> %res4, i64 0, i32 6		%res6 = insertelement <8 x i64> %res4, i64 0, i32 6
%res7 = insertelement <8 x i64> %res6, i64 0, i32 7		%res7 = insertelement <8 x i64> %res6, i64 0, i32 7
ret <8 x i64> %res7		ret <8 x i64> %res7
}		}

define <8 x i64> @merge_8i64_i64_1u3u5zu8(i64* %ptr) nounwind uwtable noinline ssp {		define <8 x i64> @merge_8i64_i64_1u3u5zu8(i64* %ptr) nounwind uwtable noinline ssp {
; ALL-LABEL: merge_8i64_i64_1u3u5zu8:		; ALL-LABEL: merge_8i64_i64_1u3u5zu8:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: vmovdqu64 8(%rdi), %zmm0		; ALL-NEXT: vmovdqu64 8(%rdi), %zmm1
; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1		; ALL-NEXT: vpxord %zmm2, %zmm2, %zmm2
; ALL-NEXT: vmovdqa64 {{.*#+}} zmm2 = <0,u,2,u,4,13,u,7>		; ALL-NEXT: vmovdqa64 {{.*#+}} zmm0 = <0,u,2,u,4,13,u,7>
; ALL-NEXT: vpermt2q %zmm1, %zmm2, %zmm0		; ALL-NEXT: vpermi2q %zmm2, %zmm1, %zmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
;		;
; X32-AVX512F-LABEL: merge_8i64_i64_1u3u5zu8:		; X32-AVX512F-LABEL: merge_8i64_i64_1u3u5zu8:
; X32-AVX512F: # BB#0:		; X32-AVX512F: # BB#0:
; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX512F-NEXT: vmovdqu64 8(%eax), %zmm0		; X32-AVX512F-NEXT: vmovdqu64 8(%eax), %zmm1
; X32-AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1		; X32-AVX512F-NEXT: vpxord %zmm2, %zmm2, %zmm2
; X32-AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = <0,0,u,u,2,0,u,u,4,0,13,0,u,u,7,0>		; X32-AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm0 = <0,0,u,u,2,0,u,u,4,0,13,0,u,u,7,0>
; X32-AVX512F-NEXT: vpermt2q %zmm1, %zmm2, %zmm0		; X32-AVX512F-NEXT: vpermi2q %zmm2, %zmm1, %zmm0
; X32-AVX512F-NEXT: retl		; X32-AVX512F-NEXT: retl
%ptr0 = getelementptr inbounds i64, i64* %ptr, i64 1		%ptr0 = getelementptr inbounds i64, i64* %ptr, i64 1
%ptr2 = getelementptr inbounds i64, i64* %ptr, i64 3		%ptr2 = getelementptr inbounds i64, i64* %ptr, i64 3
%ptr4 = getelementptr inbounds i64, i64* %ptr, i64 5		%ptr4 = getelementptr inbounds i64, i64* %ptr, i64 5
%ptr7 = getelementptr inbounds i64, i64* %ptr, i64 8		%ptr7 = getelementptr inbounds i64, i64* %ptr, i64 8
%val0 = load i64, i64* %ptr0		%val0 = load i64, i64* %ptr0
%val2 = load i64, i64* %ptr2		%val2 = load i64, i64* %ptr2
%val4 = load i64, i64* %ptr4		%val4 = load i64, i64* %ptr4
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines	; X32-AVX512F-NEXT: retl
%resE = insertelement <16 x float> %resC, float %valE, i32 14		%resE = insertelement <16 x float> %resC, float %valE, i32 14
%resF = insertelement <16 x float> %resE, float %valF, i32 15		%resF = insertelement <16 x float> %resE, float %valF, i32 15
ret <16 x float> %resF		ret <16 x float> %resF
}		}

define <16 x float> @merge_16f32_f32_0uu3zzuuuuuzCuEF(float* %ptr) nounwind uwtable noinline ssp {		define <16 x float> @merge_16f32_f32_0uu3zzuuuuuzCuEF(float* %ptr) nounwind uwtable noinline ssp {
; ALL-LABEL: merge_16f32_f32_0uu3zzuuuuuzCuEF:		; ALL-LABEL: merge_16f32_f32_0uu3zzuuuuuzCuEF:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: vmovups (%rdi), %zmm0		; ALL-NEXT: vmovups (%rdi), %zmm1
; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1		; ALL-NEXT: vpxord %zmm2, %zmm2, %zmm2
; ALL-NEXT: vmovaps {{.*#+}} zmm2 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>		; ALL-NEXT: vmovaps {{.*#+}} zmm0 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>
; ALL-NEXT: vpermt2ps %zmm1, %zmm2, %zmm0		; ALL-NEXT: vpermi2ps %zmm2, %zmm1, %zmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
;		;
; X32-AVX512F-LABEL: merge_16f32_f32_0uu3zzuuuuuzCuEF:		; X32-AVX512F-LABEL: merge_16f32_f32_0uu3zzuuuuuzCuEF:
; X32-AVX512F: # BB#0:		; X32-AVX512F: # BB#0:
; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX512F-NEXT: vmovups (%eax), %zmm0		; X32-AVX512F-NEXT: vmovups (%eax), %zmm1
; X32-AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1		; X32-AVX512F-NEXT: vpxord %zmm2, %zmm2, %zmm2
; X32-AVX512F-NEXT: vmovaps {{.*#+}} zmm2 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>		; X32-AVX512F-NEXT: vmovaps {{.*#+}} zmm0 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>
; X32-AVX512F-NEXT: vpermt2ps %zmm1, %zmm2, %zmm0		; X32-AVX512F-NEXT: vpermi2ps %zmm2, %zmm1, %zmm0
; X32-AVX512F-NEXT: retl		; X32-AVX512F-NEXT: retl
%ptr0 = getelementptr inbounds float, float* %ptr, i64 0		%ptr0 = getelementptr inbounds float, float* %ptr, i64 0
%ptr3 = getelementptr inbounds float, float* %ptr, i64 3		%ptr3 = getelementptr inbounds float, float* %ptr, i64 3
%ptrC = getelementptr inbounds float, float* %ptr, i64 12		%ptrC = getelementptr inbounds float, float* %ptr, i64 12
%ptrE = getelementptr inbounds float, float* %ptr, i64 14		%ptrE = getelementptr inbounds float, float* %ptr, i64 14
%ptrF = getelementptr inbounds float, float* %ptr, i64 15		%ptrF = getelementptr inbounds float, float* %ptr, i64 15
%val0 = load float, float* %ptr0		%val0 = load float, float* %ptr0
%val3 = load float, float* %ptr3		%val3 = load float, float* %ptr3
▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines	; X32-AVX512F-NEXT: retl
%resE = insertelement <16 x i32> %resC, i32 %valE, i32 14		%resE = insertelement <16 x i32> %resC, i32 %valE, i32 14
%resF = insertelement <16 x i32> %resE, i32 %valF, i32 15		%resF = insertelement <16 x i32> %resE, i32 %valF, i32 15
ret <16 x i32> %resF		ret <16 x i32> %resF
}		}

define <16 x i32> @merge_16i32_i32_0uu3zzuuuuuzCuEF(i32* %ptr) nounwind uwtable noinline ssp {		define <16 x i32> @merge_16i32_i32_0uu3zzuuuuuzCuEF(i32* %ptr) nounwind uwtable noinline ssp {
; ALL-LABEL: merge_16i32_i32_0uu3zzuuuuuzCuEF:		; ALL-LABEL: merge_16i32_i32_0uu3zzuuuuuzCuEF:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: vmovdqu32 (%rdi), %zmm0		; ALL-NEXT: vmovdqu32 (%rdi), %zmm1
; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1		; ALL-NEXT: vpxord %zmm2, %zmm2, %zmm2
; ALL-NEXT: vmovdqa32 {{.*#+}} zmm2 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>		; ALL-NEXT: vmovdqa32 {{.*#+}} zmm0 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>
; ALL-NEXT: vpermt2d %zmm1, %zmm2, %zmm0		; ALL-NEXT: vpermi2d %zmm2, %zmm1, %zmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
;		;
; X32-AVX512F-LABEL: merge_16i32_i32_0uu3zzuuuuuzCuEF:		; X32-AVX512F-LABEL: merge_16i32_i32_0uu3zzuuuuuzCuEF:
; X32-AVX512F: # BB#0:		; X32-AVX512F: # BB#0:
; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX512F-NEXT: vmovdqu32 (%eax), %zmm0		; X32-AVX512F-NEXT: vmovdqu32 (%eax), %zmm1
; X32-AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1		; X32-AVX512F-NEXT: vpxord %zmm2, %zmm2, %zmm2
; X32-AVX512F-NEXT: vmovdqa32 {{.*#+}} zmm2 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>		; X32-AVX512F-NEXT: vmovdqa32 {{.*#+}} zmm0 = <0,u,u,3,20,21,u,u,u,u,u,u,12,29,14,15>
; X32-AVX512F-NEXT: vpermt2d %zmm1, %zmm2, %zmm0		; X32-AVX512F-NEXT: vpermi2d %zmm2, %zmm1, %zmm0
; X32-AVX512F-NEXT: retl		; X32-AVX512F-NEXT: retl
%ptr0 = getelementptr inbounds i32, i32* %ptr, i64 0		%ptr0 = getelementptr inbounds i32, i32* %ptr, i64 0
%ptr3 = getelementptr inbounds i32, i32* %ptr, i64 3		%ptr3 = getelementptr inbounds i32, i32* %ptr, i64 3
%ptrC = getelementptr inbounds i32, i32* %ptr, i64 12		%ptrC = getelementptr inbounds i32, i32* %ptr, i64 12
%ptrE = getelementptr inbounds i32, i32* %ptr, i64 14		%ptrE = getelementptr inbounds i32, i32* %ptr, i64 14
%ptrF = getelementptr inbounds i32, i32* %ptr, i64 15		%ptrF = getelementptr inbounds i32, i32* %ptr, i64 15
%val0 = load i32, i32* %ptr0		%val0 = load i32, i32* %ptr0
%val3 = load i32, i32* %ptr3		%val3 = load i32, i32* %ptr3
▲ Show 20 Lines • Show All 247 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v16.ll

	Show First 20 Lines • Show All 871 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[0,0,0,0,4,5,6,7,8,8,8,8,12,13,14,15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:			; AVX512VL-LABEL: shuffle_v16i16_16_16_16_16_04_05_06_07_24_24_24_24_12_13_14_15:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [0,0,0,0,20,21,22,23,8,8,8,8,28,29,30,31]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [0,0,0,0,20,21,22,23,8,8,8,8,28,29,30,31]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 4, i32 5, i32 6, i32 7, i32 24, i32 24, i32 24, i32 24, i32 12, i32 13, i32 14, i32 15>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 4, i32 5, i32 6, i32 7, i32 24, i32 24, i32 24, i32 24, i32 12, i32 13, i32 14, i32 15>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12:			; AVX1-LABEL: shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	Show All 15 Lines
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[3,2,1,0,4,5,6,7,11,10,9,8,12,13,14,15]			; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[3,2,1,0,4,5,6,7,11,10,9,8,12,13,14,15]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12:			; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_07_06_05_04_27_26_25_24_15_14_13_12:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [3,2,1,0,23,22,21,20,11,10,9,8,31,30,29,28]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [3,2,1,0,23,22,21,20,11,10,9,8,31,30,29,28]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 7, i32 6, i32 5, i32 4, i32 27, i32 26, i32 25, i32 24, i32 15, i32 14, i32 13, i32 12>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 7, i32 6, i32 5, i32 4, i32 27, i32 26, i32 25, i32 24, i32 15, i32 14, i32 13, i32 12>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08:			; AVX1-LABEL: shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	Show All 13 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]
	; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]			; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08:			; AVX512VL-LABEL: shuffle_v16i16_19_18_17_16_03_02_01_00_27_26_25_24_11_10_09_08:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [3,2,1,0,19,18,17,16,11,10,9,8,27,26,25,24]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [3,2,1,0,19,18,17,16,11,10,9,8,27,26,25,24]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 3, i32 2, i32 1, i32 0, i32 27, i32 26, i32 25, i32 24, i32 11, i32 10, i32 9, i32 8>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 18, i32 17, i32 16, i32 3, i32 2, i32 1, i32 0, i32 27, i32 26, i32 25, i32 24, i32 11, i32 10, i32 9, i32 8>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_01_00_08_08_08_08_08_08_09_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_01_00_08_08_08_08_08_08_09_08(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_01_00_08_08_08_08_08_08_09_08:			; AVX1-LABEL: shuffle_v16i16_00_00_00_00_00_00_01_00_08_08_08_08_08_08_09_08:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 2,320 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklwd {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11]			; AVX2-NEXT: vpunpcklwd {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11:			; AVX512VL-LABEL: shuffle_v16i16_16_00_17_01_18_02_19_11_24_08_25_09_26_10_27_11:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [0,16,1,17,2,18,3,27,8,24,9,25,10,26,11,27]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [0,16,1,17,2,18,3,27,8,24,9,25,10,26,11,27]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 0, i32 17, i32 1, i32 18, i32 2, i32 19, i32 11, i32 24, i32 8, i32 25, i32 9, i32 26, i32 10, i32 27, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 16, i32 0, i32 17, i32 1, i32 18, i32 2, i32 19, i32 11, i32 24, i32 8, i32 25, i32 9, i32 26, i32 10, i32 27, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15:			; AVX1-LABEL: shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	Show All 16 Lines
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpckhwd {{.*#+}} ymm1 = ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15]			; AVX2-NEXT: vpunpckhwd {{.*#+}} ymm1 = ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3],ymm1[4],ymm0[5],ymm1[6],ymm0[7],ymm1[8],ymm0[9],ymm1[10],ymm0[11],ymm1[12],ymm0[13],ymm1[14],ymm0[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15:			; AVX512VL-LABEL: shuffle_v16i16_20_04_21_05_22_06_23_15_28_12_29_13_30_14_31_15:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [4,20,5,21,6,22,7,31,12,28,13,29,14,30,15,31]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [4,20,5,21,6,22,7,31,12,28,13,29,14,30,15,31]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 4, i32 21, i32 5, i32 22, i32 6, i32 23, i32 15, i32 28, i32 12, i32 29, i32 13, i32 30, i32 14, i32 31, i32 15>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 4, i32 21, i32 5, i32 22, i32 6, i32 23, i32 15, i32 28, i32 12, i32 29, i32 13, i32 30, i32 14, i32 31, i32 15>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:			; AVX1-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,2]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,2]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:			; AVX512VL-LABEL: shuffle_v16i16_uu_uu_uu_uu_20_21_22_11_uu_uu_uu_uu_28_29_30_11:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <u,u,u,u,4,5,6,27,u,u,u,u,12,13,14,27>			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <u,u,u,u,4,5,6,27,u,u,u,u,12,13,14,27>
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 20, i32 21, i32 22, i32 11, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 20, i32 21, i32 22, i32 11, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:			; AVX1-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	Show All 10 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[2,3,2,3,6,7,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[2,3,2,3,6,7,6,7]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:			; AVX512VL-LABEL: shuffle_v16i16_20_21_22_03_uu_uu_uu_uu_28_29_30_11_uu_uu_uu_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <4,5,6,19,u,u,u,u,12,13,14,27,u,u,u,u>			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <4,5,6,19,u,u,u,u,12,13,14,27,u,u,u,u>
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 21, i32 22, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 20, i32 21, i32 22, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 11, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:			; AVX1-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5,16,17,20,21,20,21,22,23,16,17,20,21,24,25,20,21]			; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5,16,17,20,21,20,21,22,23,16,17,20,21,24,25,20,21]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:			; AVX512VL-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <u,u,20,u,0,2,4,u,u,u,28,u,8,10,12,u>			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <u,u,20,u,0,2,4,u,u,u,28,u,8,10,12,u>
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 4, i32 undef, i32 16, i32 18, i32 20, i32 undef, i32 undef, i32 undef, i32 12, i32 undef, i32 24, i32 26, i32 28, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 4, i32 undef, i32 16, i32 18, i32 20, i32 undef, i32 undef, i32 undef, i32 12, i32 undef, i32 24, i32 26, i32 28, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12:			; AVX1-LABEL: shuffle_v16i16_21_22_23_00_01_02_03_12_29_30_31_08_09_10_11_12:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_19_20_21_22_23_00_01_10_27_28_29_30_31_08_09_10:			; AVX512VL-LABEL: shuffle_v16i16_19_20_21_22_23_00_01_10_27_28_29_30_31_08_09_10:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [3,4,5,6,7,16,17,26,11,12,13,14,15,24,25,26]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [3,4,5,6,7,16,17,26,11,12,13,14,15,24,25,26]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 10, i32 27, i32 28, i32 29, i32 30, i32 31, i32 8, i32 9, i32 10>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 10, i32 27, i32 28, i32 29, i32 30, i32 31, i32 8, i32 9, i32 10>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_20_21_22_uu_uu_01_uu_uu_28_29_30_uu_uu_09_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_20_21_22_uu_uu_01_uu_uu_28_29_30_uu_uu_09_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_20_21_22_uu_uu_01_uu_uu_28_29_30_uu_uu_09_uu:			; AVX1-LABEL: shuffle_v16i16_uu_20_21_22_uu_uu_01_uu_uu_28_29_30_uu_uu_09_uu:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]			; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_05_06_07_16_17_18_19_28_13_14_15_24_25_26_27_28:			; AVX512VL-LABEL: shuffle_v16i16_05_06_07_16_17_18_19_28_13_14_15_24_25_26_27_28:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [21,22,23,0,1,2,3,12,29,30,31,8,9,10,11,12]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [21,22,23,0,1,2,3,12,29,30,31,8,9,10,11,12]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 19, i32 28, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27, i32 28>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 19, i32 28, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27, i32 28>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_uu_06_uu_uu_17_18_19_uu_uu_14_uu_uu_25_26_27_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_uu_06_uu_uu_17_18_19_uu_uu_14_uu_uu_25_26_27_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_uu_06_uu_uu_17_18_19_uu_uu_14_uu_uu_25_26_27_uu:			; AVX1-LABEL: shuffle_v16i16_uu_06_uu_uu_17_18_19_uu_uu_14_uu_uu_25_26_27_uu:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	Show All 30 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6],ymm1[7],ymm0[8,9,10,11],ymm1[12],ymm0[13,14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6],ymm1[7],ymm0[8,9,10,11],ymm1[12],ymm0[13,14],ymm1[15]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[14,15,14,15,6,7,6,7,8,9,8,9,10,11,14,15,30,31,30,31,22,23,22,23,24,25,24,25,26,27,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[14,15,14,15,6,7,6,7,8,9,8,9,10,11,14,15,30,31,30,31,22,23,22,23,24,25,24,25,26,27,30,31]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_23_uu_03_uu_20_20_05_uu_31_uu_11_uu_28_28_13_uu:			; AVX512VL-LABEL: shuffle_v16i16_23_uu_03_uu_20_20_05_uu_31_uu_11_uu_28_28_13_uu:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <7,u,19,u,4,4,21,u,15,u,27,u,12,12,29,u>			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = <7,u,19,u,4,4,21,u,15,u,27,u,12,12,29,u>
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 23, i32 undef, i32 3, i32 undef, i32 20, i32 20, i32 5, i32 undef, i32 31, i32 undef, i32 11, i32 undef, i32 28, i32 28, i32 13, i32 undef>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 23, i32 undef, i32 3, i32 undef, i32 20, i32 20, i32 5, i32 undef, i32 31, i32 undef, i32 11, i32 undef, i32 28, i32 28, i32 13, i32 undef>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_u_u_u_u_u_u_u_u_0_16_1_17_2_18_3_19(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_u_u_u_u_u_u_u_u_0_16_1_17_2_18_3_19(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_u_u_u_u_u_u_u_u_0_16_1_17_2_18_3_19:			; AVX1-LABEL: shuffle_v16i16_u_u_u_u_u_u_u_u_0_16_1_17_2_18_3_19:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[4,5,2,3,6,7,6,7,0,1,2,3,2,3,14,15,20,21,18,19,22,23,22,23,16,17,18,19,18,19,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[4,5,2,3,6,7,6,7,0,1,2,3,2,3,14,15,20,21,18,19,22,23,22,23,16,17,18,19,18,19,30,31]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25:			; AVX512VL-LABEL: shuffle_v16i16_02_18_03_19_10_26_11_27_00_16_01_17_08_24_09_25:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [2,18,3,19,0,16,1,17,10,26,11,27,8,24,9,25]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [2,18,3,19,0,16,1,17,10,26,11,27,8,24,9,25]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermi2w %ymm1, %ymm0, %ymm2
	; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm2[0,2,1,3]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%1 = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 2, i32 18, i32 3, i32 19, i32 0, i32 16, i32 1, i32 17, i32 10, i32 26, i32 11, i32 27, i32 8, i32 24, i32 9, i32 25>			%1 = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 2, i32 18, i32 3, i32 19, i32 0, i32 16, i32 1, i32 17, i32 10, i32 26, i32 11, i32 27, i32 8, i32 24, i32 9, i32 25>
	%2 = bitcast <16 x i16> %1 to <4 x i64>			%2 = bitcast <16 x i16> %1 to <4 x i64>
	%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 3>			%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 3>
	%4 = bitcast <4 x i64> %3 to <16 x i16>			%4 = bitcast <4 x i64> %3 to <16 x i16>
	ret <16 x i16> %4			ret <16 x i16> %4
	}			}

	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1,2],ymm2[3],ymm0[4],ymm2[5,6,7,8],ymm0[9,10],ymm2[11],ymm0[12],ymm2[13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1,2],ymm2[3],ymm0[4],ymm2[5,6,7,8],ymm0[9,10],ymm2[11],ymm0[12],ymm2[13,14,15]
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,0,0,255,255,255,255,255,255,0,0,255,255,0,0,0,0,255,255,255,255,0,0,0,0,0,0,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,0,0,255,255,255,255,255,255,0,0,255,255,0,0,0,0,255,255,255,255,0,0,0,0,0,0,255,255]
	; AVX2-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: PR24935:			; AVX512VL-LABEL: PR24935:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [11,10,17,13,10,7,27,0,17,25,0,12,29,20,16,8]			; AVX512VL-NEXT: vmovdqu16 {{.*#+}} ymm2 = [11,10,17,13,10,7,27,0,17,25,0,12,29,20,16,8]
	; AVX512VL-NEXT: vpermt2w %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2w %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 27, i32 26, i32 1, i32 29, i32 26, i32 23, i32 11, i32 16, i32 1, i32 9, i32 16, i32 28, i32 13, i32 4, i32 0, i32 24>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 27, i32 26, i32 1, i32 29, i32 26, i32 23, i32 11, i32 16, i32 1, i32 9, i32 16, i32 28, i32 13, i32 4, i32 0, i32 24>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @insert_dup_mem_v16i16_i32(i32* %ptr) {			define <16 x i16> @insert_dup_mem_v16i16_i32(i32* %ptr) {
	; AVX1-LABEL: insert_dup_mem_v16i16_i32:			; AVX1-LABEL: insert_dup_mem_v16i16_i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 82 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v8.ll

	Show First 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpermps %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]			; AVX2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,1,1,3]			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,1,1,3]
	; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v8f32_08991abb:			; AVX512VL-LABEL: shuffle_v8f32_08991abb:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]			; AVX512VL-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[0,1,1,3]
	; AVX512VL-NEXT: vmovaps {{.*#+}} ymm2 = [8,0,1,1,10,2,3,3]			; AVX512VL-NEXT: vmovaps {{.*#+}} ymm0 = [8,0,1,1,10,2,3,3]
	; AVX512VL-NEXT: vpermt2ps %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2ps %ymm2, %ymm1, %ymm0
	; AVX512VL-NEXT: vmovaps %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_091b2d3f(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_091b2d3f(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_091b2d3f:			; AVX1-LABEL: shuffle_v8f32_091b2d3f:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 343 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,3,2,0,4,7,6,4]			; AVX2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,3,2,0,4,7,6,4]
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,1]			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,1]
	; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3,4,5,6],ymm0[7]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3,4,5,6],ymm0[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v8f32_c348cda0:			; AVX512VL-LABEL: shuffle_v8f32_c348cda0:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovaps {{.*#+}} ymm2 = [4,11,12,0,4,5,2,8]			; AVX512VL-NEXT: vmovaps {{.*#+}} ymm2 = [4,11,12,0,4,5,2,8]
	; AVX512VL-NEXT: vpermt2ps %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2ps %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovaps %ymm1, %ymm0			; AVX512VL-NEXT: vmovaps %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 12, i32 3, i32 4, i32 8, i32 12, i32 13, i32 10, i32 0>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 12, i32 3, i32 4, i32 8, i32 12, i32 13, i32 10, i32 0>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_f511235a(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_f511235a(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_f511235a:			; AVX1-LABEL: shuffle_v8f32_f511235a:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 623 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <u,0,u,1,u,2,u,3>			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <u,0,u,1,u,2,u,3>
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v8i32_08192a3b:			; AVX512VL-LABEL: shuffle_v8i32_08192a3b:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512VL-NEXT: vpmovzxdq {{.*#+}} ymm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512VL-NEXT: vmovdqa32 {{.*#+}} ymm2 = [0,8,2,9,4,10,6,11]			; AVX512VL-NEXT: vmovdqa32 {{.*#+}} ymm0 = [0,8,2,9,4,10,6,11]
	; AVX512VL-NEXT: vpermt2d %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermi2d %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_08991abb(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_08991abb(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_08991abb:			; AVX1-LABEL: shuffle_v8i32_08991abb:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	Show All 10 Lines
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,1,3]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v8i32_08991abb:			; AVX512VL-LABEL: shuffle_v8i32_08991abb:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero			; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero
	; AVX512VL-NEXT: vmovdqa32 {{.*#+}} ymm2 = [8,0,1,1,10,2,3,3]			; AVX512VL-NEXT: vmovdqa32 {{.*#+}} ymm0 = [8,0,1,1,10,2,3,3]
	; AVX512VL-NEXT: vpermt2d %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2d %ymm2, %ymm1, %ymm0
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_091b2d3f(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_091b2d3f(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_091b2d3f:			; AVX1-LABEL: shuffle_v8i32_091b2d3f:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 627 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,0,2,2,4,4,6,6]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,0,2,2,4,4,6,6]
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,1,0,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,1,0,3]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v8i32_6caa87e5:			; AVX512VL-LABEL: shuffle_v8i32_6caa87e5:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqa32 {{.*#+}} ymm2 = [14,4,2,2,0,15,6,13]			; AVX512VL-NEXT: vmovdqa32 {{.*#+}} ymm2 = [14,4,2,2,0,15,6,13]
	; AVX512VL-NEXT: vpermt2d %ymm0, %ymm2, %ymm1			; AVX512VL-NEXT: vpermi2d %ymm0, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa64 %ymm1, %ymm0			; AVX512VL-NEXT: vmovdqa64 %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 6, i32 12, i32 10, i32 10, i32 8, i32 7, i32 14, i32 5>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 6, i32 12, i32 10, i32 10, i32 8, i32 7, i32 14, i32 5>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_32103210(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_32103210(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_32103210:			; AVX1-LABEL: shuffle_v8i32_32103210:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 587 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v8.ll

Show First 20 Lines • Show All 256 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_8823cc67(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_8823cc67(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_8823cc67:		; AVX512F-LABEL: shuffle_v8f64_8823cc67:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [0,0,10,11,4,4,14,15]		; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [0,0,10,11,4,4,14,15]
; AVX512F-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8f64_8823cc67:		; AVX512F-32-LABEL: shuffle_v8f64_8823cc67:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [0,0,0,0,10,0,11,0,4,0,4,0,14,0,15,0]		; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [0,0,0,0,10,0,11,0,4,0,4,0,14,0,15,0]
; AVX512F-32-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-32-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 8, i32 8, i32 2, i32 3, i32 12, i32 12, i32 6, i32 7>		%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 8, i32 8, i32 2, i32 3, i32 12, i32 12, i32 6, i32 7>
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_9832dc76(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_9832dc76(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_9832dc76:		; AVX512F-LABEL: shuffle_v8f64_9832dc76:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,11,10,5,4,15,14]		; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,11,10,5,4,15,14]
; AVX512F-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8f64_9832dc76:		; AVX512F-32-LABEL: shuffle_v8f64_9832dc76:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,0,0,11,0,10,0,5,0,4,0,15,0,14,0]		; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,0,0,11,0,10,0,5,0,4,0,15,0,14,0]
; AVX512F-32-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-32-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 9, i32 8, i32 3, i32 2, i32 13, i32 12, i32 7, i32 6>		%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 9, i32 8, i32 3, i32 2, i32 13, i32 12, i32 7, i32 6>
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_9810dc54(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_9810dc54(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_9810dc54:		; AVX512F-LABEL: shuffle_v8f64_9810dc54:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,9,8,5,4,13,12]		; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,9,8,5,4,13,12]
; AVX512F-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8f64_9810dc54:		; AVX512F-32-LABEL: shuffle_v8f64_9810dc54:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,0,0,9,0,8,0,5,0,4,0,13,0,12,0]		; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [1,0,0,0,9,0,8,0,5,0,4,0,13,0,12,0]
; AVX512F-32-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-32-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 9, i32 8, i32 1, i32 0, i32 13, i32 12, i32 5, i32 4>		%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 9, i32 8, i32 1, i32 0, i32 13, i32 12, i32 5, i32 4>
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_08194c5d(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_08194c5d(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_08194c5d:		; AVX512F-LABEL: shuffle_v8f64_08194c5d:
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_08991abb(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_08991abb(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_08991abb:		; AVX512F-LABEL: shuffle_v8f64_08991abb:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [8,0,1,1,9,2,3,3]		; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [8,0,1,1,9,2,3,3]
; AVX512F-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8f64_08991abb:		; AVX512F-32-LABEL: shuffle_v8f64_08991abb:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [8,0,0,0,1,0,1,0,9,0,2,0,3,0,3,0]		; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [8,0,0,0,1,0,1,0,9,0,2,0,3,0,3,0]
; AVX512F-32-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-32-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>		%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_091b2d3f(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_091b2d3f(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_091b2d3f:		; AVX512F-LABEL: shuffle_v8f64_091b2d3f:
Show All 11 Lines	; AVX512F-32-NEXT: retl
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_09ab1def(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_09ab1def(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_09ab1def:		; AVX512F-LABEL: shuffle_v8f64_09ab1def:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [8,1,2,3,9,5,6,7]		; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [8,1,2,3,9,5,6,7]
; AVX512F-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8f64_09ab1def:		; AVX512F-32-LABEL: shuffle_v8f64_09ab1def:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [8,0,1,0,2,0,3,0,9,0,5,0,6,0,7,0]		; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [8,0,1,0,2,0,3,0,9,0,5,0,6,0,7,0]
; AVX512F-32-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-32-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 9, i32 10, i32 11, i32 1, i32 13, i32 14, i32 15>		%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 9, i32 10, i32 11, i32 1, i32 13, i32 14, i32 15>
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_00014445(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_00014445(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_00014445:		; AVX512F-LABEL: shuffle_v8f64_00014445:
▲ Show 20 Lines • Show All 496 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_c348cda0(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_c348cda0(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_c348cda0:		; AVX512F-LABEL: shuffle_v8f64_c348cda0:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [4,11,12,0,4,5,2,8]		; AVX512F-NEXT: vmovapd {{.*#+}} zmm2 = [4,11,12,0,4,5,2,8]
; AVX512F-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8f64_c348cda0:		; AVX512F-32-LABEL: shuffle_v8f64_c348cda0:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [4,0,11,0,12,0,0,0,4,0,5,0,2,0,8,0]		; AVX512F-32-NEXT: vmovapd {{.*#+}} zmm2 = [4,0,11,0,12,0,0,0,4,0,5,0,2,0,8,0]
; AVX512F-32-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovapd %zmm1, %zmm0		; AVX512F-32-NEXT: vmovapd %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 12, i32 3, i32 4, i32 8, i32 12, i32 13, i32 10, i32 0>		%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 12, i32 3, i32 4, i32 8, i32 12, i32 13, i32 10, i32 0>
ret <8 x double> %shuffle		ret <8 x double> %shuffle
}		}

define <8 x double> @shuffle_v8f64_f511235a(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_f511235a(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_f511235a:		; AVX512F-LABEL: shuffle_v8f64_f511235a:
▲ Show 20 Lines • Show All 228 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_81a3c5e7(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_81a3c5e7(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_81a3c5e7:		; AVX512F-LABEL: shuffle_v8i64_81a3c5e7:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,9,2,11,4,13,6,15]		; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,9,2,11,4,13,6,15]
; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8i64_81a3c5e7:		; AVX512F-32-LABEL: shuffle_v8i64_81a3c5e7:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,9,0,2,0,11,0,4,0,13,0,6,0,15,0]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,9,0,2,0,11,0,4,0,13,0,6,0,15,0]
; AVX512F-32-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 8, i32 1, i32 10, i32 3, i32 12, i32 5, i32 14, i32 7>		%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 8, i32 1, i32 10, i32 3, i32 12, i32 5, i32 14, i32 7>
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_08080808(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_08080808(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_08080808:		; AVX512F-LABEL: shuffle_v8i64_08080808:
Show All 28 Lines	; AVX512F-32-NEXT: retl
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_8823cc67(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_8823cc67(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_8823cc67:		; AVX512F-LABEL: shuffle_v8i64_8823cc67:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,10,11,4,4,14,15]		; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,10,11,4,4,14,15]
; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8i64_8823cc67:		; AVX512F-32-LABEL: shuffle_v8i64_8823cc67:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,0,0,10,0,11,0,4,0,4,0,14,0,15,0]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,0,0,10,0,11,0,4,0,4,0,14,0,15,0]
; AVX512F-32-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 8, i32 8, i32 2, i32 3, i32 12, i32 12, i32 6, i32 7>		%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 8, i32 8, i32 2, i32 3, i32 12, i32 12, i32 6, i32 7>
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_9832dc76(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_9832dc76(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_9832dc76:		; AVX512F-LABEL: shuffle_v8i64_9832dc76:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,11,10,5,4,15,14]		; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,11,10,5,4,15,14]
; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8i64_9832dc76:		; AVX512F-32-LABEL: shuffle_v8i64_9832dc76:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,0,0,11,0,10,0,5,0,4,0,15,0,14,0]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,0,0,11,0,10,0,5,0,4,0,15,0,14,0]
; AVX512F-32-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 9, i32 8, i32 3, i32 2, i32 13, i32 12, i32 7, i32 6>		%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 9, i32 8, i32 3, i32 2, i32 13, i32 12, i32 7, i32 6>
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_9810dc54(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_9810dc54(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_9810dc54:		; AVX512F-LABEL: shuffle_v8i64_9810dc54:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,9,8,5,4,13,12]		; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,9,8,5,4,13,12]
; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8i64_9810dc54:		; AVX512F-32-LABEL: shuffle_v8i64_9810dc54:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,0,0,9,0,8,0,5,0,4,0,13,0,12,0]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [1,0,0,0,9,0,8,0,5,0,4,0,13,0,12,0]
; AVX512F-32-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 9, i32 8, i32 1, i32 0, i32 13, i32 12, i32 5, i32 4>		%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 9, i32 8, i32 1, i32 0, i32 13, i32 12, i32 5, i32 4>
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_08194c5d(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_08194c5d(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_08194c5d:		; AVX512F-LABEL: shuffle_v8i64_08194c5d:
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_08991abb(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_08991abb(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_08991abb:		; AVX512F-LABEL: shuffle_v8i64_08991abb:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,0,1,1,9,2,3,3]		; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,0,1,1,9,2,3,3]
; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8i64_08991abb:		; AVX512F-32-LABEL: shuffle_v8i64_08991abb:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,0,0,0,1,0,1,0,9,0,2,0,3,0,3,0]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,0,0,0,1,0,1,0,9,0,2,0,3,0,3,0]
; AVX512F-32-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>		%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_091b2d3f(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_091b2d3f(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_091b2d3f:		; AVX512F-LABEL: shuffle_v8i64_091b2d3f:
Show All 11 Lines	; AVX512F-32-NEXT: retl
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_09ab1def(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_09ab1def(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_09ab1def:		; AVX512F-LABEL: shuffle_v8i64_09ab1def:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,1,2,3,9,5,6,7]		; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,1,2,3,9,5,6,7]
; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8i64_09ab1def:		; AVX512F-32-LABEL: shuffle_v8i64_09ab1def:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,0,1,0,2,0,3,0,9,0,5,0,6,0,7,0]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,0,1,0,2,0,3,0,9,0,5,0,6,0,7,0]
; AVX512F-32-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 0, i32 9, i32 10, i32 11, i32 1, i32 13, i32 14, i32 15>		%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 0, i32 9, i32 10, i32 11, i32 1, i32 13, i32 14, i32 15>
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_00014445(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_00014445(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_00014445:		; AVX512F-LABEL: shuffle_v8i64_00014445:
▲ Show 20 Lines • Show All 512 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x i64> @shuffle_v8i64_6caa87e5(<8 x i64> %a, <8 x i64> %b) {		define <8 x i64> @shuffle_v8i64_6caa87e5(<8 x i64> %a, <8 x i64> %b) {
;		;
; AVX512F-LABEL: shuffle_v8i64_6caa87e5:		; AVX512F-LABEL: shuffle_v8i64_6caa87e5:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [14,4,2,2,0,15,6,13]		; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [14,4,2,2,0,15,6,13]
; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512F-32-LABEL: shuffle_v8i64_6caa87e5:		; AVX512F-32-LABEL: shuffle_v8i64_6caa87e5:
; AVX512F-32: # BB#0:		; AVX512F-32: # BB#0:
; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [14,0,4,0,2,0,2,0,0,0,15,0,6,0,13,0]		; AVX512F-32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [14,0,4,0,2,0,2,0,0,0,15,0,6,0,13,0]
; AVX512F-32-NEXT: vpermt2q %zmm0, %zmm2, %zmm1		; AVX512F-32-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0		; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl		; AVX512F-32-NEXT: retl
%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 6, i32 12, i32 10, i32 10, i32 8, i32 7, i32 14, i32 5>		%shuffle = shufflevector <8 x i64> %a, <8 x i64> %b, <8 x i32> <i32 6, i32 12, i32 10, i32 10, i32 8, i32 7, i32 14, i32 5>
ret <8 x i64> %shuffle		ret <8 x i64> %shuffle
}		}

define <8 x double> @shuffle_v8f64_082a4c6e(<8 x double> %a, <8 x double> %b) {		define <8 x double> @shuffle_v8f64_082a4c6e(<8 x double> %a, <8 x double> %b) {
;		;
; AVX512F-LABEL: shuffle_v8f64_082a4c6e:		; AVX512F-LABEL: shuffle_v8f64_082a4c6e:
▲ Show 20 Lines • Show All 454 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512bw.ll

Show First 20 Lines • Show All 117 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret <8 x double> %res1		ret <8 x double> %res1
}		}
define <8 x double> @combine_vpermt2var_8f64_identity_mask(<8 x double> %x0, <8 x double> %x1, i8 %m) {		define <8 x double> @combine_vpermt2var_8f64_identity_mask(<8 x double> %x0, <8 x double> %x1, i8 %m) {
; X32-LABEL: combine_vpermt2var_8f64_identity_mask:		; X32-LABEL: combine_vpermt2var_8f64_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
; X32-NEXT: kmovd %eax, %k1		; X32-NEXT: kmovd %eax, %k1
; X32-NEXT: vmovapd {{.*#+}} zmm2 = [7,0,6,0,5,0,4,0,3,0,2,0,1,0,0,0]		; X32-NEXT: vmovapd {{.*#+}} zmm2 = [7,0,6,0,5,0,4,0,3,0,2,0,1,0,0,0]
; X32-NEXT: vpermt2pd %zmm1, %zmm2, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2pd %zmm1, %zmm0, %zmm2 {%k1} {z}
; X32-NEXT: vmovapd {{.*#+}} zmm1 = [7,0,14,0,5,0,12,0,3,0,10,0,1,0,8,0]		; X32-NEXT: vmovapd {{.*#+}} zmm0 = [7,0,14,0,5,0,12,0,3,0,10,0,1,0,8,0]
; X32-NEXT: vpermt2pd %zmm0, %zmm1, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2pd %zmm2, %zmm2, %zmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_8f64_identity_mask:		; X64-LABEL: combine_vpermt2var_8f64_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovapd {{.*#+}} zmm2 = [7,6,5,4,3,2,1,0]		; X64-NEXT: vmovapd {{.*#+}} zmm2 = [7,6,5,4,3,2,1,0]
; X64-NEXT: vpermt2pd %zmm1, %zmm2, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2pd %zmm1, %zmm0, %zmm2 {%k1} {z}
; X64-NEXT: vmovapd {{.*#+}} zmm1 = [7,14,5,12,3,10,1,8]		; X64-NEXT: vmovapd {{.*#+}} zmm0 = [7,14,5,12,3,10,1,8]
; X64-NEXT: vpermt2pd %zmm0, %zmm1, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2pd %zmm2, %zmm2, %zmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x double> %x0, <8 x double> %x1, i8 %m)		%res0 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x double> %x0, <8 x double> %x1, i8 %m)
%res1 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 7, i64 14, i64 5, i64 12, i64 3, i64 10, i64 1, i64 8>, <8 x double> %res0, <8 x double> %res0, i8 %m)		%res1 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 7, i64 14, i64 5, i64 12, i64 3, i64 10, i64 1, i64 8>, <8 x double> %res0, <8 x double> %res0, i8 %m)
ret <8 x double> %res1		ret <8 x double> %res1
}		}

define <8 x double> @combine_vpermt2var_8f64_movddup(<8 x double> %x0, <8 x double> %x1) {		define <8 x double> @combine_vpermt2var_8f64_movddup(<8 x double> %x0, <8 x double> %x1) {
; X32-LABEL: combine_vpermt2var_8f64_movddup:		; X32-LABEL: combine_vpermt2var_8f64_movddup:
Show All 39 Lines	; X64-NEXT: retq
%res0 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 0, i64 0, i64 2, i64 2, i64 4, i64 4, i64 6, i64 6>, <8 x double> %x0, <8 x double> %x1, i8 %m)		%res0 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 0, i64 0, i64 2, i64 2, i64 4, i64 4, i64 6, i64 6>, <8 x double> %x0, <8 x double> %x1, i8 %m)
ret <8 x double> %res0		ret <8 x double> %res0
}		}

define <8 x i64> @combine_vpermt2var_8i64_identity(<8 x i64> %x0, <8 x i64> %x1) {		define <8 x i64> @combine_vpermt2var_8i64_identity(<8 x i64> %x0, <8 x i64> %x1) {
; X32-LABEL: combine_vpermt2var_8i64_identity:		; X32-LABEL: combine_vpermt2var_8i64_identity:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = <u,u,6,0,5,0,4,0,3,0,2,0,1,0,0,0>		; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = <u,u,6,0,5,0,4,0,3,0,2,0,1,0,0,0>
; X32-NEXT: vpermt2q %zmm1, %zmm2, %zmm0		; X32-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
; X32-NEXT: vmovdqa64 {{.*#+}} zmm1 = <u,u,14,0,5,0,12,0,3,0,10,0,1,0,8,0>		; X32-NEXT: vmovdqa64 {{.*#+}} zmm0 = <u,u,14,0,5,0,12,0,3,0,10,0,1,0,8,0>
; X32-NEXT: vpermt2q %zmm0, %zmm1, %zmm0		; X32-NEXT: vpermi2q %zmm2, %zmm2, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_8i64_identity:		; X64-LABEL: combine_vpermt2var_8i64_identity:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> %x0, <8 x i64> %x1, i8 -1)		%res0 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> %x0, <8 x i64> %x1, i8 -1)
%res1 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 undef, i64 14, i64 5, i64 12, i64 3, i64 10, i64 1, i64 8>, <8 x i64> %res0, <8 x i64> %res0, i8 -1)		%res1 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 undef, i64 14, i64 5, i64 12, i64 3, i64 10, i64 1, i64 8>, <8 x i64> %res0, <8 x i64> %res0, i8 -1)
ret <8 x i64> %res1		ret <8 x i64> %res1
}		}
define <8 x i64> @combine_vpermt2var_8i64_identity_mask(<8 x i64> %x0, <8 x i64> %x1, i8 %m) {		define <8 x i64> @combine_vpermt2var_8i64_identity_mask(<8 x i64> %x0, <8 x i64> %x1, i8 %m) {
; X32-LABEL: combine_vpermt2var_8i64_identity_mask:		; X32-LABEL: combine_vpermt2var_8i64_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
; X32-NEXT: kmovd %eax, %k1		; X32-NEXT: kmovd %eax, %k1
; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [7,0,6,0,5,0,4,0,3,0,2,0,1,0,0,0]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [7,0,6,0,5,0,4,0,3,0,2,0,1,0,0,0]
; X32-NEXT: vpermt2q %zmm1, %zmm2, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2q %zmm1, %zmm0, %zmm2 {%k1} {z}
; X32-NEXT: vmovdqa64 {{.*#+}} zmm1 = [7,0,14,0,5,0,12,0,3,0,10,0,1,0,8,0]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm0 = [7,0,14,0,5,0,12,0,3,0,10,0,1,0,8,0]
; X32-NEXT: vpermt2q %zmm0, %zmm1, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2q %zmm2, %zmm2, %zmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_8i64_identity_mask:		; X64-LABEL: combine_vpermt2var_8i64_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovdqa64 {{.*#+}} zmm2 = [7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm2 = [7,6,5,4,3,2,1,0]
; X64-NEXT: vpermt2q %zmm1, %zmm2, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2q %zmm1, %zmm0, %zmm2 {%k1} {z}
; X64-NEXT: vmovdqa64 {{.*#+}} zmm1 = [7,14,5,12,3,10,1,8]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm0 = [7,14,5,12,3,10,1,8]
; X64-NEXT: vpermt2q %zmm0, %zmm1, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2q %zmm2, %zmm2, %zmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> %x0, <8 x i64> %x1, i8 %m)		%res0 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> %x0, <8 x i64> %x1, i8 %m)
%res1 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 7, i64 14, i64 5, i64 12, i64 3, i64 10, i64 1, i64 8>, <8 x i64> %res0, <8 x i64> %res0, i8 %m)		%res1 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 7, i64 14, i64 5, i64 12, i64 3, i64 10, i64 1, i64 8>, <8 x i64> %res0, <8 x i64> %res0, i8 %m)
ret <8 x i64> %res1		ret <8 x i64> %res1
}		}

define <16 x float> @combine_vpermt2var_16f32_identity(<16 x float> %x0, <16 x float> %x1) {		define <16 x float> @combine_vpermt2var_16f32_identity(<16 x float> %x0, <16 x float> %x1) {
; X32-LABEL: combine_vpermt2var_16f32_identity:		; X32-LABEL: combine_vpermt2var_16f32_identity:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16f32_identity:		; X64-LABEL: combine_vpermt2var_16f32_identity:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> %x0, <16 x float> %x1, i16 -1)		%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> %x0, <16 x float> %x1, i16 -1)
%res1 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 11, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x float> %res0, <16 x float> %res0, i16 -1)		%res1 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 11, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x float> %res0, <16 x float> %res0, i16 -1)
ret <16 x float> %res1		ret <16 x float> %res1
}		}
define <16 x float> @combine_vpermt2var_16f32_identity_mask(<16 x float> %x0, <16 x float> %x1, i16 %m) {		define <16 x float> @combine_vpermt2var_16f32_identity_mask(<16 x float> %x0, <16 x float> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16f32_identity_mask:		; X32-LABEL: combine_vpermt2var_16f32_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovaps {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovaps {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermt2ps %zmm1, %zmm2, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2ps %zmm1, %zmm0, %zmm2 {%k1} {z}
; X32-NEXT: vmovaps {{.*#+}} zmm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X32-NEXT: vmovaps {{.*#+}} zmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X32-NEXT: vpermt2ps %zmm0, %zmm1, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2ps %zmm2, %zmm2, %zmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16f32_identity_mask:		; X64-LABEL: combine_vpermt2var_16f32_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovaps {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovaps {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermt2ps %zmm1, %zmm2, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2ps %zmm1, %zmm0, %zmm2 {%k1} {z}
; X64-NEXT: vmovaps {{.*#+}} zmm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X64-NEXT: vmovaps {{.*#+}} zmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X64-NEXT: vpermt2ps %zmm0, %zmm1, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2ps %zmm2, %zmm2, %zmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> %x0, <16 x float> %x1, i16 %m)		%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> %x0, <16 x float> %x1, i16 %m)
%res1 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 11, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x float> %res0, <16 x float> %res0, i16 %m)		%res1 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 11, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x float> %res0, <16 x float> %res0, i16 %m)
ret <16 x float> %res1		ret <16 x float> %res1
}		}

define <16 x float> @combine_vpermt2var_16f32_vmovddup(<16 x float> %x0, <16 x float> %x1) {		define <16 x float> @combine_vpermt2var_16f32_vmovddup(<16 x float> %x0, <16 x float> %x1) {
; X32-LABEL: combine_vpermt2var_16f32_vmovddup:		; X32-LABEL: combine_vpermt2var_16f32_vmovddup:
Show All 9 Lines
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 -1)		%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 -1)
ret <16 x float> %res0		ret <16 x float> %res0
}		}
define <16 x float> @combine_vpermt2var_16f32_vmovddup_load(<16 x float> *%p0, <16 x float> %x1) {		define <16 x float> @combine_vpermt2var_16f32_vmovddup_load(<16 x float> *%p0, <16 x float> %x1) {
; X32-LABEL: combine_vpermt2var_16f32_vmovddup_load:		; X32-LABEL: combine_vpermt2var_16f32_vmovddup_load:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: vmovaps (%eax), %zmm1		; X32-NEXT: vmovaps (%eax), %zmm2
; X32-NEXT: vmovaps {{.*#+}} zmm2 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]		; X32-NEXT: vmovaps {{.*#+}} zmm1 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]
; X32-NEXT: vpermt2ps %zmm0, %zmm2, %zmm1		; X32-NEXT: vpermi2ps %zmm0, %zmm2, %zmm1
; X32-NEXT: vmovaps %zmm1, %zmm0		; X32-NEXT: vmovaps %zmm1, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16f32_vmovddup_load:		; X64-LABEL: combine_vpermt2var_16f32_vmovddup_load:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovaps (%rdi), %zmm1		; X64-NEXT: vmovaps (%rdi), %zmm2
; X64-NEXT: vmovaps {{.*#+}} zmm2 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]		; X64-NEXT: vmovaps {{.*#+}} zmm1 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]
; X64-NEXT: vpermt2ps %zmm0, %zmm2, %zmm1		; X64-NEXT: vpermi2ps %zmm0, %zmm2, %zmm1
; X64-NEXT: vmovaps %zmm1, %zmm0		; X64-NEXT: vmovaps %zmm1, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%x0 = load <16 x float>, <16 x float> *%p0		%x0 = load <16 x float>, <16 x float> *%p0
%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 -1)		%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 -1)
ret <16 x float> %res0		ret <16 x float> %res0
}		}
define <16 x float> @combine_vpermt2var_16f32_vmovddup_mask(<16 x float> %x0, <16 x float> %x1, i16 %m) {		define <16 x float> @combine_vpermt2var_16f32_vmovddup_mask(<16 x float> %x0, <16 x float> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16f32_vmovddup_mask:		; X32-LABEL: combine_vpermt2var_16f32_vmovddup_mask:
Show All 12 Lines	; X64-NEXT: retq
%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 %m)		%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 %m)
ret <16 x float> %res0		ret <16 x float> %res0
}		}
define <16 x float> @combine_vpermt2var_16f32_vmovddup_mask_load(<16 x float> *%p0, <16 x float> %x1, i16 %m) {		define <16 x float> @combine_vpermt2var_16f32_vmovddup_mask_load(<16 x float> *%p0, <16 x float> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16f32_vmovddup_mask_load:		; X32-LABEL: combine_vpermt2var_16f32_vmovddup_mask_load:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: vmovaps (%eax), %zmm1		; X32-NEXT: vmovaps (%eax), %zmm2
; X32-NEXT: vmovaps {{.*#+}} zmm2 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]		; X32-NEXT: vmovaps {{.*#+}} zmm1 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]
; X32-NEXT: vpermt2ps %zmm0, %zmm2, %zmm1 {%k1} {z}		; X32-NEXT: vpermi2ps %zmm0, %zmm2, %zmm1 {%k1} {z}
; X32-NEXT: vmovaps %zmm1, %zmm0		; X32-NEXT: vmovaps %zmm1, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16f32_vmovddup_mask_load:		; X64-LABEL: combine_vpermt2var_16f32_vmovddup_mask_load:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovw %esi, %k1		; X64-NEXT: kmovw %esi, %k1
; X64-NEXT: vmovaps (%rdi), %zmm1		; X64-NEXT: vmovaps (%rdi), %zmm2
; X64-NEXT: vmovaps {{.*#+}} zmm2 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]		; X64-NEXT: vmovaps {{.*#+}} zmm1 = [0,1,0,1,4,5,4,5,8,9,8,9,12,13,12,13]
; X64-NEXT: vpermt2ps %zmm0, %zmm2, %zmm1 {%k1} {z}		; X64-NEXT: vpermi2ps %zmm0, %zmm2, %zmm1 {%k1} {z}
; X64-NEXT: vmovaps %zmm1, %zmm0		; X64-NEXT: vmovaps %zmm1, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%x0 = load <16 x float>, <16 x float> *%p0		%x0 = load <16 x float>, <16 x float> *%p0
%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 %m)		%res0 = call <16 x float> @llvm.x86.avx512.maskz.vpermt2var.ps.512(<16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5, i32 8, i32 9, i32 8, i32 9, i32 12, i32 13, i32 12, i32 13>, <16 x float> %x0, <16 x float> %x1, i16 %m)
ret <16 x float> %res0		ret <16 x float> %res0
}		}

define <16 x float> @combine_vpermt2var_16f32_vmovshdup(<16 x float> %x0, <16 x float> %x1) {		define <16 x float> @combine_vpermt2var_16f32_vmovshdup(<16 x float> %x0, <16 x float> %x1) {
▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 undef, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)		%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 undef, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)
ret <16 x i32> %res1		ret <16 x i32> %res1
}		}
define <16 x i32> @combine_vpermt2var_16i32_identity_mask(<16 x i32> %x0, <16 x i32> %x1, i16 %m) {		define <16 x i32> @combine_vpermt2var_16i32_identity_mask(<16 x i32> %x0, <16 x i32> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16i32_identity_mask:		; X32-LABEL: combine_vpermt2var_16i32_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovdqa32 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqa32 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermt2d %zmm1, %zmm2, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2d %zmm1, %zmm0, %zmm2 {%k1} {z}
; X32-NEXT: vmovdqa32 {{.*#+}} zmm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X32-NEXT: vmovdqa32 {{.*#+}} zmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X32-NEXT: vpermt2d %zmm0, %zmm1, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2d %zmm2, %zmm2, %zmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16i32_identity_mask:		; X64-LABEL: combine_vpermt2var_16i32_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovdqa32 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqa32 {{.*#+}} zmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermt2d %zmm1, %zmm2, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2d %zmm1, %zmm0, %zmm2 {%k1} {z}
; X64-NEXT: vmovdqa32 {{.*#+}} zmm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X64-NEXT: vmovdqa32 {{.*#+}} zmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X64-NEXT: vpermt2d %zmm0, %zmm1, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2d %zmm2, %zmm2, %zmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x i32> %x0, <16 x i32> %x1, i16 %m)		%res0 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x i32> %x0, <16 x i32> %x1, i16 %m)
%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 11, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x i32> %res0, <16 x i32> %res0, i16 %m)		%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 15, i32 30, i32 13, i32 28, i32 11, i32 26, i32 9, i32 24, i32 7, i32 22, i32 5, i32 20, i32 3, i32 18, i32 1, i32 16>, <16 x i32> %res0, <16 x i32> %res0, i16 %m)
ret <16 x i32> %res1		ret <16 x i32> %res1
}		}

define <32 x i16> @combine_vpermt2var_32i16_identity(<32 x i16> %x0, <32 x i16> %x1) {		define <32 x i16> @combine_vpermt2var_32i16_identity(<32 x i16> %x0, <32 x i16> %x1) {
; X32-LABEL: combine_vpermt2var_32i16_identity:		; X32-LABEL: combine_vpermt2var_32i16_identity:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_32i16_identity:		; X64-LABEL: combine_vpermt2var_32i16_identity:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)		%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)
%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 -1)		%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 -1)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}
define <32 x i16> @combine_vpermt2var_32i16_identity_mask(<32 x i16> %x0, <32 x i16> %x1, i32 %m) {		define <32 x i16> @combine_vpermt2var_32i16_identity_mask(<32 x i16> %x0, <32 x i16> %x1, i32 %m) {
; X32-LABEL: combine_vpermt2var_32i16_identity_mask:		; X32-LABEL: combine_vpermt2var_32i16_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovd {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovdqu16 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqu16 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermt2w %zmm1, %zmm2, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2w %zmm1, %zmm0, %zmm2 {%k1} {z}
; X32-NEXT: vmovdqu16 {{.*#+}} zmm1 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]		; X32-NEXT: vmovdqu16 {{.*#+}} zmm0 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]
; X32-NEXT: vpermt2w %zmm0, %zmm1, %zmm0 {%k1} {z}		; X32-NEXT: vpermi2w %zmm2, %zmm2, %zmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_32i16_identity_mask:		; X64-LABEL: combine_vpermt2var_32i16_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovd %edi, %k1		; X64-NEXT: kmovd %edi, %k1
; X64-NEXT: vmovdqu16 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqu16 {{.*#+}} zmm2 = [31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermt2w %zmm1, %zmm2, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2w %zmm1, %zmm0, %zmm2 {%k1} {z}
; X64-NEXT: vmovdqu16 {{.*#+}} zmm1 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]		; X64-NEXT: vmovdqu16 {{.*#+}} zmm0 = [63,30,61,28,59,26,57,24,55,22,53,20,51,18,49,16,47,46,13,44,11,42,9,40,7,38,5,36,3,34,1,32]
; X64-NEXT: vpermt2w %zmm0, %zmm1, %zmm0 {%k1} {z}		; X64-NEXT: vpermi2w %zmm2, %zmm2, %zmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 %m)		%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %x0, <32 x i16> %x1, i32 %m)
%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 %m)		%res1 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 63, i16 30, i16 61, i16 28, i16 59, i16 26, i16 57, i16 24, i16 55, i16 22, i16 53, i16 20, i16 51, i16 18, i16 49, i16 16, i16 47, i16 46, i16 13, i16 44, i16 11, i16 42, i16 9, i16 40, i16 7, i16 38, i16 5, i16 36, i16 3, i16 34, i16 1, i16 32>, <32 x i16> %res0, <32 x i16> %res0, i32 %m)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}

define <64 x i8> @combine_pshufb_identity(<64 x i8> %x0) {		define <64 x i8> @combine_pshufb_identity(<64 x i8> %x0) {
; X32-LABEL: combine_pshufb_identity:		; X32-LABEL: combine_pshufb_identity:
▲ Show 20 Lines • Show All 354 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res1 = call <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double> %res0, <8 x i64> <i64 12, i64 5, i64 14, i64 7, i64 8, i64 1, i64 10, i64 3>, <8 x double> %res0, i8 -1)		%res1 = call <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double> %res0, <8 x i64> <i64 12, i64 5, i64 14, i64 7, i64 8, i64 1, i64 10, i64 3>, <8 x double> %res0, i8 -1)
ret <8 x double> %res1		ret <8 x double> %res1
}		}

define <8 x i64> @combine_vpermt2var_8i64_as_vpermq(<8 x i64> %x0, <8 x i64> %x1) {		define <8 x i64> @combine_vpermt2var_8i64_as_vpermq(<8 x i64> %x0, <8 x i64> %x1) {
; X32-LABEL: combine_vpermt2var_8i64_as_vpermq:		; X32-LABEL: combine_vpermt2var_8i64_as_vpermq:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [3,0,2,0,1,0,0,0,7,0,6,0,5,0,4,0]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm2 = [3,0,2,0,1,0,0,0,7,0,6,0,5,0,4,0]
; X32-NEXT: vpermt2q %zmm1, %zmm2, %zmm0		; X32-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
; X32-NEXT: vmovdqa64 {{.*#+}} zmm1 = [12,0,5,0,14,0,7,0,8,0,1,0,10,0,3,0]		; X32-NEXT: vmovdqa64 {{.*#+}} zmm0 = [12,0,5,0,14,0,7,0,8,0,1,0,10,0,3,0]
; X32-NEXT: vpermt2q %zmm0, %zmm1, %zmm0		; X32-NEXT: vpermi2q %zmm2, %zmm2, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_8i64_as_vpermq:		; X64-LABEL: combine_vpermt2var_8i64_as_vpermq:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqa64 {{.*#+}} zmm1 = [7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqa64 {{.*#+}} zmm1 = [7,6,5,4,3,2,1,0]
; X64-NEXT: vpermq %zmm0, %zmm1, %zmm0		; X64-NEXT: vpermq %zmm0, %zmm1, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 3, i64 2, i64 1, i64 0, i64 7, i64 6, i64 5, i64 4>, <8 x i64> %x0, <8 x i64> %x1, i8 -1)		%res0 = call <8 x i64> @llvm.x86.avx512.maskz.vpermt2var.q.512(<8 x i64> <i64 3, i64 2, i64 1, i64 0, i64 7, i64 6, i64 5, i64 4>, <8 x i64> %x0, <8 x i64> %x1, i8 -1)
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 0, i16 31, i16 1, i16 30, i16 2, i16 29, i16 3, i16 28, i16 4, i16 27, i16 5, i16 26, i16 6, i16 25, i16 7, i16 24, i16 8, i16 23, i16 9, i16 22, i16 10, i16 21, i16 11, i16 20, i16 12, i16 19, i16 13, i16 18, i16 14, i16 17, i16 15, i16 16>, <32 x i16> %res0, i32 -1)		%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 0, i16 31, i16 1, i16 30, i16 2, i16 29, i16 3, i16 28, i16 4, i16 27, i16 5, i16 26, i16 6, i16 25, i16 7, i16 24, i16 8, i16 23, i16 9, i16 22, i16 10, i16 21, i16 11, i16 20, i16 12, i16 19, i16 13, i16 18, i16 14, i16 17, i16 15, i16 16>, <32 x i16> %res0, i32 -1)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}

define <8 x double> @combine_vpermi2var_vpermt2var_8f64_as_vperm2(<8 x double> %x0, <8 x double> %x1) {		define <8 x double> @combine_vpermi2var_vpermt2var_8f64_as_vperm2(<8 x double> %x0, <8 x double> %x1) {
; X32-LABEL: combine_vpermi2var_vpermt2var_8f64_as_vperm2:		; X32-LABEL: combine_vpermi2var_vpermt2var_8f64_as_vperm2:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovapd {{.*#+}} zmm2 = [4,0,14,0,3,0,12,0,7,0,8,0,0,0,15,0]		; X32-NEXT: vmovapd {{.*#+}} zmm2 = [4,0,14,0,3,0,12,0,7,0,8,0,0,0,15,0]
; X32-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; X32-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; X32-NEXT: vmovapd %zmm1, %zmm0		; X32-NEXT: vmovapd %zmm2, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermi2var_vpermt2var_8f64_as_vperm2:		; X64-LABEL: combine_vpermi2var_vpermt2var_8f64_as_vperm2:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovapd {{.*#+}} zmm2 = [4,14,3,12,7,8,0,15]		; X64-NEXT: vmovapd {{.*#+}} zmm2 = [4,14,3,12,7,8,0,15]
; X64-NEXT: vpermt2pd %zmm0, %zmm2, %zmm1		; X64-NEXT: vpermi2pd %zmm0, %zmm1, %zmm2
; X64-NEXT: vmovapd %zmm1, %zmm0		; X64-NEXT: vmovapd %zmm2, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double> %x0, <8 x i64> <i64 15, i64 0, i64 8, i64 7, i64 12, i64 6, i64 11, i64 4>, <8 x double> %x1, i8 -1)		%res0 = call <8 x double> @llvm.x86.avx512.mask.vpermi2var.pd.512(<8 x double> %x0, <8 x i64> <i64 15, i64 0, i64 8, i64 7, i64 12, i64 6, i64 11, i64 4>, <8 x double> %x1, i8 -1)
%res1 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 12, i64 5, i64 14, i64 7, i64 8, i64 1, i64 10, i64 3>, <8 x double> %res0, <8 x double> %res0, i8 -1)		%res1 = call <8 x double> @llvm.x86.avx512.maskz.vpermt2var.pd.512(<8 x i64> <i64 12, i64 5, i64 14, i64 7, i64 8, i64 1, i64 10, i64 3>, <8 x double> %res0, <8 x double> %res0, i8 -1)
ret <8 x double> %res1		ret <8 x double> %res1
}		}

define <16 x i32> @combine_vpermi2var_vpermt2var_16i32_as_vpermd(<16 x i32> %x0, <16 x i32> %x1) {		define <16 x i32> @combine_vpermi2var_vpermt2var_16i32_as_vpermd(<16 x i32> %x0, <16 x i32> %x1) {
; X32-LABEL: combine_vpermi2var_vpermt2var_16i32_as_vpermd:		; X32-LABEL: combine_vpermi2var_vpermt2var_16i32_as_vpermd:
Show All 11 Lines	; X64-NEXT: retq
%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 0, i32 17, i32 2, i32 18, i32 4, i32 19, i32 6, i32 21, i32 8, i32 23, i32 10, i32 25, i32 12, i32 27, i32 14, i32 29>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)		%res1 = call <16 x i32> @llvm.x86.avx512.maskz.vpermt2var.d.512(<16 x i32> <i32 0, i32 17, i32 2, i32 18, i32 4, i32 19, i32 6, i32 21, i32 8, i32 23, i32 10, i32 25, i32 12, i32 27, i32 14, i32 29>, <16 x i32> %res0, <16 x i32> %res0, i16 -1)
ret <16 x i32> %res1		ret <16 x i32> %res1
}		}

define <32 x i16> @combine_vpermt2var_vpermi2var_32i16_as_permw(<32 x i16> %x0, <32 x i16> %x1) {		define <32 x i16> @combine_vpermt2var_vpermi2var_32i16_as_permw(<32 x i16> %x0, <32 x i16> %x1) {
; X32-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:		; X32-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu16 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]		; X32-NEXT: vmovdqu16 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]
; X32-NEXT: vpermt2w %zmm0, %zmm2, %zmm1		; X32-NEXT: vpermi2w %zmm0, %zmm1, %zmm2
; X32-NEXT: vmovdqa64 %zmm1, %zmm0		; X32-NEXT: vmovdqa64 %zmm2, %zmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:		; X64-LABEL: combine_vpermt2var_vpermi2var_32i16_as_permw:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu16 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]		; X64-NEXT: vmovdqu16 {{.*#+}} zmm2 = [17,39,19,38,21,37,23,36,25,35,27,34,29,33,31,32,1,47,3,46,5,45,7,44,9,43,11,42,13,41,15,40]
; X64-NEXT: vpermt2w %zmm0, %zmm2, %zmm1		; X64-NEXT: vpermi2w %zmm0, %zmm1, %zmm2
; X64-NEXT: vmovdqa64 %zmm1, %zmm0		; X64-NEXT: vmovdqa64 %zmm2, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 0, i16 63, i16 1, i16 61, i16 2, i16 59, i16 3, i16 57, i16 4, i16 55, i16 5, i16 53, i16 6, i16 51, i16 7, i16 49, i16 8, i16 47, i16 9, i16 45, i16 10, i16 43, i16 11, i16 41, i16 12, i16 39, i16 13, i16 37, i16 14, i16 35, i16 15, i16 33>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)		%res0 = call <32 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.512(<32 x i16> <i16 0, i16 63, i16 1, i16 61, i16 2, i16 59, i16 3, i16 57, i16 4, i16 55, i16 5, i16 53, i16 6, i16 51, i16 7, i16 49, i16 8, i16 47, i16 9, i16 45, i16 10, i16 43, i16 11, i16 41, i16 12, i16 39, i16 13, i16 37, i16 14, i16 35, i16 15, i16 33>, <32 x i16> %x0, <32 x i16> %x1, i32 -1)
%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0, i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16>, <32 x i16> %res0, i32 -1)		%res1 = call <32 x i16> @llvm.x86.avx512.mask.vpermi2var.hi.512(<32 x i16> %res0, <32 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0, i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16>, <32 x i16> %res0, i32 -1)
ret <32 x i16> %res1		ret <32 x i16> %res1
}		}

define <8 x double> @combine_vpermi2var_vpermvar_8f64_as_vperm2_zero(<8 x double> %x0) {		define <8 x double> @combine_vpermi2var_vpermvar_8f64_as_vperm2_zero(<8 x double> %x0) {
; X32-LABEL: combine_vpermi2var_vpermvar_8f64_as_vperm2_zero:		; X32-LABEL: combine_vpermi2var_vpermvar_8f64_as_vperm2_zero:
Show All 36 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll

Show All 17 Lines	; X64-NEXT: retq
%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 -1)		%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 -1)
ret <16 x i16> %res1		ret <16 x i16> %res1
}		}
define <16 x i16> @combine_vpermt2var_16i16_identity_mask(<16 x i16> %x0, <16 x i16> %x1, i16 %m) {		define <16 x i16> @combine_vpermt2var_16i16_identity_mask(<16 x i16> %x0, <16 x i16> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16i16_identity_mask:		; X32-LABEL: combine_vpermt2var_16i16_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovdqu16 {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqu16 {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermt2w %ymm1, %ymm2, %ymm0 {%k1} {z}		; X32-NEXT: vpermi2w %ymm1, %ymm0, %ymm2 {%k1} {z}
; X32-NEXT: vmovdqu16 {{.*#+}} ymm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X32-NEXT: vmovdqu16 {{.*#+}} ymm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X32-NEXT: vpermt2w %ymm0, %ymm1, %ymm0 {%k1} {z}		; X32-NEXT: vpermi2w %ymm2, %ymm2, %ymm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16i16_identity_mask:		; X64-LABEL: combine_vpermt2var_16i16_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovdqu16 {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqu16 {{.*#+}} ymm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermt2w %ymm1, %ymm2, %ymm0 {%k1} {z}		; X64-NEXT: vpermi2w %ymm1, %ymm0, %ymm2 {%k1} {z}
; X64-NEXT: vmovdqu16 {{.*#+}} ymm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X64-NEXT: vmovdqu16 {{.*#+}} ymm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X64-NEXT: vpermt2w %ymm0, %ymm1, %ymm0 {%k1} {z}		; X64-NEXT: vpermi2w %ymm2, %ymm2, %ymm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x0, <16 x i16> %x1, i16 %m)		%res0 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %x0, <16 x i16> %x1, i16 %m)
%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 %m)		%res1 = call <16 x i16> @llvm.x86.avx512.maskz.vpermt2var.hi.256(<16 x i16> <i16 15, i16 30, i16 13, i16 28, i16 11, i16 26, i16 9, i16 24, i16 7, i16 22, i16 5, i16 20, i16 3, i16 18, i16 1, i16 16>, <16 x i16> %res0, <16 x i16> %res0, i16 %m)
ret <16 x i16> %res1		ret <16 x i16> %res1
}		}

define <16 x i16> @combine_vpermi2var_16i16_as_permw(<16 x i16> %x0, <16 x i16> %x1) {		define <16 x i16> @combine_vpermi2var_16i16_as_permw(<16 x i16> %x0, <16 x i16> %x1) {
; X32-LABEL: combine_vpermi2var_16i16_as_permw:		; X32-LABEL: combine_vpermi2var_16i16_as_permw:
Show All 31 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining-avx512vbmi.ll

Show All 32 Lines	; X64-NEXT: retq
%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)		%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)
ret <16 x i8> %res1		ret <16 x i8> %res1
}		}
define <16 x i8> @combine_vpermt2var_16i8_identity_mask(<16 x i8> %x0, <16 x i8> %x1, i16 %m) {		define <16 x i8> @combine_vpermt2var_16i8_identity_mask(<16 x i8> %x0, <16 x i8> %x1, i16 %m) {
; X32-LABEL: combine_vpermt2var_16i8_identity_mask:		; X32-LABEL: combine_vpermt2var_16i8_identity_mask:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X32-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X32-NEXT: vmovdqu8 {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X32-NEXT: vmovdqu8 {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X32-NEXT: vpermt2b %xmm1, %xmm2, %xmm0 {%k1} {z}		; X32-NEXT: vpermi2b %xmm1, %xmm0, %xmm2 {%k1} {z}
; X32-NEXT: vmovdqu8 {{.*#+}} xmm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X32-NEXT: vmovdqu8 {{.*#+}} xmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X32-NEXT: vpermt2b %xmm0, %xmm1, %xmm0 {%k1} {z}		; X32-NEXT: vpermi2b %xmm2, %xmm2, %xmm0 {%k1} {z}
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_16i8_identity_mask:		; X64-LABEL: combine_vpermt2var_16i8_identity_mask:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovdqu8 {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]		; X64-NEXT: vmovdqu8 {{.*#+}} xmm2 = [15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0]
; X64-NEXT: vpermt2b %xmm1, %xmm2, %xmm0 {%k1} {z}		; X64-NEXT: vpermi2b %xmm1, %xmm0, %xmm2 {%k1} {z}
; X64-NEXT: vmovdqu8 {{.*#+}} xmm1 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]		; X64-NEXT: vmovdqu8 {{.*#+}} xmm0 = [15,30,13,28,11,26,9,24,7,22,5,20,3,18,1,16]
; X64-NEXT: vpermt2b %xmm0, %xmm1, %xmm0 {%k1} {z}		; X64-NEXT: vpermi2b %xmm2, %xmm2, %xmm0 {%k1} {z}
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x0, <16 x i8> %x1, i16 %m)		%res0 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %x0, <16 x i8> %x1, i16 %m)
%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 %m)		%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 15, i8 30, i8 13, i8 28, i8 11, i8 26, i8 9, i8 24, i8 7, i8 22, i8 5, i8 20, i8 3, i8 18, i8 1, i8 16>, <16 x i8> %res0, <16 x i8> %res0, i16 %m)
ret <16 x i8> %res1		ret <16 x i8> %res1
}		}

define <16 x i8> @combine_vpermi2var_16i8_as_vpshufb(<16 x i8> %x0, <16 x i8> %x1) {		define <16 x i8> @combine_vpermi2var_16i8_as_vpshufb(<16 x i8> %x0, <16 x i8> %x1) {
; X32-LABEL: combine_vpermi2var_16i8_as_vpshufb:		; X32-LABEL: combine_vpermi2var_16i8_as_vpshufb:
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
}		}

define <16 x i8> @combine_vpermt2var_vpermi2var_16i8_as_vperm2(<16 x i8> %x0, <16 x i8> %x1) {		define <16 x i8> @combine_vpermt2var_vpermi2var_16i8_as_vperm2(<16 x i8> %x0, <16 x i8> %x1) {
; X32-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:		; X32-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: vmovdqu8 {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]		; X32-NEXT: vmovdqu8 {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]
; X32-NEXT: vpermi2b %xmm1, %xmm0, %xmm2		; X32-NEXT: vpermi2b %xmm1, %xmm0, %xmm2
; X32-NEXT: vmovdqu8 {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]		; X32-NEXT: vmovdqu8 {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]
; X32-NEXT: vpermt2b %xmm2, %xmm0, %xmm2		; X32-NEXT: vpermi2b %xmm2, %xmm2, %xmm0
; X32-NEXT: vmovdqa64 %xmm2, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:		; X64-LABEL: combine_vpermt2var_vpermi2var_16i8_as_vperm2:
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: vmovdqu8 {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]		; X64-NEXT: vmovdqu8 {{.*#+}} xmm2 = [0,31,2,29,4,27,6,25,8,23,10,21,12,19,14,17]
; X64-NEXT: vpermi2b %xmm1, %xmm0, %xmm2		; X64-NEXT: vpermi2b %xmm1, %xmm0, %xmm2
; X64-NEXT: vmovdqu8 {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]		; X64-NEXT: vmovdqu8 {{.*#+}} xmm0 = [0,17,2,18,4,19,6,21,8,23,10,25,12,27,14,29]
; X64-NEXT: vpermt2b %xmm2, %xmm0, %xmm2		; X64-NEXT: vpermi2b %xmm2, %xmm2, %xmm0
; X64-NEXT: vmovdqa64 %xmm2, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res0 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> <i8 0, i8 31, i8 2, i8 29, i8 4, i8 27, i8 6, i8 25, i8 8, i8 23, i8 10, i8 21, i8 12, i8 19, i8 14, i8 17>, <16 x i8> %x1, i16 -1)		%res0 = call <16 x i8> @llvm.x86.avx512.mask.vpermi2var.qi.128(<16 x i8> %x0, <16 x i8> <i8 0, i8 31, i8 2, i8 29, i8 4, i8 27, i8 6, i8 25, i8 8, i8 23, i8 10, i8 21, i8 12, i8 19, i8 14, i8 17>, <16 x i8> %x1, i16 -1)
%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 0, i8 17, i8 2, i8 18, i8 4, i8 19, i8 6, i8 21, i8 8, i8 23, i8 10, i8 25, i8 12, i8 27, i8 14, i8 29>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)		%res1 = call <16 x i8> @llvm.x86.avx512.maskz.vpermt2var.qi.128(<16 x i8> <i8 0, i8 17, i8 2, i8 18, i8 4, i8 19, i8 6, i8 21, i8 8, i8 23, i8 10, i8 25, i8 12, i8 27, i8 14, i8 29>, <16 x i8> %res0, <16 x i8> %res0, i16 -1)
ret <16 x i8> %res1		ret <16 x i8> %res1
}		}
define <32 x i8> @combine_vpermi2var_32i8_as_vperm2(<32 x i8> %x0, <32 x i8> %x1) {		define <32 x i8> @combine_vpermi2var_32i8_as_vperm2(<32 x i8> %x0, <32 x i8> %x1) {
; X32-LABEL: combine_vpermi2var_32i8_as_vperm2:		; X32-LABEL: combine_vpermi2var_32i8_as_vperm2:
; X32: # BB#0:		; X32: # BB#0:
Show All 29 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-v1.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; AVX512F-LABEL: shuf16i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:			; AVX512F-LABEL: shuf16i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vpcmpeqd %zmm2, %zmm0, %k1			; AVX512F-NEXT: vpcmpeqd %zmm2, %zmm0, %k1
	; AVX512F-NEXT: vpcmpeqd %zmm3, %zmm1, %k2			; AVX512F-NEXT: vpcmpeqd %zmm3, %zmm1, %k2
	; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; AVX512F-NEXT: vmovdqa32 %zmm0, %zmm1 {%k2} {z}			; AVX512F-NEXT: vmovdqa32 %zmm0, %zmm1 {%k2} {z}
	; AVX512F-NEXT: vmovdqa32 %zmm0, %zmm2 {%k1} {z}			; AVX512F-NEXT: vmovdqa32 %zmm0, %zmm2 {%k1} {z}
	; AVX512F-NEXT: vmovdqa32 {{.*#+}} zmm3 = [3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0]			; AVX512F-NEXT: vmovdqa32 {{.*#+}} zmm3 = [3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0]
	; AVX512F-NEXT: vpermt2d %zmm1, %zmm3, %zmm2			; AVX512F-NEXT: vpermi2d %zmm1, %zmm2, %zmm3
	; AVX512F-NEXT: vpslld $31, %zmm2, %zmm1			; AVX512F-NEXT: vpslld $31, %zmm3, %zmm1
	; AVX512F-NEXT: vptestmd %zmm1, %zmm1, %k1			; AVX512F-NEXT: vptestmd %zmm1, %zmm1, %k1
	; AVX512F-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0			; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; VL_BW_DQ-LABEL: shuf16i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:			; VL_BW_DQ-LABEL: shuf16i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:
	; VL_BW_DQ: # BB#0:			; VL_BW_DQ: # BB#0:
	; VL_BW_DQ-NEXT: vpcmpeqd %zmm2, %zmm0, %k0			; VL_BW_DQ-NEXT: vpcmpeqd %zmm2, %zmm0, %k0
	; VL_BW_DQ-NEXT: vpcmpeqd %zmm3, %zmm1, %k1			; VL_BW_DQ-NEXT: vpcmpeqd %zmm3, %zmm1, %k1
	; VL_BW_DQ-NEXT: vpmovm2d %k1, %zmm0			; VL_BW_DQ-NEXT: vpmovm2d %k1, %zmm0
	; VL_BW_DQ-NEXT: vpmovm2d %k0, %zmm1			; VL_BW_DQ-NEXT: vpmovm2d %k0, %zmm1
	; VL_BW_DQ-NEXT: vmovdqa32 {{.*#+}} zmm2 = [3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0]			; VL_BW_DQ-NEXT: vmovdqa32 {{.*#+}} zmm2 = [3,6,22,12,3,7,7,0,3,6,1,13,3,21,7,0]
	; VL_BW_DQ-NEXT: vpermt2d %zmm0, %zmm2, %zmm1			; VL_BW_DQ-NEXT: vpermi2d %zmm0, %zmm1, %zmm2
	; VL_BW_DQ-NEXT: vpmovd2m %zmm1, %k0			; VL_BW_DQ-NEXT: vpmovd2m %zmm2, %k0
	; VL_BW_DQ-NEXT: vpmovm2b %k0, %xmm0			; VL_BW_DQ-NEXT: vpmovm2b %k0, %xmm0
	; VL_BW_DQ-NEXT: retq			; VL_BW_DQ-NEXT: retq
	%a2 = icmp eq <16 x i32> %a, %a1			%a2 = icmp eq <16 x i32> %a, %a1
	%b2 = icmp eq <16 x i32> %b, %b1			%b2 = icmp eq <16 x i32> %b, %b1
	%c = shufflevector <16 x i1> %a2, <16 x i1> %b2, <16 x i32> <i32 3, i32 6, i32 22, i32 12, i32 3, i32 7, i32 7, i32 0, i32 3, i32 6, i32 1, i32 13, i32 3, i32 21, i32 7, i32 0>			%c = shufflevector <16 x i1> %a2, <16 x i1> %b2, <16 x i32> <i32 3, i32 6, i32 22, i32 12, i32 3, i32 7, i32 7, i32 0, i32 3, i32 6, i32 1, i32 13, i32 3, i32 21, i32 7, i32 0>
	ret <16 x i1> %c			ret <16 x i1> %c
	}			}

	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	define i8 @shuf8i1_10_2_9_u_3_u_2_u(i8 %a) {			define i8 @shuf8i1_10_2_9_u_3_u_2_u(i8 %a) {
	; AVX512F-LABEL: shuf8i1_10_2_9_u_3_u_2_u:			; AVX512F-LABEL: shuf8i1_10_2_9_u_3_u_2_u:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: kmovw %edi, %k1			; AVX512F-NEXT: kmovw %edi, %k1
	; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}
	; AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = <8,2,10,u,3,u,2,u>			; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = <8,2,10,u,3,u,2,u>
	; AVX512F-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; AVX512F-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; AVX512F-NEXT: vpsllq $63, %zmm0, %zmm0			; AVX512F-NEXT: vpsllq $63, %zmm2, %zmm0
	; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0
	; AVX512F-NEXT: kmovw %k0, %eax			; AVX512F-NEXT: kmovw %k0, %eax
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; VL_BW_DQ-LABEL: shuf8i1_10_2_9_u_3_u_2_u:			; VL_BW_DQ-LABEL: shuf8i1_10_2_9_u_3_u_2_u:
	; VL_BW_DQ: # BB#0:			; VL_BW_DQ: # BB#0:
	; VL_BW_DQ-NEXT: kmovb %edi, %k0			; VL_BW_DQ-NEXT: kmovb %edi, %k0
	; VL_BW_DQ-NEXT: vpmovm2q %k0, %zmm0			; VL_BW_DQ-NEXT: vpmovm2q %k0, %zmm0
	; VL_BW_DQ-NEXT: vpxord %zmm1, %zmm1, %zmm1			; VL_BW_DQ-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; VL_BW_DQ-NEXT: vmovdqa64 {{.*#+}} zmm2 = <8,2,10,u,3,u,2,u>			; VL_BW_DQ-NEXT: vmovdqa64 {{.*#+}} zmm2 = <8,2,10,u,3,u,2,u>
	; VL_BW_DQ-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; VL_BW_DQ-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; VL_BW_DQ-NEXT: vpmovq2m %zmm0, %k0			; VL_BW_DQ-NEXT: vpmovq2m %zmm2, %k0
	; VL_BW_DQ-NEXT: kmovb %k0, %eax			; VL_BW_DQ-NEXT: kmovb %k0, %eax
	; VL_BW_DQ-NEXT: retq			; VL_BW_DQ-NEXT: retq
	%b = bitcast i8 %a to <8 x i1>			%b = bitcast i8 %a to <8 x i1>
	%c = shufflevector < 8 x i1> %b, <8 x i1> zeroinitializer, <8 x i32> <i32 10, i32 2, i32 9, i32 undef, i32 3, i32 undef, i32 2, i32 undef>			%c = shufflevector < 8 x i1> %b, <8 x i1> zeroinitializer, <8 x i32> <i32 10, i32 2, i32 9, i32 undef, i32 3, i32 undef, i32 2, i32 undef>
	%d = bitcast <8 x i1> %c to i8			%d = bitcast <8 x i1> %c to i8
	ret i8 %d			ret i8 %d
	}			}

	Show All 26 Lines
	define i8 @shuf8i1_9_6_1_0_3_7_7_0(i8 %a) {			define i8 @shuf8i1_9_6_1_0_3_7_7_0(i8 %a) {
	; AVX512F-LABEL: shuf8i1_9_6_1_0_3_7_7_0:			; AVX512F-LABEL: shuf8i1_9_6_1_0_3_7_7_0:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: kmovw %edi, %k1			; AVX512F-NEXT: kmovw %edi, %k1
	; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}
	; AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1			; AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,6,1,0,3,7,7,0]			; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,6,1,0,3,7,7,0]
	; AVX512F-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; AVX512F-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; AVX512F-NEXT: vpsllq $63, %zmm0, %zmm0			; AVX512F-NEXT: vpsllq $63, %zmm2, %zmm0
	; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0
	; AVX512F-NEXT: kmovw %k0, %eax			; AVX512F-NEXT: kmovw %k0, %eax
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; VL_BW_DQ-LABEL: shuf8i1_9_6_1_0_3_7_7_0:			; VL_BW_DQ-LABEL: shuf8i1_9_6_1_0_3_7_7_0:
	; VL_BW_DQ: # BB#0:			; VL_BW_DQ: # BB#0:
	; VL_BW_DQ-NEXT: kmovb %edi, %k0			; VL_BW_DQ-NEXT: kmovb %edi, %k0
	; VL_BW_DQ-NEXT: vpmovm2q %k0, %zmm0			; VL_BW_DQ-NEXT: vpmovm2q %k0, %zmm0
	; VL_BW_DQ-NEXT: vpxord %zmm1, %zmm1, %zmm1			; VL_BW_DQ-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; VL_BW_DQ-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,6,1,0,3,7,7,0]			; VL_BW_DQ-NEXT: vmovdqa64 {{.*#+}} zmm2 = [8,6,1,0,3,7,7,0]
	; VL_BW_DQ-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; VL_BW_DQ-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; VL_BW_DQ-NEXT: vpmovq2m %zmm0, %k0			; VL_BW_DQ-NEXT: vpmovq2m %zmm2, %k0
	; VL_BW_DQ-NEXT: kmovb %k0, %eax			; VL_BW_DQ-NEXT: kmovb %k0, %eax
	; VL_BW_DQ-NEXT: retq			; VL_BW_DQ-NEXT: retq
	%b = bitcast i8 %a to <8 x i1>			%b = bitcast i8 %a to <8 x i1>
	%c = shufflevector <8 x i1> %b, <8 x i1> zeroinitializer, <8 x i32> <i32 9, i32 6, i32 1, i32 0, i32 3, i32 7, i32 7, i32 0>			%c = shufflevector <8 x i1> %b, <8 x i1> zeroinitializer, <8 x i32> <i32 9, i32 6, i32 1, i32 0, i32 3, i32 7, i32 7, i32 0>
	%d = bitcast <8 x i1>%c to i8			%d = bitcast <8 x i1>%c to i8
	ret i8 %d			ret i8 %d
	}			}

	Show All 32 Lines
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: kmovw %edi, %k1			; AVX512F-NEXT: kmovw %edi, %k1
	; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; AVX512F-NEXT: movb $51, %al			; AVX512F-NEXT: movb $51, %al
	; AVX512F-NEXT: kmovw %eax, %k2			; AVX512F-NEXT: kmovw %eax, %k2
	; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm1 {%k2} {z}			; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm1 {%k2} {z}
	; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm0 {%k1} {z}
	; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [9,6,1,0,3,7,7,1]			; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [9,6,1,0,3,7,7,1]
	; AVX512F-NEXT: vpermt2q %zmm0, %zmm2, %zmm1			; AVX512F-NEXT: vpermi2q %zmm0, %zmm1, %zmm2
	; AVX512F-NEXT: vpsllq $63, %zmm1, %zmm0			; AVX512F-NEXT: vpsllq $63, %zmm2, %zmm0
	; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0
	; AVX512F-NEXT: kmovw %k0, %eax			; AVX512F-NEXT: kmovw %k0, %eax
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; VL_BW_DQ-LABEL: shuf8i1__9_6_1_10_3_7_7_1:			; VL_BW_DQ-LABEL: shuf8i1__9_6_1_10_3_7_7_1:
	; VL_BW_DQ: # BB#0:			; VL_BW_DQ: # BB#0:
	; VL_BW_DQ-NEXT: kmovb %edi, %k0			; VL_BW_DQ-NEXT: kmovb %edi, %k0
	; VL_BW_DQ-NEXT: movb $51, %al			; VL_BW_DQ-NEXT: movb $51, %al
	; VL_BW_DQ-NEXT: kmovb %eax, %k1			; VL_BW_DQ-NEXT: kmovb %eax, %k1
	; VL_BW_DQ-NEXT: vpmovm2q %k1, %zmm0			; VL_BW_DQ-NEXT: vpmovm2q %k1, %zmm0
	; VL_BW_DQ-NEXT: vpmovm2q %k0, %zmm1			; VL_BW_DQ-NEXT: vpmovm2q %k0, %zmm1
	; VL_BW_DQ-NEXT: vmovdqa64 {{.*#+}} zmm2 = [9,6,1,0,3,7,7,1]			; VL_BW_DQ-NEXT: vmovdqa64 {{.*#+}} zmm2 = [9,6,1,0,3,7,7,1]
	; VL_BW_DQ-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; VL_BW_DQ-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; VL_BW_DQ-NEXT: vpmovq2m %zmm0, %k0			; VL_BW_DQ-NEXT: vpmovq2m %zmm2, %k0
	; VL_BW_DQ-NEXT: kmovb %k0, %eax			; VL_BW_DQ-NEXT: kmovb %k0, %eax
	; VL_BW_DQ-NEXT: retq			; VL_BW_DQ-NEXT: retq
	%b = bitcast i8 %a to <8 x i1>			%b = bitcast i8 %a to <8 x i1>
	%c = shufflevector <8 x i1> <i1 1, i1 1, i1 0, i1 0, i1 1, i1 1, i1 0, i1 0>, <8 x i1> %b, <8 x i32> <i32 9, i32 6, i32 1, i32 0, i32 3, i32 7, i32 7, i32 1>			%c = shufflevector <8 x i1> <i1 1, i1 1, i1 0, i1 0, i1 1, i1 1, i1 0, i1 0>, <8 x i1> %b, <8 x i32> <i32 9, i32 6, i32 1, i32 0, i32 3, i32 7, i32 7, i32 1>
	%c1 = bitcast <8 x i1>%c to i8			%c1 = bitcast <8 x i1>%c to i8
	ret i8 %c1			ret i8 %c1
	}			}

	define i8 @shuf8i1_9_6_1_10_3_7_7_0_all_ones(<8 x i1> %a) {			define i8 @shuf8i1_9_6_1_10_3_7_7_0_all_ones(<8 x i1> %a) {
	; AVX512F-LABEL: shuf8i1_9_6_1_10_3_7_7_0_all_ones:			; AVX512F-LABEL: shuf8i1_9_6_1_10_3_7_7_0_all_ones:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vpmovsxwq %xmm0, %zmm0			; AVX512F-NEXT: vpmovsxwq %xmm0, %zmm0
	; AVX512F-NEXT: vpsllq $63, %zmm0, %zmm0			; AVX512F-NEXT: vpsllq $63, %zmm0, %zmm0
	; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k1			; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k1
	; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0
	; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm1 {%k1} {z}			; AVX512F-NEXT: vmovdqa64 %zmm0, %zmm1 {%k1} {z}
	; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [9,1,2,3,4,5,6,7]			; AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = [9,1,2,3,4,5,6,7]
	; AVX512F-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; AVX512F-NEXT: vpermi2q %zmm1, %zmm0, %zmm2
	; AVX512F-NEXT: vpsllq $63, %zmm0, %zmm0			; AVX512F-NEXT: vpsllq $63, %zmm2, %zmm0
	; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestmq %zmm0, %zmm0, %k0
	; AVX512F-NEXT: kmovw %k0, %eax			; AVX512F-NEXT: kmovw %k0, %eax
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; VL_BW_DQ-LABEL: shuf8i1_9_6_1_10_3_7_7_0_all_ones:			; VL_BW_DQ-LABEL: shuf8i1_9_6_1_10_3_7_7_0_all_ones:
	; VL_BW_DQ: # BB#0:			; VL_BW_DQ: # BB#0:
	; VL_BW_DQ-NEXT: vpsllw $15, %xmm0, %xmm0			; VL_BW_DQ-NEXT: vpsllw $15, %xmm0, %xmm0
	; VL_BW_DQ-NEXT: vpmovw2m %xmm0, %k0			; VL_BW_DQ-NEXT: vpmovw2m %xmm0, %k0
	▲ Show 20 Lines • Show All 88 Lines • Show Last 20 Lines